Das chinesische Unternehmen DeepSeek hat mit der Veröffentlichung seines neuesten Produkts, dem KI-Modell DeepSeek V3, für Aufsehen gesorgt. Als eines der derzeit leistungsstärksten "offenen" KI-Modelle verspricht es bahnbrechende Möglichkeiten für Entwickler weltweit. Eine lockere Lizenz ermöglicht es, dieses Modell nicht nur herunterzuladen, sondern auch flexibel für eine Vielzahl von Anwendungen, inklusive kommerzieller Zwecke, anzupassen.
DeepSeek V3 hat bereits in verschiedenen textbasierten Anwendungsbereichen überzeugt, darunter Programmierung, Übersetzung sowie das Verfassen von Aufsätzen und E-Mails aus einfachen Beschreibungen. Interne Tests des Unternehmens zeigen, dass es nicht nur andere frei verfügbare KI-Modelle übertrifft, sondern auch jene, die lediglich über eine API zugänglich sind.
Besonders in Programmierwettbewerben auf der Plattform Codeforces sticht DeepSeek V3 hervor. Es übertrifft namhafte Konkurrenzmodelle wie Meta's Llama 3.1 405B, OpenAI's GPT-4o und Alibaba's Qwen 2.5 72B. Auch auf Aider Polgyglot, einer Plattform zur Bewertung von Programmierfähigkeiten in vorhandenen Code-Umgebungen, zeigt es herausragende Leistungen.
Das Geheimnis des Erfolgs könnte in den beachtlichen 14,8 Billionen Tokens liegen, auf denen das Modell trainiert wurde. Diese Datenmenge entspricht etwa 750.000 Worten pro Million Tokens. Ebenso beeindruckend ist die schiere Größe des Modells: Mit 685 Milliarden Parametern übertrifft DeepSeek V3 die meisten seiner Mitstreiter. Dies verdeutlicht die Ambitionen von DeepSeek, den technologischen Fortschritt weiter voranzutreiben.
Die hohe Anzahl an Parametern erfordert jedoch leistungsstarke Hardware. Eine nicht optimierte Version von DeepSeek V3 könnte nur mit einer Vielzahl hochklassiger GPUs betrieben werden, um schnelle Antworten zu gewährleisten. Trotz dieser Herausforderungen zeigt DeepSeek V3, dass das Wettrennen um das beste KI-Modell längst nicht entschieden ist.