Wie das kleine chinesische KI-Startup DeepSeek Silicon Valley schockierte.

Ein kleines chinesisches KI-Labor hat diese Woche die Welt verblüfft, indem es das technische Rezept für sein hochmodernes Modell preisgegeben hat und seinen zurückgezogenen Anführer zu einem nationalen Helden gemacht hat, der den Versuchen der USA, Chinas High-Tech-Ambitionen zu stoppen, trotzt.

DeepSeek, gegründet von Hedgefonds-Manager Liang Wenfeng, hat am Montag sein R1-Modell veröffentlicht und in einem ausführlichen Papier erklärt, wie man ein großes Sprachmodell mit einem begrenzten Budget aufbauen kann, das sich automatisch lernen und verbessern kann, ohne menschliche Aufsicht.

US-Unternehmen wie OpenAI und Google DeepMind haben Entwicklungen bei Modellen für Schlussfolgerungen vorangetrieben, einem relativ neuen Bereich der KI-Forschung, der versucht, Modelle mit menschlichen kognitiven Fähigkeiten in Einklang zu bringen. Im Dezember veröffentlichte das in San Francisco ansässige OpenAI die vollständige Version seines o1-Modells, hielt jedoch seine Methoden geheim.

Die Veröffentlichung von DeepSeek’s R1 löste in Silicon Valley eine hitzige Debatte darüber aus, ob besser ausgestattete US-KI-Unternehmen, darunter Meta und Anthropic, ihren technischen Vorsprung verteidigen können.

Unterdessen ist Liang zu einem Mittelpunkt des nationalen Stolzes in seiner Heimat geworden. In dieser Woche war er der einzige KI-Führer, der ausgewählt wurde, an einem öffentlich gemachten Treffen von Unternehmern mit dem zweitmächtigsten Führer des Landes, Li Qiang, teilzunehmen. Den Unternehmern wurde gesagt, sich auf den Durchbruch bei Schlüsseltechnologien zu konzentrieren.

Im Jahr 2021 begann Liang, Tausende von Nvidia-Grafikprozessoreinheiten für sein KI-Seitenprojekt zu kaufen, während er seinen Quant-Handelsfonds High-Flyer leitete. Brancheninsider sahen dies als die exzentrischen Handlungen eines Milliardärs, der nach einem neuen Hobby suchte.

„Als wir ihn das erste Mal trafen, war er dieser sehr nerdige Typ mit einer schrecklichen Frisur, der davon sprach, einen 10.000-Chip-Cluster zu bauen, um seine eigenen Modelle zu trainieren. Wir haben ihn nicht ernst genommen“, sagte einer von Liangs Geschäftspartnern.

LESEN  BangShift.com Fertigungstipps #6: Wie man Vierkantrohre ohne Biegemaschine biegt! (DIY)

„Er konnte seine Vision nicht artikulieren, außer zu sagen: Ich will das bauen, und es wird ein Spielwechsel sein. Wir dachten, dass dies nur von Giganten wie ByteDance und Alibaba möglich sei“, fügte die Person hinzu.

Liangs Status als Außenseiter auf dem Gebiet der KI war eine unerwartete Stärke. Bei High-Flyer baute er ein Vermögen auf, indem er KI und Algorithmen einsetzte, um Muster zu identifizieren, die sich auf Aktienkurse auswirken könnten. Sein Team wurde darin geübt, Nvidia-Chips zu verwenden, um mit dem Handel von Aktien Geld zu verdienen. Im Jahr 2023 startete er DeepSeek und kündigte seine Absicht an, KI auf menschlichem Niveau zu entwickeln.

„Liang hat ein außergewöhnliches Infrastrukturteam aufgebaut, das wirklich versteht, wie die Chips funktionieren“, sagte ein Gründer eines konkurrierenden LLM-Unternehmens. „Er hat seine besten Leute aus dem Hedgefonds zu DeepSeek mitgenommen.“

„Als Washington Nvidia verbot, seine leistungsstärksten Chips nach China zu exportieren, waren lokale KI-Unternehmen gezwungen, innovative Möglichkeiten zu finden, die Rechenleistung einer begrenzten Anzahl von Chips im Inland zu maximieren – ein Problem, das Liangs Team bereits wusste, wie man löst.

„Die Ingenieure von DeepSeek wissen, wie sie das Potenzial dieser GPUs ausschöpfen können, auch wenn sie nicht auf dem neuesten Stand sind“, sagte ein AI-Forscher, der dem Unternehmen nahe steht.

Brancheninsider sagen, dass DeepSeek durch seine singuläre Ausrichtung auf Forschung ein gefährlicher Wettbewerber ist, weil es bereit ist, seine Durchbrüche zu teilen, anstatt sie zum kommerziellen Gewinn zu schützen. DeepSeek hat kein Geld von externen Fonds aufgenommen oder bedeutende Schritte unternommen, um seine Modelle zu monetarisieren.

LESEN  "Das Gefängnis ist kein Ort für Rehabilitation": Der inhaftierte Rapper Marnz Malone über den Umgang mit Inhaftierten Selbstmorden | Rap

„DeepSeek wird wie in den Anfangstagen von DeepMind betrieben“, sagte ein AI-Investor in Peking. „Es konzentriert sich ausschließlich auf Forschung und Entwicklung.“

Liang, der persönlich an der Forschung von DeepSeek beteiligt ist, verwendet die Erlöse aus seinem Hedgefondshandel, um Spitzengehälter für das beste KI-Talent zu zahlen. Zusammen mit dem ByteDance, dem Eigentümer von TikTok, ist DeepSeek dafür bekannt, den AI-Ingenieuren in China die höchsten Vergütungen zu bieten, wobei das Personal in Büros in Hangzhou und Peking ansässig ist.

„Die Büros von DeepSeek fühlen sich wie ein Universitätscampus für ernsthafte Forscher an“, sagte der Geschäftspartner. „Das Team glaubt an Liangs Vision: der Welt zu zeigen, dass die Chinesen kreativ sein können und etwas von Grund auf aufbauen können.“

DeepSeek und High-Flyer haben nicht auf eine Anfrage nach einem Kommentar reagiert.

Liang hat DeepSeek als einzigartiges „lokales“ Unternehmen konzipiert, das mit Doktortiteln von führenden chinesischen Universitäten wie der Peking-, Tsinghua- und Beihang-Universität besetzt ist, anstatt mit Experten aus US-Institutionen.

In einem Interview mit der inländischen Presse sagte er im letzten Jahr, dass sein Kernteam „keine Rückkehrer aus dem Ausland“ hatte. Sie sind alle einheimisch. Wir müssen das Spitzenpersonal selbst entwickeln.“ DeepSeek’s Identität als rein chinesisches LLM-Unternehmen hat ihm Anerkennung im Inland eingebracht.

DeepSeek behauptete, dass es nur 2.048 Nvidia H800s und 5,6 Millionen Dollar benötigte, um ein Modell mit 671 Milliarden Parametern zu trainieren, was nur ein Bruchteil dessen ist, was OpenAI und Google für vergleichbar große Modelle ausgegeben haben.

Ritwik Gupta, KI-Politikforscher an der University of California, Berkeley, sagte, dass die jüngsten Modellveröffentlichungen von DeepSeek zeigen, dass „es keinen Graben gibt, wenn es um KI-Fähigkeiten geht“.

LESEN  Wie BMW XM Label Red treibt die Luxuspartnerschaft von Al Nassr an.

„Die erste Person, die Modelle trainiert, muss viele Ressourcen aufwenden, um dorthin zu gelangen“, sagte er. „Aber der zweite Spieler kann billiger und schneller dorthin gelangen.“

Gupta fügte hinzu, dass China über einen viel größeren Talentpool an Systemingenieuren als die USA verfüge, die verstehen, wie man die besten Nutzungsmöglichkeiten von Rechenressourcen findet, um Modelle kostengünstiger zu trainieren und auszuführen.

Brancheninsider sagen, dass DeepSeek trotz beeindruckender Ergebnisse mit begrenzten Ressourcen eine offene Frage bleibt, ob es wettbewerbsfähig bleiben kann, wenn sich die Branche weiterentwickelt.

Die Renditen bei High-Flyer, seinem großen Unterstützer, hinkten 2024 hinterher, was eine Person nahe an Liang auf den Fokus des Gründers auf DeepSeek zurückführte.

Seine US-Konkurrenten stehen nicht still. Sie bauen Mega-„Cluster“ von Nvidias Blackwell-Chips der nächsten Generation auf, um die Rechenleistung zu schaffen, die erneut eine Leistungslücke zu chinesischen Konkurrenten schaffen könnte.

In dieser Woche gab OpenAI bekannt, dass es ein Joint Venture mit Japans SoftBank namens Stargate gründet, mit Plänen, mindestens 100 Milliarden Dollar in KI-Infrastruktur in den USA zu investieren. Elon Musks xAI erweitert massiv seinen Colossus-Supercomputer, um mehr als 1 Million GPUs zu enthalten, um bei der Schulung seiner Grok-KI-Modelle zu helfen.

„DeepSeek verfügt über einen der größten fortschrittlichen Computing-Cluster in China“, sagte Liangs Geschäftspartner. „Sie haben derzeit genügend Kapazität, aber nicht mehr lange.“

Zusätzliche Berichterstattung von Wenjie Ding in Peking