Tech-Gruppen sind dabei, eilig umzugestalten, wie sie ihre künstlichen Intelligenzmodelle testen und bewerten, da die schnell voranschreitende Technologie die aktuellen Maßstäbe übertrifft.
OpenAI, Microsoft, Meta und Anthropic haben alle kürzlich Pläne angekündigt, KI-Agenten zu entwickeln, die autonom Aufgaben für Menschen in ihrem Auftrag ausführen können. Um dies effektiv zu tun, müssen die Systeme zunehmend komplexe Aktionen ausführen, unter Verwendung von Denken und Planen.
Unternehmen führen „Evaluationen“ von KI-Modellen durch Teams von Mitarbeitern und externen Forschern durch. Dies sind standardisierte Tests, sogenannte Benchmarks, die die Fähigkeiten der Modelle und die Leistung verschiedener Gruppen von Systemen oder älteren Versionen bewerten.
Jedoch haben die jüngsten Fortschritte in der KI-Technologie dazu geführt, dass viele der neuesten Modelle in der Lage waren, nahe oder über 90 Prozent Genauigkeit bei bestehenden Tests zu erreichen, was die Notwendigkeit neuer Benchmarks verdeutlicht.
„Das Tempo der Branche ist extrem schnell. Wir fangen jetzt an, unsere Fähigkeit zu messen, einige dieser Systeme zu sättigen [und als Branche] wird es immer schwieriger, [sie zu bewerten]“, sagte Ahmad Al-Dahle, leitender Generative AI bei Meta.
Um dieses Problem zu behandeln, haben mehrere Tech-Gruppen, darunter Meta, OpenAI und Microsoft, ihre eigenen internen Benchmarks und Tests für Intelligenz erstellt. Dies hat jedoch Bedenken in der Branche hervorgerufen, dass es schwierig sein könnte, die Technologie im Fehlen öffentlicher Tests zu vergleichen.
„Viele dieser Benchmarks lassen uns wissen, wie weit wir von der Automatisierung von Aufgaben und Jobs entfernt sind. Ohne dass sie öffentlich gemacht werden, ist es schwer für Unternehmen und die breitere Gesellschaft zu sagen“, sagte Dan Hendrycks, Geschäftsführer des Zentrums für KI-Sicherheit und Berater von Elon Musks xAI.
Aktuelle öffentliche Benchmarks – Hellaswag und MMLU – verwenden Multiple-Choice-Fragen, um gesunden Menschenverstand und Wissen zu verschiedenen Themen zu bewerten. Forscher argumentieren jedoch, dass diese Methode nun redundant wird und Modelle komplexere Probleme benötigen.
„Wir kommen in eine Ära, in der viele der von Menschen geschriebenen Tests nicht mehr ausreichen, um zu beurteilen, wie leistungsfähig die Modelle sind“, sagte Mark Chen, SVP für Forschung bei OpenAI. „Das stellt eine neue Herausforderung für uns als Forschungswelt dar.“
Ein öffentlicher Benchmark, SWE-bench Verified, wurde im August aktualisiert, um autonome Systeme besser zu bewerten, basierend auf dem Feedback von Unternehmen, einschließlich OpenAI.
Er verwendet realen Softwareprobleme, die von der Entwicklerplattform GitHub bezogen wurden, und beinhaltet das Bereitstellen des KI-Agenten mit einem Code-Repository und einem Ingenieurproblem, und bittet sie, es zu lösen. Die Aufgaben erfordern Denken, um abgeschlossen zu werden.
Laut dieser Messung löst OpenAIs neuestes Modell, GPT-4o Preview, 41,4 Prozent der Probleme, während Anthropics Claude 3.5 Sonnet 49 Prozent erreicht.
„Es ist viel herausfordernder [mit agierenden Systemen], weil man diese Systeme mit vielen zusätzlichen Werkzeugen verknüpfen muss“, sagte Jared Kaplan, Chief Science Officer bei Anthropic.
„Man muss im Grunde eine ganze Sandbox-Umgebung für sie erstellen, in der sie spielen können. Es ist nicht so einfach wie nur eine Aufforderung zu geben, zu sehen, was die Lösung ist, und das dann zu bewerten“, fügte er hinzu.
Ein weiterer wichtiger Faktor beim Durchführen fortschrittlicherer Tests ist sicherzustellen, dass die Benchmark-Fragen nicht öffentlich zugänglich sind, um sicherzustellen, dass die Modelle die Antworten nicht effektiv „betrügen“, indem sie sie aus Trainingsdaten generieren, anstatt das Problem zu lösen.
Die Fähigkeit zu denken und zu planen ist entscheidend, um das Potenzial von KI-Agenten freizusetzen, die Aufgaben über mehrere Schritte und Anwendungen hinweg ausführen und sich selbst korrigieren können.
„Wir entdecken neue Möglichkeiten, diese Systeme zu messen, und natürlich ist eines davon das Denken, was eine wichtige Grenze darstellt“, sagte Ece Kamar, VP und Labordirektorin von AI Frontiers bei Microsoft Research.
Als Ergebnis arbeitet Microsoft an seinem eigenen internen Benchmark, der Probleme enthält, die zuvor nicht im Training aufgetaucht sind, um zu bewerten, ob seine KI-Modelle wie ein Mensch denken können.
Einige, darunter Forscher von Apple, haben die Frage aufgeworfen, ob aktuelle große Sprachmodelle „denken“ oder rein „Mustererkennung“ des nächstähnlichen in ihrem Training gesehenen Datens betreiben.
„In den engeren Bereichen, um die sich Unternehmen kümmern, denken sie“, sagte Ruchir Puri, Chief Scientist bei IBM Research. „[Die Debatte dreht sich um] dieses breitere Konzept des Denkens auf menschlicher Ebene, das es fast in den Kontext der künstlichen allgemeinen Intelligenz setzen würde. Denken sie wirklich, oder ahmen sie nach?“
OpenAI misst das Denken hauptsächlich durch Bewertungen zu Mathematik, MINT-Fächern und Codierungsaufgaben.
„Denken ist ein sehr großer Begriff. Jeder definiert es anders und interpretiert es auf seine eigene Weise… diese Grenze ist sehr unscharf [und] wir versuchen, uns nicht zu sehr mit dieser Unterscheidung zu befassen, sondern zu prüfen, ob es den Nutzen, die Leistung oder die Fähigkeiten vorantreibt“, sagte OpenAIs Chen.
Die Notwendigkeit neuer Benchmarks hat auch zu Bemühungen von externen Organisationen geführt.
Im September startete das Unternehmen Scale AI und Hendrycks ein Projekt namens „Humanity’s Last Exam“, bei dem komplexe Fragen von Experten aus verschiedenen Disziplinen gesammelt wurden, die abstraktes Denken erforderten, um sie zu lösen.
Ein weiteres Beispiel ist FrontierMath, ein neuartiger Benchmark, der in dieser Woche veröffentlicht wurde und von Experten-Mathematikern erstellt wurde. Basierend auf diesem Test können die fortschrittlichsten Modelle weniger als 2 Prozent der Fragen beantworten.
Jedoch warnen Experten, dass es ohne explizite Einigung über die Messung solcher Fähigkeiten schwierig sein kann, dass Unternehmen ihre Konkurrenten bewerten oder dass Unternehmen und Verbraucher den Markt verstehen.
„Es gibt keinen klaren Weg zu sagen, ‚dieses Modell ist definitiv besser als dieses Modell‘, denn wenn eine Messung zu einem Ziel wird, hört sie auf, eine gute Messung zu sein, und Modelle werden darauf trainiert, die gesetzten Benchmarks zu bestehen“, sagte Metas Al-Dahle.
„Es ist etwas, woran die gesamte Branche arbeitet.“
Zusätzliche Berichterstattung von Hannah Murphy in San Francisco
Hello! How can I assist you today?