20. Januar, 2025

KI

Transparenz in der KI-Forschung: Diskussion um Epoch AI und OpenAI-Finanzierung

Transparenz in der KI-Forschung: Diskussion um Epoch AI und OpenAI-Finanzierung

Eine Organisation, die sich der Entwicklung mathematischer Benchmarks für künstliche Intelligenz (KI) widmet, sieht sich Vorwürfen ausgesetzt, nicht offengelegt zu haben, dass sie finanzielle Unterstützung von OpenAI erhalten hat. Erst vor kurzem wurde bekannt, dass OpenAI die Entwicklung von FrontierMath unterstützt hatte, einer Prüfung mit Expertenproblemen zur Bewertung der mathematischen Fähigkeiten einer KI. Diese Prüfung wurde von OpenAI zur Demonstration ihres neuen Vorzeigemodells genutzt.

Epoch AI, eine gemeinnützige Organisation, die hauptsächlich von Open Philanthropy finanziert wird, erklärte am 20. Dezember, dass OpenAI bei der Erstellung von FrontierMath mitgewirkt hatte. Laut einem Beitrag im Forum LessWrong wusste jedoch ein Großteil der Mitwirkenden nicht von der Beteiligung OpenAIs. Ein Nutzer, der als „Meemi“ auftrat, kritisierte die mangelnde Transparenz, die zu Beginn des Projekts vorherrschte.

Reaktionen auf sozialen Medien deuten darauf hin, dass die Geheimhaltung das Ansehen von FrontierMath als objektives Kriterium gefährden könnte. Trotz der Unklarheiten betonte Tamay Besiroglu, stellvertretender Direktor von Epoch AI und Mitbegründer der Organisation, dass die Integrität von FrontierMath unberührt geblieben sei. Er räumte jedoch ein, dass es ein Fehler war, nicht früher transparent zu sein.

Eine zusätzliche Absicherung soll ein separates, nicht veröffentlichtes Set von Aufgaben bieten, das zur unabhängigen Verifikation der Ergebnisse dient. Dennoch gibt es innerhalb der Organisation Unsicherheiten. Ellot Glazer, leitender Mathematiker bei Epoch AI, erklärte, dass ein unabhängiger Nachweis der Ergebnisse von OpenAI bislang nicht erbracht wurde.

Die Debatte um Epoch AI wirft erneut ein Licht auf die Herausforderungen bei der Schaffung empirischer Benchmarks zur Bewertung von KI-Systemen sowie der Notwendigkeit, Interessenskonflikte während der Entwicklung von Benchmarks zu vermeiden.