In der sich stetig weiterentwickelnden KI-Landschaft sorgen nicht nur akademische Tests, sondern auch ungewöhnliche Herausforderungen für Aufsehen. Ein besonders kurioser Trend dabei ist das „Will Smith-Spaghetti-Benchmark“. Dieses Testverfahren umfasst die Fähigkeit eines Video-Generators, realistisch darzustellen, wie der bekannte Schauspieler eine Schüssel Spaghetti isst – eine Aufgabe, die zu einem beliebten Meme wurde und von Smith selbst bereits humorvoll parodiert wurde.
Neben dem Spaghetti-Test finden sich weitere verrückte Benchmarks, die die KI-Community im Jahr 2024 begeistern. Ein 16-jähriger Entwickler hat eine App erstellt, die KI in der Minecraft-Welt Strukturen bauen lässt, während ein britischer Programmierer Plattformen entwickelte, auf denen KIs gegeneinander Spiele wie Pictionary und Vier gewinnt spielen.
Trotz der Popularität dieser unkonventionellen Testmethoden gibt es auch klassische, wissenschaftliche Benchmarks. Doch viele dieser standardisierten Tests kommunizieren den Durchschnittsnutzern wenig. Häufig gebrachte Leistungsnachweise, wie etwa die Lösung von Mathematik-Olympiaden oder die Bearbeitung von Aufgaben auf Doktoratsniveau, scheinen für die alltägliche Verwendung von Chatbots – wie etwa für das Beantworten von E-Mails – irrelevant.
Selbst öffentlicher zugängliche Benchmarks wie die „Chatbot Arena“ haben Einschränkungen. Dort dürfen Nutzer die Leistung von KIs bei spezifischen Aufgaben bewerten. Die Bewertungen stammen aber oft aus einem engen Kreis von KI- und Technikinteressierten und sind subjektiv.
Wie Ethan Mollick, Professor für Management an der Wharton School, kürzlich betonte, fehlt es vielen Benchmarks an realitätsnahen Vergleichen mit der durchschnittlichen menschlichen Leistung in verschiedenen Bereichen wie Medizin oder Recht.
Die skurrilen KI-Benchmarks wie das Spaghetti-Abenteuer, Minecraft-Bauten oder Spiele wie Vier gewinnt sind zwar unterhaltsam, aber weder empirisch noch universell einsetzbar. Dass eine KI den Will Smith-Test besteht, heißt nicht, dass sie automatisch auch andere kreative Aufgaben mit Bravour meistert.