19. Januar, 2025

KI

KI stößt bei Geschichte an ihre Grenzen: Neue Studie offenbart Schwächen

KI stößt bei Geschichte an ihre Grenzen: Neue Studie offenbart Schwächen

Künstliche Intelligenz zeigt herausragende Leistungen in Bereichen wie Programmierung und der Erstellung von Podcasts, aber bei komplexen historischen Fragestellungen versagt sie oft. Zu diesem Ergebnis kommt eine aktuelle Studie, die drei führende Large Language Models (LLMs) – GPT-4 Turbo von OpenAI, Llama von Meta und Gemini von Google – auf ihre Kenntnis von Geschichte getestet hat.

Die Forscher schufen dafür einen neuen Maßstab namens Hist-LLM, der die Korrektheit der Antworten anhand der Seshat Global History Databank überprüft. Die Ergebnisse, die auf der bekannten NeurIPS-Konferenz vorgestellt wurden, enttäuschten: Das beste Modell, GPT-4 Turbo, kam auf eine Trefferquote von nur 46 Prozent, was knapp über dem Niveau des bloßen Ratens liegt.

Maria del Rio-Chanona, Mitautorin des Papiers und Informatik-Professorin am University College London, erklärte: „LLMs sind beeindruckend, ihnen fehlt jedoch die Tiefe des Verständnisses für fortgeschrittene geschichtliche Fragestellungen. Für grundlegende Fakten sind sie geeignet, aber bei nuancierteren, auf PhD-Niveau angesiedelten historischen Anfragen versagen sie.“

Ein Beispiel: Auf die Frage nach Schuppenpanzern im antiken Ägypten antwortete GPT-4 Turbo fälschlicherweise mit "Ja", obwohl diese erst 1.500 Jahre später erschienen. Solche Fehler kommen, weil LLMs oft von prominenten historischen Daten extrapolieren und es schwerfällt, weniger bekannte Informationen abzurufen, so del Rio-Chanona.

Besondere Schwierigkeiten zeigten die Modelle bei Fragen zu Regionen wie Afrika südlich der Sahara, was auf mögliche Verzerrungen im Trainingsmaterial hinweist. Trotz dieser Schwächen sehen die Forscher Potenzial darin, dass LLMs Historikern zukünftig helfen könnten. Sie arbeiten daran, ihre Maßstäbe durch mehr Daten aus unterrepräsentierten Regionen zu verfeinern und komplexere Fragen zu integrieren.

Peter Turchin, Studienleiter und Fakultätsmitglied des Complexity Science Hub, betont, dass LLMs in bestimmten Bereichen Menschen nicht ersetzen können. Dennoch unterstreicht das Papier die Möglichkeit, dass diese Modelle in der historischen Forschung nützlich sein könnten.