Rätselhafte KI: Warum GPT-4 bei Tests strauchelt

Trotz beeindruckender Fähigkeiten offenbaren Tests mit modifizierten Logikrätseln Schwächen in der Problemlösungskompetenz von GPT-4.

09.07.2024 - 21:00 Uhr

Der Test der wahren KI-Intelligenz: Kann GPT-4 wirklich denken? Neue Forschungen zeigen, dass es bei bekannten Logikrätseln strauchelt, sobald die Spielregeln sich ändern.

Künstliche Intelligenz, insbesondere große Sprachmodelle wie GPT-4, haben sich als Meister der Sprache etabliert, indem sie Essays schreiben, technische Fragen beantworten und sogar Witze reißen.

Doch wie steht es um ihre Fähigkeit, knifflige Rätsel zu lösen? Fernando Perez-Cruz und Hyun Song Shin haben dies genauer unter die Lupe genommen und dabei einige überraschende Entdeckungen gemacht.

Der erste Test: Ein Geburtstagsrätsel wird zur Herausforderung

Cheryl's Birthday, ein beliebtes Logikrätsel, scheint zunächst ein Kinderspiel für GPT-4. Doch als die Forscher die Details des Rätsels abwandelten – neue Namen und Daten einführten – begann das System zu schwanken.

Die einfache Modifikation offenbarte eine bemerkenswerte Schwäche: GPT-4 konnte die neue Version des Rätsels nicht lösen. Dies wirft die Frage auf, ob das Modell wirklich "versteht", was es verarbeitet, oder einfach aus einem Vorrat an gelernten Antworten schöpft.

Der zweite Test: Das Monty-Hall-Dilemma

Das Monty-Hall-Problem, ein klassisches Beispiel für Wahrscheinlichkeitsverwirrung, sollte weiter Licht auf die adaptiven Fähigkeiten von GPT-4 werfen. Während das Modell die Standardlösung korrekt beschrieb, offenbarten zusätzliche Herausforderungen durch die Forscher erneut seine Grenzen.

GPT-4 strauchelte und lieferte falsche Lösungen, was zeigt, dass es möglicherweise an einem tieferen, konzeptuellen Verständnis mangelt.

Diskussion: Die Grenzen der künstlichen Intelligenz

Diese Erkenntnisse könnten weitreichende Implikationen haben, besonders wenn man bedenkt, dass solche Modelle zunehmend in Entscheidungsfindungsprozessen eingesetzt werden könnten. Ein KI-System, das überzeugende, aber falsche Antworten liefert, ist nicht nur eine wissenschaftliche Kuriosität – es könnte realweltliche Konsequenzen haben.

Die Forscher betonen die Notwendigkeit, die Antworten von Sprachmodellen kritisch zu hinterfragen und ihre Einsatzbereiche sorgfältig zu wählen.