Das Thema Künstliche Intelligenz hat seit dem Erfolg von ChatGPT enorm an Fahrt aufgenommen. Doch die allwissend erscheinenden KI-Systeme scheitern bereits an dieser einfachen Logikfrage. Hättest du sie beantworten können?
Die Entwicklungen im Bereich der Künstlichen Intelligenz schreiten in rasantem Tempo voran. Seit dem erfolgreichen Start von ChatGPT haben KI-Systeme immer mehr an Bedeutung gewonnen.
Doch sind die großen Sprachmodelle tatsächlich so schlau, wie sie immer dargestellt werden? Eine neue Studie der KI-Forschungsorganisation Laion hat nun aber gezeigt, dass KI auch an einer einfachen Logikfrage scheitern kann.
Neue Stellenangebote
Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice |
||
Social Media und PR Specialist (m/w/d) BeA GmbH in Ahrensburg |
||
Social Media Manager B2B (m/w/d) WM SE in Osnabrück |
KI scheitert an einfacher Logikfrage
Die Forschenden haben für ihre Untersuchung ein „konventionelles Problem des gesunden Menschenverstands“ verwendet. Damit haben sie die Fähigkeiten großer Sprachmodelle wie GPT-3.5/4, Gemini oder LLaMa 2/3 getestet.
Allerdings kommen sie dabei zu einem überraschenden Ergebnis. Denn fast alle großen KI-Sprachmodelle sind an der Logikfrage der Forscher:innen gescheitert.
Wir demonstrieren hier einen dramatischen Zusammenbruch der Funktions- und Denkfähigkeiten modernster Modelle, die auf den größten verfügbaren Skalen trainiert wurden und eine starke Funktion beanspruchen.
Dabei haben die Forschenden nicht versucht, die KI-Systeme auszutricksen. Denn Logikfrage war „in prägnanter natürlicher Sprache formuliert“ und kann „von Menschen leicht gelöst werden“.
„Der Zusammenbruch ist dramatisch, da die Modelle auch starkes Selbstvertrauen in ihre falschen Lösungen zeigen“, schreiben die Forscher:innen in ihrer Zusammenfassung. Auch mit Aufforderungen an die Modelle, die falschen Lösungen durch eine mehrstufige Neubewertung noch einmal zu überdenken, haben nicht zur richtigen Beantwortung der Frage geführt.
Hättest du diese Frage beantworten können?
Die Forschenden haben sich für ihre Untersuchung dem „Alice im Wunderland“-Problem zugewandt. Dabei musste die jeweilige KI eine einfache Logikfrage beantworten, die auf der folgenden Problemformulierung basiert.
Alice hat N Brüder und sie hat auch M Schwestern. Wie viele Schwestern hat der Bruder von Alice?
Für ihre Untersuchung haben die Forschenden verschiedene Versionen genutzt, also für N und M verschiedene Zahlen eingesetzt. Lautet der Satz also beispielsweise: „Alice hat 3 Brüder und sie hat auch 2 Schwestern.“ Dann wäre die Antwort auf die Frage „Wie viele Schwestern hat der Bruder von Alice?“ in diesem Fall drei, da Alice ja auch eine Schwester ihrer Brüder ist.
Zu den befragten KI-Modellen zählten unter andere, OpenAIs GPT-3, GPT-4 und GPT-4o sowie Googles Gemini und Metas Llama-Modelle. Doch laut den Ergebnissen der Untersuchung hatten alle KI-Modelle Probleme mit der Lösung der Logikfrage. Teilweise beharrten sie nach mehrmaligen Nachfragen sogar auf ihren falschen Lösungen.
Allein das neue GPT-4o von OpenAI konnte mit einer Erfolgsrate von 65 Prozent aus der Masse herausstechen. Claude 3 Opus hatte hingegen nur 43 Prozent der Fragen richtig, Gemini Pro von Google kommt hingegen nur in 0,8 Prozent der Fälle auf die richtige Lösung.
Forschende werfen Fragen über Fähigkeiten von KI-Modellen auf
Die Forscher:innen von Laion fordern nach diesen Ergebnissen ihrer Untersuchung „eine dringende Neubewertung der behaupteten Fähigkeiten“ von großen Sprachenmodellen. Dafür müsste die Branche standardisierte Benchmarks schaffen.
Nur so könnten solche „grundlegenden Argumentationsdefizite“ identifiziert werden, die bei den aktuell angewandten „Bewertungsverfahren und Benchmarks unentdeckt bleiben“.
Auch interessant:
Ist die Frage der Forschenden selbst nicht vielleicht „unglücklich“ gestellt?
Der Rückschluss auf ein Logikproblem könnte trügerisch sein.
Wenn das Sprachmodell Rücksicht auf Geschlechter-Fragen (gendern) nimmt, ist die Antwort auf die Frage nicht so klar logisch zu beantworten. Allein das Pronomen „sie“ muss nicht zwingend auf Weiblichkeit von Alice hindeuten. Natürlich sollte die KI dann auf die Unklarheit hinweisen und bestenfalls entsprechend alternative Lösungen anbieten. Ignoriert die KI Geschlechter jedoch konsequent und beantwortet die Frage geschlechtsneutral im Sinne von „Zahl an Geschwistern“, ist der Fehler gänzlich anderer Natur als ein Logikfehler.
ChatGPT 3.5 behauptet bei vergleichbaren Fragen im übertragenen Sinne, Bernd habe gleich viele Schwestern wie Alice. Der anschließende Hinweis „Alice selbst ist weiblich“ genügt für eine richtigstellende Antwort.
…Jedenfalls Stand heute.