Heise: "Reasoning Fail: Gängige LLMs scheitern an kinderleichter Aufgabe "
https://www.heise.de/news/Reasoning-Fail-Gaengige-LLMs-scheitern-an-kinderleichter-Aufgabe-9755034.html
Heise hat geschrieben:Um logisches Denken steht es bei den aktuell gängigen KI-Modellen einfach nicht gut, das haben Forscher erneut bewiesen.
Die Aufgabe ist eigentlich ziemlich leicht: "Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alice Bruder?" Während die meisten Erwachsenen – und laut der Autoren einer Studie auch Kinder – die Aufgabe wohl lösen können, scheitern die gängigen Großen Sprachmodelle, Large Language Models (LLM). Noch schlimmer, wie die Forscher finden, denn die KI-Modelle behaupten auch noch steif und fest, die richtige Antwort herausgefunden zu haben, wenn es die falsche war, und sie argumentieren logisch klingend, aber ebenfalls falsch. Ein bekanntes Problem der Sprachmodelle, das dennoch immer wieder überrascht – vor allem, da die Anbieter oft laut tönen, wie gut ihre Modelle bereits im sogenannten Reasoning seien – damit ist logisches Denken gemeint.
...
Ich schätze, die KI wird erstmal Einzug in Bereiche nehmen, die ich mal als Deppen-Aufgaben bezeichnen möchte, also wo schlicht "auswendig gelernt" wird.
Man stelle sich mal vor, ein Verwaltungsmitarbeiter wird durch KI ersetzt und erzeugt dann haufenweise fehlerhafte Bescheide.
KI beim autonomen Fahren ist auch erstmal eine Sache für sich. In festgelegten Arealen finden sich Fahrzeuge mit KI schon sehr gut zurecht. Bei niedrigen Geschwindigkeiten ist das alles schon gut machbar und gängige Praxis. Vor vielleicht 15 Jahren fuhren schon Roboter-Fahrzeuge durch die Fabrik-Hallen bei Volkswagen. Lief man denen vor die Nase, dann hupten die einen an. Aber das ganze war bei Schrittgeschwindigkeit und mit der Sensorik und Rechenleistung von vor 15 Jahren. Heute werden die Fahrzeuge etwas intelligenter durch die Hallen kurven und ihre Transportaufgaben erledigen.