KI-Zusammenbruch: Führende Sprachmodelle fallen bei den härtesten Mathematiktests durch FrontierMath
Die neuesten künstlichen Intelligenzsysteme schnitten bei fortgeschrittenen mathematischen Problemen, die von Elite-Mathematikern erstellt wurden, äußerst schlecht ab und bestanden nur 2 % der Tests.
Die Grenzen der KI in der Mathematik
Neue Mathe-Herausforderung
Das Epoch AI Institute hat mit FrontierMath eine innovative Testreihe entwickelt, die fundierte Kenntnisse auf Doktorandenebene erfordert. Prominente Mathematiker, darunter Gewinner der prestigeträchtigen Fields-Medaille, waren an der Erstellung der Tests beteiligt.
Bewertung der KI-Fähigkeiten
Das traditionelle MMLU-System, das 57 Wissensbereiche von Mathematik bis Jura abdeckt, zeigte eine hohe Effizienz KI-Modelle – 98 % erfolgreiche Lösungen für Probleme auf akademischem Niveau. Neue FrontierMath-Tests haben das Bild jedoch dramatisch verändert.
Testergebnisse
Führende KI-Systeme wurden im Rahmen der Studie getestet. Spitzenreiter waren Gemini 1.5 Pro (002) von Google und Claude 3.5 Sonnet von Anthropic, die 2 % der Probleme lösten. OpenAI-Systeme – o1-preview, o1-mini und GPT-4o – schafften nur 1 %, und xAIs Grok-2 Beta konnte kein einziges Problem lösen.
Bewertungsmerkmale
Die Forscher betonen, dass selbst richtige Antworten nicht immer ein Verständnis des mathematischen Wesens – einiger Lösungen – bedeuteten wurden durch einfache Modellierung ohne tiefgreifende mathematische Analyse erhalten.
Glossar
- Epoch AI ist ein Forschungsinstitut, das sich auf die Erforschung künstlicher Intelligenz spezialisiert hat {{|. 10|}}
- FrontierMath – eine Reihe komplexer mathematischer Tests zur Bewertung der Fähigkeiten der KI
- Fields Medal – eine prestigeträchtige Auszeichnung auf diesem Gebiet der Mathematik, als analog zum Nobelpreis betrachtet
- Terence Tao – angesehener Mathematiker, Gewinner der Fields-Medaille 2006
- MMLU - standardisiertes Testsystem zur Bewertung von KI-Fähigkeiten
Links
- Livescience – populärwissenschaftliches Portal
Hashtags
Den Link zu diesem Artikel speichern
Diskussion über das Thema – KI-Zusammenbruch: Führende Sprachmodelle fallen bei den härtesten Mathematiktests durch FrontierMath
Die Studie ergab, dass selbst die fortschrittlichsten KI-Modelle (Gemini, Claude und GPT-4) nur 2 % der komplexen mathematischen Probleme auf Doktorandenniveau lösten, die von weltweit führenden Mathematikern, darunter Gewinner der Fields-Medaille, entwickelt wurden
Letzte Kommentare
8 Kommentare
Kommentar schreiben
Ihre E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind angekreuzt *
Maximilian
Interessanterweise sind selbst die fortschrittlichsten KIs bei schwierigen Aufgaben gestolpert. 2 % sind überhaupt nichts! 🤔 Obwohl Zwillinge und Claude großartig sind, haben sie zumindest etwas beschlossen.
Sophie
Und es scheint mir, dass das normal ist. Die KI lernt noch. Ich arbeite jeden Tag mit GPT-4 und es eignet sich hervorragend für allgemeine Aufgaben. Und die Tatsache, dass er superkomplizierte Mathematik nicht lösen kann, ist sogar gut. Das bedeutet, dass die menschliche Intelligenz immer noch konkurrenzlos ist 😊
Giuseppe
Sophie, ich stimme zu! Aber ich war überrascht, dass Grok-2 überhaupt nichts gelöst hat. Obwohl Musk ihn so sehr lobte 🤷♂️
Viktor
Der ganze Wirbel um KI ist Zeit- und Geldverschwendung. Früher konnten Mathematiker das ganz gut ohne neuronale Netze machen, und jetzt können sie es auch. Nur ein weiterer Hype und mehr nicht. 😤
Amelie
Viktor, aber KI löst bereits 98 % der Probleme auf Universitätsebene! Das ist ein riesiger Fortschritt. Stellen Sie sich vor, wie dies beim Lernen helfen kann 📚
Giuseppe
Amelie hat recht! Mein Sohn studiert an der Universität und nutzt daher KI, um Entscheidungen zu überprüfen. Das spart wirklich Zeit 👍
Sophie
Interessanterweise könnte es sich, selbst wenn die KI die richtige Antwort gab, eher um eine glückliche Vermutung als um ein Verständnis handeln. Genau wie manche Studenten bei Prüfungen 😅
Maximilian
Ich denke, dass aus diesen 2 % in ein paar Jahren 20 % und dann 50 % werden werden. Der Fortschritt ist nicht aufzuhalten! 🚀