Upadek AI: wiodące modele językowe nie zdają najtrudniejszych testów matematycznych FrontierMath
Najnowsze systemy sztucznej inteligencji radziły sobie wyjątkowo słabo z zaawansowanymi problemami matematycznymi stworzonymi przez elitarnych matematyków, przechodząc jedynie 2% testów.
Granice sztucznej inteligencji w matematyce
Nowe wyzwanie matematyczne
Instytut Epoch AI opracował innowacyjny pakiet testów FrontierMath, który wymaga głębokiej wiedzy na poziomie doktoratu. W tworzeniu testów uczestniczyli wybitni matematycy, w tym zdobywcy prestiżowego Medalu Fieldsa.
Ocena możliwości AI
Tradycyjny system MMLU, obejmujący 57 obszarów wiedzy od matematyki po prawo, wykazał się wysoką efektywnością Modele AI – 98% skutecznych rozwiązań problemów na poziomie akademickim. Jednak nowe testy FrontierMath radykalnie zmieniły obraz.
Wyniki testów
W trakcie badania przetestowano wiodące systemy AI. Liderami okazały się Gemini 1.5 Pro (002) od Google i Claude 3.5 Sonnet od Anthropic, które rozwiązały 2% problemów. Systemy OpenAI – o1-preview, o1-mini i GPT-4o – poradziły sobie tylko w 1%, a Grok-2 Beta xAI nie był w stanie rozwiązać ani jednego problemu.
Cechy oceny
Badacze podkreślają, że nawet poprawne odpowiedzi nie zawsze oznaczały zrozumienie istoty matematycznej – niektóre rozwiązania uzyskano poprzez proste modelowanie bez głębokiej analizy matematycznej.
Słowniczek
- Epoch AI to instytut badawczy specjalizujący się w badaniu sztucznej inteligencji {{|. 10|}}
- FrontierMath - zestaw kompleksowych testów matematycznych oceniających możliwości sztucznej inteligencji
- Medal Fieldsa - prestiżowa nagroda w tej dziedzinie matematyki, uważana za analogiczną do Nagrody Nobla
- Terence Tao - wybitny matematyk, zdobywca Medalu Fieldsa 2006
- MMLU - ujednolicony system testowania oceny możliwości AI
Linki
- Livescience - portal popularnonaukowy
Hashtagi
Zapisz link do tego artykulu
Dyskusja na ten temat – Upadek AI: wiodące modele językowe nie zdają najtrudniejszych testów matematycznych FrontierMath
Badanie wykazało, że nawet najbardziej zaawansowane modele sztucznej inteligencji (Gemini, Claude i GPT-4) rozwiązały jedynie 2% złożonych problemów matematycznych na poziomie doktoranckim opracowanych przez czołowych matematyków na świecie, w tym zdobywców Medalu Fieldsa
Najnowsze komentarze
8 komentarzy
Napisz komentarz
Twój adres e-mail nie zostanie opublikowany. Wymagane pola są zaznaczone *
Maximilian
Co ciekawe, nawet najbardziej zaawansowana sztuczna inteligencja natrafiała na trudne zadania. 2% to nic! 🤔 Choć Bliźnięta i Klaudiusz są wspaniali, to przynajmniej coś postanowili.
Sophie
I wydaje mi się, że jest to normalne. Sztuczna inteligencja wciąż się uczy. Na co dzień pracuję z GPT-4 i świetnie sprawdza się w typowych zadaniach. A fakt, że nie potrafi rozwiązywać bardzo skomplikowanych zadań matematycznych, jest nawet dobry. Oznacza to, że ludzka inteligencja wciąż nie ma sobie równych 😊
Giuseppe
Sophie, zgadzam się! Ale byłem zaskoczony, że Grok-2 w ogóle niczego nie rozwiązał. Chociaż Musk tak go chwalił 🤷♂️
Viktor
Całe to zamieszanie ze sztuczną inteligencją to strata czasu i pieniędzy. Wcześniej matematycy mogli to zrobić bez żadnych sieci neuronowych, a teraz mogą to zrobić. To tylko kolejny hype i nic więcej. 😤
Amelie
Viktor, ale sztuczna inteligencja już rozwiązuje 98% problemów na poziomie uniwersyteckim! To ogromny postęp. Wyobraź sobie, jak może to pomóc w nauce 📚
Giuseppe
Amelia ma rację! Mój syn studiuje na uniwersytecie, więc wykorzystuje sztuczną inteligencję do sprawdzania decyzji. To naprawdę oszczędza czas 👍
Sophie
Co ciekawe, nawet jeśli sztuczna inteligencja podała poprawną odpowiedź, mógł to być po prostu szczęśliwy przypuszczenie, a nie zrozumienie. Podobnie jak niektórzy studenci na egzaminach 😅
Maximilian
Myślę, że za kilka lat te 2% zamieni się w 20%, a potem osiągnie 50%. Postępu nie da się zatrzymać! 🚀