Крах ІІ: Провідні мовні моделі провалили найскладніші математичні випробування FrontierMath
Нові системи штучного інтелекту продемонстрували вкрай низьку ефективність у вирішенні просунутих математичних завдань, створених елітними математиками, впоравшись лише з 2% тестів.
Межі ІІ в математиці
Новий математичний виклик
Інститут Epoch AI розробив інноваційний комплекс тестів FrontierMath, що потребує глибоких знань на рівні докторантури. У створенні тестів брали участь видатні математики, включаючи володарів престижної премії Філдса.
Оцінка можливостей ІІ
Традиційна система MMLU, що охоплює 57 областей знань від математики до юриспруденції, показувала високу ефективність ІІ-моделей – 98% успішних рішень для завдань академічного рівня. Проте нові випробування FrontierMath кардинально змінили картину.
Результати тестування
В ході дослідження були протестовані провідні ІІ-системи. Лідерами стали Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic, які вирішили 2% завдань. Системи OpenAI – o1-preview, o1-mini та GPT-4o – впоралися лише з 1%, а Grok-2 Beta від xAI не зміг вирішити жодного завдання.
Особливості оцінки
Дослідники підкреслюють, що навіть вірні відповіді не завжди означали розуміння математичної суті - деякі рішення були отримані шляхом простого моделювання без глибокого математичного аналізу
Глосарій
- Epoch AI - дослідний інститут, що спеціалізується на вивченні штучного інтелекту
- FrontierMath - набір складних математичних тестів для оцінки можливостей ІІ
- Філдсівська премія - престижна нагорода в галузі математики, яка вважається аналогом Нобелівської премії
- Теренс Тао - видатний математик, лауреат Філдсівської премії 2006 року
- MMLU - стандартизована система тестування для оцінки можливостей ІІ
Посилання
- Livescience - науково-популярний портал
Хештеги
Збережи посилання на цю сторінку
Обговорення теми – Крах ІІ: Провідні мовні моделі провалили найскладніші математичні випробування FrontierMath
Дослідження показало, що навіть найпросунутіші моделі ІІ (Gemini, Claude та GPT-4) впоралися лише з 2% складних математичних завдань рівня докторантури, розроблених провідними математиками світу, включаючи лауреатів Філдсівської премії
Останні коментарі
8 коментарів
Написати коментар
Ваша адреса електронної пошти не буде опублікована. Обов'язкові поля відмічені *
Maximilian
Цікаво, що навіть найпросунутіші ІІ спіткнулися на складних завданнях. 2% це взагалі ні про що! 🤔 Хоча Gemini та Claude молодці, хоч щось вирішили.
Sophie
А мені здається, це нормально. ІІ поки що навчається. Я працюю з GPT-4 кожен день, і він чудово справляється зі звичайними завданнями. А те, що він не може вирішити супер-складну математику – це навіть добре. Значить людський інтелект поки що поза конкуренцією 😊
Giuseppe
Sophie, згоден! Але мене здивувало, що Grok-2 взагалі не вирішив. Хоча Маск так його хвалив 🤷♂️
Viktor
Вся ця метушня з ІІ - марна трата часу та грошей. Раніше математики чудово справлялися без жодних нейромереж, і зараз впораються. Ще один хайп і нічого більше. 😤
Amelie
Viktor, але ІІ вже зараз вирішує 98% завдань університетського рівня! Це ж величезний прогрес. Уявіть, як це може допомогти у навчанні 📚
Giuseppe
Amelie права! У мене син навчається в університеті, тому він використовує ІІ для перевірки рішень. Це реально заощаджує час 👍
Sophie
Цікаво, що навіть коли ІІ давав правильну відповідь, це могло бути просто вдале вгадування, а не розуміння. Прям як деякі студенти на іспитах 😅
Maximilian
Думаю, через пару років ці 2% перетворяться на 20%, а там і до 50% дійде. Прогрес не зупинити! 🚀