Effondrement de l'IA : les principaux modèles de langage échouent aux tests mathématiques les plus difficiles FrontierMath
Les derniers systèmes d'intelligence artificielle ont obtenu des résultats extrêmement médiocres sur les problèmes mathématiques avancés créés par des mathématiciens d'élite, ne réussissant que 2 % des tests.
Les limites de l'IA en mathématiques
Nouveau défi mathématique
L'Epoch AI Institute a développé une suite innovante de tests, FrontierMath, qui nécessite des connaissances approfondies au niveau du doctorat. D'éminents mathématiciens, dont des lauréats de la prestigieuse médaille Fields, ont participé à la création des tests.
Évaluation des capacités de l'IA
Le système MMLU traditionnel, couvrant 57 domaines de connaissances allant des mathématiques au droit, a montré une grande efficacité de Modèles d'IA - 98 % de solutions réussies aux problèmes de niveau académique. Cependant, les nouveaux tests FrontierMath ont radicalement changé la donne.
Résultats des tests
Les principaux systèmes d'IA ont été testés au cours de l'étude. Les leaders étaient Gemini 1.5 Pro (002) de Google et Claude 3.5 Sonnet d'Anthropic, qui ont résolu 2% des problèmes. Les systèmes OpenAI - o1-preview, o1-mini et GPT-4o - n'en ont géré que 1 %, et la version bêta Grok-2 de xAI n'a pas pu résoudre un seul problème.
Caractéristiques d'évaluation
Les chercheurs soulignent que même les réponses correctes ne signifient pas toujours une compréhension de l'essence mathématique - certaines solutions ont été obtenus par simple modélisation sans analyse mathématique approfondie.
Glossaire
- Epoch AI est un institut de recherche spécialisé dans l'étude de l'intelligence artificielle
- FrontierMath - un ensemble de tests mathématiques complexes pour évaluer les capacités de l'IA
- Médaille Fields - une récompense prestigieuse dans le domaine de mathématiques, considéré comme analogue au prix Nobel
- Terence Tao - mathématicien distingué, lauréat de la médaille Fields 2006
- MMLU - système de test standardisé pour évaluer les capacités de l'IA
Liens
- Livescience - portail scientifique populaire
Hashtags
Enregistrer un lien vers cet article
Discussion sur le sujet – Effondrement de l'IA : les principaux modèles de langage échouent aux tests mathématiques les plus difficiles FrontierMath
L'étude a révélé que même les modèles d'IA les plus avancés (Gemini, Claude et GPT-4) ne résolvaient que 2 % des problèmes mathématiques complexes de niveau doctorat développés par les plus grands mathématiciens du monde, y compris les lauréats de la médaille Fields.
Derniers commentaires
8 commentaires
Écrire un commentaire
Votre adresse email ne sera pas publiée. Les champs obligatoires sont cochés *
Maximilian
Il est intéressant de noter que même les IA les plus avancées se sont heurtées à des tâches difficiles. 2%, ce n'est rien du tout ! 🤔 Bien que Gémeaux et Claude soient géniaux, au moins ils ont décidé quelque chose.
Sophie
Et il me semble que c'est normal. L'IA est encore en train d'apprendre. Je travaille avec GPT-4 tous les jours et cela fonctionne très bien pour les tâches courantes. Et le fait qu’il ne puisse pas résoudre des mathématiques ultra-compliquées est même une bonne chose. Cela signifie que l'intelligence humaine est toujours inégalée 😊
Giuseppe
Sophie, je suis d'accord ! Mais j'ai été surpris que Grok-2 n'ait rien résolu du tout. Bien que Musk l'ait tellement félicité 🤷♂️
Viktor
Tout ce tapage autour de l’IA est une perte de temps et d’argent. Auparavant, les mathématiciens pouvaient très bien le faire sans aucun réseau neuronal, et ils peuvent le faire maintenant. Juste un autre battage médiatique et rien de plus. 😤
Amelie
Viktor, mais l'IA résout déjà 98% des problèmes universitaires ! C’est un énorme progrès. Imaginez à quel point cela peut aider à apprendre 📚
Giuseppe
Amélie a raison ! Mon fils étudie à l’université et utilise donc l’IA pour vérifier les décisions. Cela fait vraiment gagner du temps 👍
Sophie
Fait intéressant, même lorsque l’IA donnait la bonne réponse, il pourrait s’agir simplement d’une supposition chanceuse plutôt que d’une compréhension. Tout comme certains étudiants en examen 😅
Maximilian
Je pense que dans quelques années, ces 2 % se transformeront en 20 %, puis ils atteindront 50 %. Le progrès ne peut pas être arrêté ! 🚀