Colapso de la IA: los principales modelos de lenguaje fallan en las pruebas de matemáticas más difíciles FrontierMath
Los últimos sistemas de inteligencia artificial obtuvieron resultados extremadamente deficientes en problemas matemáticos avanzados creados por matemáticos de élite, pasando solo el 2% de las pruebas.
Los límites de la IA en matemáticas
Nuevo desafío matemático
El Epoch AI Institute ha desarrollado un innovador conjunto de pruebas, FrontierMath, que requiere un conocimiento profundo a nivel de doctorado. En la creación de las pruebas participaron destacados matemáticos, incluidos ganadores de la prestigiosa Medalla Fields.
Evaluación de las capacidades de la IA
El sistema MMLU tradicional, que cubre 57 áreas de conocimiento, desde matemáticas hasta derecho, mostró una alta eficiencia de Modelos de IA: 98% de soluciones exitosas para problemas de nivel académico. Sin embargo, las nuevas pruebas de FrontierMath han cambiado drásticamente el panorama.
Resultados de la prueba
Durante el estudio se probaron los principales sistemas de IA. Los líderes fueron Gemini 1.5 Pro (002) de Google y Claude 3.5 Sonnet de Anthropic, que resolvió el 2% de los problemas. Los sistemas OpenAI (o1-preview, o1-mini y GPT-4o) gestionaron solo el 1%, y Grok-2 Beta de xAI no pudo resolver ni un solo problema.
Características de la evaluación
Los investigadores enfatizan que incluso las respuestas correctas no siempre significaron una comprensión de la esencia matemática: algunas soluciones se obtuvieron simplemente modelando sin un análisis matemático profundo.
Glosario
- Epoch AI es un instituto de investigación especializado en el estudio de la inteligencia artificial
- FrontierMath: un conjunto de pruebas matemáticas desafiantes para evaluar las capacidades de la IA
- La Medalla Fields es un premio prestigioso en el campo de las matemáticas, considerado equivalente al Premio Nobel
- Terence Tao - destacado matemático, ganador de la Medalla Fields 2006
- MMLU - sistema de pruebas estandarizado para evaluar capacidades AI
Enlaces
- Livescience - portal de divulgación científica
Hashtags
Guardar un enlace a este articulo
Discusion del tema – Colapso de la IA: los principales modelos de lenguaje fallan en las pruebas de matemáticas más difíciles FrontierMath
El estudio encontró que incluso los modelos de IA más avanzados (Gemini, Claude y GPT-4) resolvieron solo el 2% de los complejos problemas matemáticos de nivel doctoral desarrollados por los principales matemáticos del mundo, incluidos los ganadores de la Medalla Fields.
Ultimos comentarios
8 comentarios
Escribir un comentario
Su dirección de correo electrónico no se publicará. Los campos obligatorios están marcados *
Maximilian
Curiosamente, incluso las IA más avanzadas se han topado con tareas difíciles. ¡El 2% no es nada en absoluto! 🤔 Aunque Géminis y Claude son geniales, al menos decidieron algo.
Sophie
Y me parece que esto es normal. La IA todavía está aprendiendo. Trabajo con GPT-4 todos los días y funciona muy bien para tareas comunes. Y el hecho de que no pueda resolver matemáticas supercomplicadas es incluso bueno. Esto significa que la inteligencia humana aún no tiene rival 😊
Giuseppe
Sofía, estoy de acuerdo! Pero me sorprendió que Grok-2 no resolviera nada en absoluto. Aunque Musk lo elogió mucho 🤷♂️
Viktor
Todo este alboroto con la IA es una pérdida de tiempo y dinero. Anteriormente, los matemáticos podían hacerlo perfectamente sin redes neuronales, y ahora pueden hacerlo. Sólo otra exageración y nada más. 😤
Amelie
Viktor, ¡pero la IA ya resuelve el 98% de los problemas a nivel universitario! Este es un gran progreso. Imagínese cómo esto puede ayudar en el aprendizaje 📚
Giuseppe
¡Amélie tiene razón! Mi hijo estudia en la universidad, por lo que utiliza IA para comprobar las decisiones. Esto realmente ahorra tiempo 👍
Sophie
Curiosamente, incluso cuando la IA dio la respuesta correcta, podría ser simplemente una suposición afortunada en lugar de una comprensión. Como algunos estudiantes en los exámenes 😅
Maximilian
Creo que en un par de años este 2% se convertirá en un 20%, y luego llegará al 50%. ¡El progreso no se puede detener! 🚀