Mayor tasa de errores en los nuevos modelos de IA de OpenAI

Los modelos de razonamiento o3 y o4-mini, recientemente presentados por OpenAI, han registrado un incremento significativo en la tasa de alucinaciones en comparación con modelos anteriores de la misma compañía, según los resultados de las pruebas internas realizadas con la evaluación PersonQA. Esta herramienta mide tanto la precisión de las respuestas como la frecuencia de información errónea, sesgada o directamente inventada, fenómeno común en sistemas de Inteligencia Artificial y conocido como “alucinación”.
Según ha informado la propia tecnológica, los modelos o3 y o4-mini superan ampliamente en este aspecto a versiones previas como o1, o1-mini y o3-mini, así como a GPT-4o. De hecho, el modelo o3 alucinó en el 33 por ciento de las respuestas analizadas, prácticamente el doble de lo registrado por el modelo o1. Peor aún es el caso del o4-mini, cuya tasa alcanzó el 48 por ciento, consolidando así la preocupación por la fiabilidad de los nuevos sistemas.
Mayor conocimiento, mayor propensión al error
El informe técnico de OpenAI reconoce que los modelos más pequeños, como o4-mini, tienden a “alucinar” con más frecuencia debido a que “poseen más conocimientos del mundo” y, en consecuencia, tienden a generar más afirmaciones, tanto acertadas como erróneas. Así lo ha explicado la compañía al presentar los resultados de PersonQA, que ha revelado también que o3, a pesar de su mejora en precisión, incurre en un mayor volumen de respuestas inexactas debido a su propensión a afirmar más contenido.
La diferencia entre modelos radica, según los datos obtenidos, en el equilibrio entre capacidad de razonamiento y fiabilidad. Mientras o1 demuestra una menor tasa de alucinación, los modelos más recientes aumentan tanto la cantidad de respuestas correctas como el número de errores.
OpenAI ha reconocido que estas alucinaciones suponen un reto aún sin resolver en el campo de la Inteligencia Artificial generativa. En palabras del portavoz de la empresa, Niko Felix, en declaraciones al medio especializado TechCrunch, se trata de “un área de investigación continua” en la que el equipo de la tecnológica sigue trabajando para mejorar la precisión y fiabilidad de sus modelos.
La nueva familia de modelos de la serie o fue anunciada la semana pasada y está diseñada para tareas avanzadas como programación, navegación web o generación autónoma de imágenes, con una capacidad destacada para "pensar con imágenes". Sin embargo, las primeras pruebas internas han revelado que, a pesar de sus prestaciones, las alucinaciones siguen siendo una limitación clave.
OpenAI ha afirmado que continuará investigando las causas de este fenómeno, especialmente en los modelos orientados al razonamiento, donde el nivel de exigencia en cuanto a veracidad y coherencia es aún mayor. Mientras tanto, el desafío de ofrecer sistemas verdaderamente fiables continúa siendo una de las asignaturas pendientes de la inteligencia artificial de vanguardia.