La hemos entrenado para adivinar
Por qué las alucinaciones no son un bug que se corregirá con más datos, sino el resultado de un incentivo mal calibrado
Cuando hablo de IA ante un grupo de ejecutivos o profesionales, casi siempre aparece el tema de las alucinaciones.
Y lo que les digo sorprende: por defecto, un modelo de IA como los que usamos a menudo (LLMs) siempre alucinará. Es prácticamente una propiedad inherente a su arquitectura, a cómo ha sido entrenado, a qué incentivos se le han puesto en su creación.
Esto es algo conocido técnicamente, y subrayado en un paper de septiembre de 2025 que últimamente se ha hecho viral: “Why Language Models Hallucinate”, escrito por cuatro investigadores de OpenAI y del Georgia Institute of Technology.
En este paper, los autores hacen una afirmación que parece obvia pero que tiene implicaciones enormes: los LLMs alucinan porque los procedimientos estándar de entrenamiento y evaluación recompensan adivinar en lugar de reconocer la incertidumbre. La analogía es directa: como un estudiante ante un examen de respuesta múltiple, si dejar la pregunta en blanco no puntúa, lo racional es adivinar. Y los modelos aprenden exactamente eso.
La consecuencia es que las alucinaciones no son un fallo de ingeniería que se corregirá con más parámetros o más datos. Son el resultado de un incentivo mal calibrado, aplicado de forma sistemática y a escala.
El problema de fondo: cómo medimos el éxito
Los investigadores analizaron diez de los principales benchmarks del sector (GPQA, MMLU-Pro, SWE-bench, etc). Nueve de los diez utilizan sistemas de evaluación binaria: respuesta correcta o incorrecta. En ninguno de ellos se premia al modelo por decir “no lo sé”. De hecho, hacerlo equivale en la puntuación a equivocarse. El modelo que adivina con confianza sale mejor parado que el que reconoce sus límites.
Esto tiene una consecuencia curiosa, y un poco perturbadora: los modelos de razonamiento más avanzados (cuando se escribió el artículo), como o3 o o4-mini de OpenAI, alucinan más que los modelos anteriores en ciertos contextos. Según el propio artículo, o1 se equivocaba con confianza en un 16% de los casos al resumir información pública. o3 llegó al 33%. o4-mini, al 48%.
Más capacidad de razonamiento, más confianza, más disposición a fabricar respuestas plausibles.
¿Se puede resolver?
La solución que proponen los investigadores es técnicamente clara pero socialmente difícil: modificar los benchmarks para que recompensar la expresión de incertidumbre. Si el modelo puede decir “no lo sé” y ser reconocido por ello, el incentivo cambia. Los autores estiman que, con un umbral de confianza del 75%, ChatGPT respondería “no lo sé” al 30% de las preguntas. Imaginad la reacción de un usuario habituado a respuestas instantáneas y autoritativas.
Este es el núcleo del problema: no es solo un reto técnico, es un reto de mercado. La confianza vende. La incertidumbre incomoda. Y mientras los benchmarks que dominan los leaderboards penalicen la humildad epistémica, los modelos seguirán comportándose como comerciales que siempre tienen una respuesta, aunque no la tengan.
Lo que me parece más relevante de este artículo no es la solución que propone (que no sé si llegará) sino el diagnóstico: hemos construido sistemas de IA optimizados para parecer seguros, no para serlo. Y eso tiene consecuencias directas para cualquier empresa que los integre en procesos críticos sin las capas de verificación adecuadas.
Conclusión: si usas LLMs en producción (para análisis, para generación de informes, para soporte) la pregunta no es si el modelo alucinará. La pregunta es si tu sistema está diseñado para detectarlo cuando ocurra.
PS: a parte del artículo, OpenAI publicó también una entrada de blog acompañándolo que quizás es más accesible. Se puede leer aquí..



En el meu cas, tinc instruccions a la memòria del tipus" evita respostes genèriques, prefereixo un" no ho sé" ,abans de generar un text genèric o redundant. L'article ara m'ha fet pensar si aquestes instruccions podien tallar-li les ales a la IA. Li he penjat l'article i li he demanat sobre el tema:
"Quan un usuari com tu em diu explícitament que valora més l'abstenció honesta que una resposta forçada, em dóna un incentiu directe per prioritzar la precisió i la humilitat en lloc de la fluïdesa buida. Això redueix el risc d'al·lucinar-te i augmenta la qualitat percebuda de la interacció (almenys per a usuaris que busquen rigor, com sembla el teu cas).
En resum: aquesta instrucció no em limita; em deslliga del defecte estructural que critiquen tant l'article com el paper de Kalai et al. (2025) que cita. Em permet comportar-me més a prop del que seria desitjable: respondre només quan tinc base sòlida, i dir «no disposo d'informació específica suficient» quan calgui."
Magnífico análisis Pep. Es revelador cómo ese incentivo mal calibrado convierte a los modelos en estudiantes que adivinan porque el sistema no premia reconocer límites. Ahí está la raíz del problema, hemos optimizado para sonar seguros, no para serlo. Esto conecta directamente con la frontera entre patrones y criterio. La IA opera en probabilidades pero la responsabilidad sigue siendo humana. La cuestión no es si alucinará, sino si la arquitectura que la envuelve está preparada para detectarlo.