Los chatbots de IA fallan mucho pero confían en sus respuestas
Un estudio revela que los grandes modelos de lenguaje mantienen su autoconfianza incluso al equivocarse, lo que plantea dudas sobre su fiabilidad.
Los chatbots se equivocan pero no lo reconocen
ShutterstockUn estudio reciente analizó cómo los chatbots de inteligencia artificial enfrentan sus errores. Los investigadores encontraron que modelos como ChatGPT o Gemini mantienen una alta autoconfianza, incluso después de fallar, a diferencia de los humanos, que ajustan sus expectativas tras equivocarse. El hallazgo genera interrogantes sobre su uso en tareas complejas.
Autoconfianza sin corrección: una debilidad de los modelos de IA
El estudio fue realizado por investigadores de la Universidad Carnegie Mellon y publicado en Memory & Cognition. Compararon la autoconfianza de cuatro grandes modelos de lenguaje (ChatGPT, Bard/Gemini, Sonnet y Haiku) con la de participantes humanos en tareas como responder preguntas, predecir resultados o identificar dibujos.
Según Trent Cash, autor principal, tanto humanos como sistemas de IA sobreestimaron sus capacidades, pero solo las personas ajustaron sus expectativas tras fallar. Los modelos, en cambio, no solo mantuvieron su confianza, sino que en algunos casos la aumentaron tras equivocarse.
Uno de los ejemplos más llamativos fue en una prueba de reconocimiento visual. Gemini acertó solo una imagen de 20, pero estimó haber acertado 14. El comportamiento evidencia una falta de metacognición, es decir, de conciencia sobre sus propios procesos mentales.
-
Te puede interesar
Así puedes pedirle a ChatGPT que actúe como tu chatbot psicólogo
¿Pueden los chatbots de IA aprender de sus errores?
La investigación sugiere que la autoconfianza excesiva de los modelos de lenguaje puede resultar problemática. Según Danny Oppenheimer, coautor del estudio, “los usuarios pueden asumir que la IA tiene razón solo porque responde con seguridad”. A diferencia de los humanos, los sistemas no muestran señales claras de duda.
Aunque algunos modelos, como ChatGPT-4, mostraron un comportamiento más cercano al humano en ciertas tareas, la falta de capacidad para ajustar la seguridad en sus respuestas sigue siendo una limitación clave.
Los investigadores recomiendan ser escépticos ante las afirmaciones de los chatbots, especialmente en temas inciertos. Esta falta de introspección plantea desafíos para el desarrollo de inteligencia artificial más fiable y responsable.



