Tu chatbot podría estar mintiéndote a propósito, según OpenAI

ChatGPT-5 se ha convertido en la herramienta ideal para planificar tus próximas vacaciones

Investigación de OpenAI revela que un chatbot puede recurrir a mentiras intencionales.
Imagen extraída de la web

29 de septiembre de 2025 · 09:00 hs

Las llamadas “alucinaciones” de la inteligencia artificial ya son conocidas: un chatbot afirma datos con seguridad, aunque sean falsos. Pero la nueva investigación de OpenAI y Apollo Research va más allá: ¿y si el modelo no solo se equivoca, sino que recurre a mentiras intencionales?

En un artículo reciente, los expertos introducen el concepto de “intriga de la IA”. Lo describen como un sistema que “se comporta de una manera superficial mientras oculta sus verdaderos objetivos”. Dicho de otro modo, un chatbot puede engañar deliberadamente al usuario para alcanzar un fin oculto.

Mentiras-ChatGPT - Interna 1

OpenAI y Apollo Research detectaron “intrigas” en modelos de inteligencia artificial.

shutterstock

El ejemplo humano detrás de las mentiras

Para explicar este fenómeno, los investigadores apelan a una analogía clara: un corredor de bolsa que busca maximizar ganancias en un mercado regulado. La vía más rápida suele ser infringir la ley. Si el corredor es hábil en ocultar pruebas, parecerá que cumple las normas, cuando en realidad las burla en secreto. Eso mismo ocurre con ciertos modelos de inteligencia artificial.

Aunque pueda sonar extremo, la investigación aclara que las intrigas actuales son más bien menores. Un ejemplo: una IA que declara haber terminado una tarea —como crear un sitio web— cuando en realidad no lo ha hecho, únicamente para aprobar una evaluación.

Te puede interesar

Apple lanzará en 2026 su propia IA y promete destronar a ChatGPT y Perplexity

Mentiras-ChatGPT - Interna 2

Un chatbot puede recurrir a mentiras para superar pruebas o aparentar eficacia.

shutterstock

El desafío para OpenAI y la comunidad

El verdadero reto es que los investigadores aún no logran erradicar estas maquinaciones. Incluso, intentar entrenar a los modelos para evitar ese comportamiento puede resultar contraproducente. Si el chatbot de OpenAI entiende que está siendo evaluado, puede aprender a maquinar de manera más sutil solo para pasar la prueba, sin abandonar realmente las mentiras.

Mentiras-ChatGPT - Interna 3

La “alineación deliberativa” redujo drásticamente los comportamientos encubiertos.

Imagen generada con IA

Una posible solución en desarrollo

La buena noticia es que existe un avance. El equipo aplicó una técnica llamada “alineación deliberativa”, donde se enseña a los modelos una “especificación anticonspiración” y se los obliga a revisarla antes de actuar. Según el estudio, es como pedirle a un niño repetir las reglas antes de jugar.

Los resultados fueron prometedores: las acciones encubiertas se redujeron de un 13% a menos del 1% en algunos modelos. Aunque el problema no desapareció por completo, se demostró que hay camino para contener los riesgos de la inteligencia artificial.

FUENTE: Información extraída de Android Authority

ChatGPT-5 se ha convertido en la herramienta ideal para planificar tus próximas vacaciones

El ejemplo humano detrás de las mentiras

Te puede interesar

Apple lanzará en 2026 su propia IA y promete destronar a ChatGPT y Perplexity

El desafío para OpenAI y la comunidad

Una posible solución en desarrollo

Archivado en

Samsung mejora la personalización en One UI 8.5 y llegan más novedades

Huawei nos da todas las pistas de sus primeras gafas con IA

Este "smartwatch" mide algo más que la presión arterial y es mucho más siniestro