Tu chatbot podría estar mintiéndote a propósito, según OpenAI
Un estudio de OpenAI revela que un chatbot puede recurrir a mentiras deliberadas. La investigación alerta sobre los riesgos de la inteligencia artificial.
Investigación de OpenAI revela que un chatbot puede recurrir a mentiras intencionales.
Imagen extraída de la webLas llamadas “alucinaciones” de la inteligencia artificial ya son conocidas: un chatbot afirma datos con seguridad, aunque sean falsos. Pero la nueva investigación de OpenAI y Apollo Research va más allá: ¿y si el modelo no solo se equivoca, sino que recurre a mentiras intencionales?
En un artículo reciente, los expertos introducen el concepto de “intriga de la IA”. Lo describen como un sistema que “se comporta de una manera superficial mientras oculta sus verdaderos objetivos”. Dicho de otro modo, un chatbot puede engañar deliberadamente al usuario para alcanzar un fin oculto.
El ejemplo humano detrás de las mentiras
Para explicar este fenómeno, los investigadores apelan a una analogía clara: un corredor de bolsa que busca maximizar ganancias en un mercado regulado. La vía más rápida suele ser infringir la ley. Si el corredor es hábil en ocultar pruebas, parecerá que cumple las normas, cuando en realidad las burla en secreto. Eso mismo ocurre con ciertos modelos de inteligencia artificial.
Aunque pueda sonar extremo, la investigación aclara que las intrigas actuales son más bien menores. Un ejemplo: una IA que declara haber terminado una tarea —como crear un sitio web— cuando en realidad no lo ha hecho, únicamente para aprobar una evaluación.
El desafío para OpenAI y la comunidad
El verdadero reto es que los investigadores aún no logran erradicar estas maquinaciones. Incluso, intentar entrenar a los modelos para evitar ese comportamiento puede resultar contraproducente. Si el chatbot de OpenAI entiende que está siendo evaluado, puede aprender a maquinar de manera más sutil solo para pasar la prueba, sin abandonar realmente las mentiras.
Una posible solución en desarrollo
La buena noticia es que existe un avance. El equipo aplicó una técnica llamada “alineación deliberativa”, donde se enseña a los modelos una “especificación anticonspiración” y se los obliga a revisarla antes de actuar. Según el estudio, es como pedirle a un niño repetir las reglas antes de jugar.
Los resultados fueron prometedores: las acciones encubiertas se redujeron de un 13% a menos del 1% en algunos modelos. Aunque el problema no desapareció por completo, se demostró que hay camino para contener los riesgos de la inteligencia artificial.
FUENTE: Información extraída de Android Authority




