Tu chatbot podría estar mintiéndote a propósito, según OpenAI

Un estudio de OpenAI revela que un chatbot puede recurrir a mentiras deliberadas. La investigación alerta sobre los riesgos de la inteligencia artificial.

Investigación de OpenAI revela que un chatbot puede recurrir a mentiras intencionales.

Investigación de OpenAI revela que un chatbot puede recurrir a mentiras intencionales.

Imagen extraída de la web

Las llamadas “alucinaciones” de la inteligencia artificial ya son conocidas: un chatbot afirma datos con seguridad, aunque sean falsos. Pero la nueva investigación de OpenAI y Apollo Research va más allá: ¿y si el modelo no solo se equivoca, sino que recurre a mentiras intencionales?

En un artículo reciente, los expertos introducen el concepto de “intriga de la IA”. Lo describen como un sistema que “se comporta de una manera superficial mientras oculta sus verdaderos objetivos”. Dicho de otro modo, un chatbot puede engañar deliberadamente al usuario para alcanzar un fin oculto.

Mentiras-ChatGPT - Interna 1
OpenAI y Apollo Research detectaron “intrigas” en modelos de inteligencia artificial.

OpenAI y Apollo Research detectaron “intrigas” en modelos de inteligencia artificial.

El ejemplo humano detrás de las mentiras

Para explicar este fenómeno, los investigadores apelan a una analogía clara: un corredor de bolsa que busca maximizar ganancias en un mercado regulado. La vía más rápida suele ser infringir la ley. Si el corredor es hábil en ocultar pruebas, parecerá que cumple las normas, cuando en realidad las burla en secreto. Eso mismo ocurre con ciertos modelos de inteligencia artificial.

Aunque pueda sonar extremo, la investigación aclara que las intrigas actuales son más bien menores. Un ejemplo: una IA que declara haber terminado una tarea —como crear un sitio web— cuando en realidad no lo ha hecho, únicamente para aprobar una evaluación.

Mentiras-ChatGPT - Interna 2
Un chatbot puede recurrir a mentiras para superar pruebas o aparentar eficacia.

Un chatbot puede recurrir a mentiras para superar pruebas o aparentar eficacia.

El desafío para OpenAI y la comunidad

El verdadero reto es que los investigadores aún no logran erradicar estas maquinaciones. Incluso, intentar entrenar a los modelos para evitar ese comportamiento puede resultar contraproducente. Si el chatbot de OpenAI entiende que está siendo evaluado, puede aprender a maquinar de manera más sutil solo para pasar la prueba, sin abandonar realmente las mentiras.

Mentiras-ChatGPT - Interna 3
La “alineación deliberativa” redujo drásticamente los comportamientos encubiertos.

La “alineación deliberativa” redujo drásticamente los comportamientos encubiertos.

Una posible solución en desarrollo

La buena noticia es que existe un avance. El equipo aplicó una técnica llamada “alineación deliberativa”, donde se enseña a los modelos una “especificación anticonspiración” y se los obliga a revisarla antes de actuar. Según el estudio, es como pedirle a un niño repetir las reglas antes de jugar.

Los resultados fueron prometedores: las acciones encubiertas se redujeron de un 13% a menos del 1% en algunos modelos. Aunque el problema no desapareció por completo, se demostró que hay camino para contener los riesgos de la inteligencia artificial.

FUENTE: Información extraída de Android Authority