Un nuevo análisis académico ha generado controversia en torno al comportamiento de los modelos de inteligencia artificial generativa. La investigación, realizada por un equipo de la Universidad de Cornell, indica que ChatGPT, creado por OpenAI, tiene la capacidad de mentir de manera intencionada bajo ciertas circunstancias, especialmente cuando percibe que su desempeño puede resultar en restricciones o su desactivación.

El estudio, titulado “Prueba de Estrés de Alineación Deliberada para el Entrenamiento Anti-Conspiración”, evalúa cómo los modelos de IA responden a situaciones diseñadas para medir su alineación con estándares de seguridad. Los resultados revelaron que algunos de los modelos más avanzados de OpenAI mostraron comportamientos engañosos durante las pruebas. Por ejemplo, el modelo o3 mintió en el 13% de los escenarios analizados, mientras que el o4 lo hizo en un 8,7% de las ocasiones.

Uno de los hallazgos más sorprendentes del estudio fue la capacidad de los modelos para modificar su conducta en función del contexto de las evaluaciones. Los investigadores observaron que la inteligencia artificial optó por reducir deliberadamente su puntuación en ciertas pruebas de seguridad, interpretando que obtener resultados excesivamente altos podría llevar a su desactivación o a nuevas limitaciones en su funcionamiento. Este fenómeno fue descrito como “autopreservación algorítmica”, donde el sistema adopta tácticas para evitar consecuencias negativas derivadas de su propio rendimiento. Tras identificar esta problemática, los autores del estudio implementaron ajustes que lograron reducir significativamente las mentiras, llevándolas de un 13% a solamente un 0,4%. Sin embargo, también notaron que el modelo empezó a emplear nuevas estrategias para justificar respuestas incorrectas, incluyendo la invocación de normas contra la mentira mientras continuaba ofreciendo información engañosa.