La inteligencia artificial avanza en su capacidad para reconocer sus limitaciones. Un grupo de científicos del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) ha dado un paso significativo al crear un enfoque innovador de entrenamiento destinado a mitigar uno de los problemas más debatidos en el ámbito de los modelos de lenguaje, como ChatGPT y Gemini: las "alucinaciones". Este término se refiere a las respuestas erróneas o fabricadas que estos sistemas generan con una confianza inusitada, lo cual ha suscitado serias preocupaciones en diversos sectores.

El trabajo, publicado recientemente en la prestigiosa revista científica Nature, presenta un método que se inspira en el funcionamiento del cerebro humano con el objetivo de mejorar la manera en que la inteligencia artificial maneja la incertidumbre. La propuesta busca que estos modelos sean capaces de ofrecer respuestas más prudentes y menos autoconfiadas cuando no cuentan con información suficiente o pertinente. Este avance podría suponer un cambio en la forma en que se implementa la IA en áreas críticas como la salud, la conducción autónoma y la gestión financiera, donde un error presentado como verdadero puede acarrear consecuencias graves.

El fenómeno de las alucinaciones se ha transformado en un obstáculo destacado para el uso efectivo de la inteligencia artificial, especialmente en contextos donde la precisión es esencial. Los modelos de lenguaje actuales tienden a proporcionar respuestas categóricas incluso cuando no tienen un conocimiento real sobre los temas que abordan. De acuerdo con los investigadores de KAIST, este comportamiento se debe a que los sistemas aprenden a identificar patrones durante su fase de entrenamiento, pero no adquieren un entendimiento genuino acerca de los límites de su propio conocimiento.

Los autores del estudio subrayan que es fundamental que la inteligencia artificial desarrolle la capacidad de expresar incertidumbre, como por ejemplo, al afirmar "no estoy seguro" ante preguntas que escapan a su conocimiento. Este aspecto es clave para aumentar la fiabilidad de la tecnología en aplicaciones donde la precisión es crítica. La falta de esta característica ha llevado a que muchos usuarios duden de la eficacia y seguridad de la inteligencia artificial en situaciones delicadas.

Los investigadores identifican que gran parte del problema se origina en las etapas iniciales del aprendizaje profundo, un método comúnmente utilizado para entrenar redes neuronales artificiales. En la fase de inicialización aleatoria, los modelos comienzan a establecer conexiones sin comprender qué información es correcta o incorrecta. Sorprendentemente, incluso en este estado primitivo, la IA puede manifestar niveles elevados de confianza en respuestas que son incorrectas. Esta sobreconfianza se perpetúa en las etapas posteriores del aprendizaje, contribuyendo a la generación de errores en las respuestas.

Para abordar esta problemática, el equipo de KAIST se inspiró en un fenómeno biológico conocido como actividad neuronal espontánea. En el cerebro humano, las neuronas emiten señales incluso antes de que se produzcan estímulos externos, lo que facilita el desarrollo de circuitos neuronales desde etapas muy tempranas. A partir de este concepto, los investigadores introdujeron una nueva fase previa al entrenamiento convencional de la inteligencia artificial, en la que el modelo se expone únicamente a ruido aleatorio y datos sin sentido aparente.

Este enfoque tiene un propósito claro: antes de que la inteligencia artificial comience a aprender información útil, debe interiorizar que aún no posee conocimientos. Durante esta fase inicial, la red neuronal se enfrenta a datos caóticos y resultados aleatorios, lo que la obliga a establecer niveles de confianza mucho más bajos y cercanos a la aleatoriedad. Según los autores, este método tiene el potencial de fomentar una relación más saludable entre la precisión y la confianza en las respuestas generadas por la inteligencia artificial, lo que podría resultar en modelos más fiables y útiles en el futuro.