La incorporación de chatbots impulsados por inteligencia artificial en el sector salud ha transformado la manera en que las personas acceden a información médica. Herramientas como ChatGPT y Gemini han ganado popularidad gracias a su capacidad para ofrecer respuestas inmediatas a diversas consultas, lo que resulta especialmente atractivo para aquellos que no cuentan con acceso regular a atención médica. Sin embargo, esta creciente dependencia plantea serias dudas sobre la fiabilidad de la información que proporcionan y los peligros que pueden derivarse de su uso.
Un estudio reciente, publicado en la revista BMJ Open, ha puesto de manifiesto las limitaciones y los riesgos asociados al uso de estas herramientas digitales para resolver inquietudes de salud. La investigación revela que casi el 50% de las respuestas generadas por algunos de los chatbots más conocidos son problemáticas, imprecisas o potencialmente peligrosas para los usuarios. Este hallazgo es alarmante, especialmente en un contexto donde los pacientes buscan información confiable para tomar decisiones sobre su salud.
Los investigadores evaluaron el rendimiento de cinco modelos de inteligencia artificial, incluyendo Gemini 2.0 y ChatGPT 3.5, analizando un total de 250 preguntas relacionadas con temas críticos como el cáncer, las vacunas y la nutrición. Los resultados fueron inequívocos: el 49,6% de las respuestas se clasificaron como problemáticas o riesgosas, mientras que solo el 50,4% cumplió con los estándares médicos reconocidos. Este equilibrio casi paritario entre respuestas útiles y erróneas plantea serias inquietudes sobre la efectividad de estos sistemas para ofrecer consejos médicos seguros.
La investigación destaca que las deficiencias en las respuestas de los chatbots se deben a su incapacidad para razonar clínicamente. En lugar de proporcionar respuestas fundamentadas, estos modelos generan información a partir de predicciones estadísticas de palabras, lo que puede resultar en la difusión de datos erróneos o en la reafirmación de conceptos sin soporte científico. La falta de advertencias claras sobre sus limitaciones agrava el riesgo de que los usuarios se expongan a información inexacta, lo que puede tener consecuencias graves para su salud.
Los hallazgos del estudio revelan que las preguntas abiertas tienden a generar un 32% de respuestas altamente problemáticas, en contraste con un 7,2% en el caso de preguntas cerradas. Si bien los chatbots demostraron un mejor desempeño en temas como vacunas y cáncer, los errores se concentraron en áreas como la nutrición y el rendimiento deportivo, donde se registraron índices de problemas significativamente más altos. Por ejemplo, el modelo Grok generó más respuestas peligrosas de lo esperado, evidenciando la variabilidad en la calidad de la información proporcionada.
Un aspecto crítico que se destaca en la investigación es la escasa frecuencia con la que estos sistemas se niegan a responder preguntas médicamente delicadas; solo un 0,8% de las consultas fue rechazado. Esta tendencia incrementa la probabilidad de que los usuarios reciban información inapropiada sobre temas complejos, lo que podría llevar a decisiones de salud mal informadas. Además, todos los chatbots analizados presentaron deficiencias en sus referencias científicas, lo que pone en duda su capacidad para ser una fuente confiable de información médica.
En conclusión, aunque los chatbots de inteligencia artificial ofrecen una forma accesible y rápida de obtener información de salud, su uso conlleva riesgos significativos. La creciente confianza en estos sistemas resalta la necesidad de establecer regulaciones más estrictas y de educar a los usuarios sobre las limitaciones de estas herramientas. Solo así se podrá mitigar el riesgo de desinformación que podría afectar la salud de las personas.



