Los sistemas de inteligencia artificial aplicados a la medicina han demostrado alta precisión en diagnósticos cuando cuentan con información clínica completa, pero presentan fallas importantes en el razonamiento clínico, especialmente en etapas iniciales del análisis.

Así lo concluye una investigación publicada en JAMA Network Open, desarrollada por científicos de la incubadora MESH perteneciente a la red hospitalaria Mass General Brigham.

El estudio evaluó 21 modelos de lenguaje avanzados, entre ellos GPT-5, Claude, Gemini, Grok y DeepSeek, para medir su desempeño en escenarios clínicos.

Los investigadores pidieron a estos sistemas actuar como médicos en distintos casos, encontrando que, aunque logran diagnósticos finales correctos en más del 90 % de las ocasiones con datos completos, fallan en procesos clave como el diagnóstico diferencial.

Esto implica que los modelos tienen dificultades para identificar múltiples posibles enfermedades a partir de síntomas iniciales, una habilidad esencial en la práctica médica.

“Pese a las continuas mejoras, los modelos de lenguaje grandes estándar no están listos para un despliegue de grado clínico sin supervisión”, concluyó el investigador Marc Succi.

El estudio también subraya que el razonamiento clínico sigue siendo una limitación crítica para la IA, ya que no logra replicar el análisis complejo que realizan los médicos en condiciones de incertidumbre.

“Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y subyacen al ‘arte de la medicina’ que la IA no puede replicar actualmente”, añadió el especialista.

Para evaluar el rendimiento, el equipo desarrolló la herramienta PriME-LLM, que mide la capacidad de los modelos para generar diagnósticos, proponer pruebas y gestionar tratamientos en distintas etapas.

Los resultados mostraron que, aunque los modelos más recientes presentan mejoras, todos fallan en más del 80 % de los casos al momento de plantear diagnósticos diferenciales, especialmente cuando la información es limitada.