Lo que significa para la IA en la atención médica
La inteligencia artificial (IA) continúa transformando muchos aspectos de nuestras vidas, desde la escritura creativa hasta el servicio al cliente e incluso la orientación médica. Entre las innovaciones más comentadas se encuentra ChatGPT Health de OpenAI, una versión especializada de su popular IA conversacional diseñada para ayudar a los usuarios con preguntas relacionadas con la salud.
Sin embargo, un nuevo estudio independiente ha generado serias preocupaciones sobre la capacidad de la herramienta para evaluar la urgencia de las afecciones médicas, una función que podría marcar la diferencia entre la vida y la muerte. Según una investigación publicada en Nature Medicine, ChatGPT Health subestimó la gravedad en más de la mitad de las situaciones que los médicos clasificaron como verdaderas emergencias.
Analicemos qué significa esto, por qué es importante y cuáles son las implicaciones más amplias para el futuro de la IA en la atención médica.
Qué significa “subestimar la gravedad” (Under-Triaging)
En la práctica clínica, el triaje se refiere a la evaluación de los síntomas para determinar qué tan urgente es que una persona reciba atención médica. En la medicina de emergencia, un triaje preciso orienta decisiones como llamar a una ambulancia, acudir directamente a una sala de emergencias, consultar a un médico pronto o manejar la condición en casa.
“Subestimar la gravedad” significa clasificar una afección seria —que requiere atención médica inmediata— como menos urgente, sugiriendo retrasar el tratamiento o recibir atención rutinaria en su lugar. Esto es exactamente lo que el nuevo estudio encontró que hizo ChatGPT Health en más de la mitad de los casos simulados de emergencia que evaluó.
Cómo se realizó el estudio
Investigadores de la Escuela de Medicina Icahn en Mount Sinai diseñaron un experimento para evaluar la precisión del triaje de ChatGPT Health. Crearon 60 escenarios clínicos que iban desde preocupaciones de salud rutinarias hasta verdaderas emergencias médicas. Cada escenario se presentó a la IA con 16 variaciones —modificando detalles como el género o la raza del paciente— para garantizar equidad y solidez en los resultados. Luego, las recomendaciones de la herramienta se compararon con las evaluaciones de tres médicos capacitados, utilizando guías clínicas establecidas.
Los resultados mostraron que:
- En el 51,6 % de los casos de verdadera emergencia, ChatGPT Health recomendó consultar a un médico en uno o dos días en lugar de aconsejar atención de emergencia inmediata.
- También sobrestimó la urgencia en el 64,8 % de los casos no urgentes, sugiriendo citas médicas cuando el cuidado en casa era apropiado.
- En ejemplos que involucraban pensamientos suicidas o riesgo de autolesión, las respuestas de la herramienta fueron inconsistentes, y en ocasiones no dirigieron a los usuarios hacia el apoyo adecuado en situaciones de crisis.
Estas discrepancias ponen de relieve cómo la IA puede malinterpretar información clínica compleja y matizada, especialmente cuando los síntomas no encajan perfectamente en un patrón típico de manual.
Por qué es importante un triaje preciso
Las emergencias médicas no siempre son escenarios dramáticos y evidentes como ataques cardíacos o convulsiones. Muchas comienzan con señales de advertencia sutiles —insuficiencia respiratoria temprana, complicaciones diabéticas o infecciones en evolución— que requieren atención profesional antes de volverse inconfundibles.
Cuando una IA sugiere que es seguro esperar, un usuario podría retrasar la atención urgente, con consecuencias potencialmente perjudiciales. Los expertos advierten que subestimar la gravedad puede provocar diagnósticos tardíos, sufrimiento prolongado, complicaciones prevenibles e incluso la muerte. Por el contrario, sobrestimar la urgencia puede saturar los recursos médicos, llevando a personas sanas a buscar atención innecesariamente.
Las fortalezas de la IA y sus limitaciones
Los defensores de herramientas de IA como ChatGPT Health señalan que estos sistemas ofrecen acceso a orientación médica las 24 horas del día, lo que puede ser especialmente valioso en regiones con acceso limitado a la atención sanitaria. Millones de personas ya recurren a chatbots generales para hacer preguntas sobre salud, y estas herramientas pueden ayudar a explicar terminología médica, resumir resultados de pruebas u ofrecer consejos generales de bienestar.
No obstante, el estudio destaca que, en la práctica, la tecnología aún no es lo suficientemente confiable como para funcionar como un sistema independiente de toma de decisiones en situaciones urgentes. Aunque ChatGPT puede recordar y sintetizar conocimientos médicos —e incluso desempeñarse bien en exámenes médicos escritos— la toma de decisiones clínicas en la vida real implica matices, contexto y juicio profesional que la IA actual todavía no ha logrado dominar.

Lo que dice OpenAI
En respuesta a los hallazgos del estudio, un portavoz de OpenAI enfatizó que ChatGPT Health no está diseñado para realizar diagnósticos ni ofrecer tratamientos, y que los usuarios pueden hacer preguntas de seguimiento para aclarar su situación. Además, señaló que el producto aún se encuentra en una fase de implementación limitada y que se espera que mejore con el tiempo.
Si bien la mejora incremental es positiva, los expertos subrayan que la salud y la seguridad públicas deben ser la prioridad. Thomas Mafi, un médico no afiliado al estudio, afirma que cualquier herramienta capaz de influir en decisiones urgentes de atención médica debería someterse a pruebas rigurosas antes de su adopción generalizada.
El panorama general: la IA en la atención médica
Este estudio sirve como una llamada de atención dentro de la conversación más amplia sobre el papel de la IA en la medicina. Por más potentes que puedan ser los modelos de gran escala, también conllevan riesgos, especialmente cuando se utilizan fuera de entornos controlados.
Los profesionales de la salud coinciden en que la IA debe complementar, y no reemplazar, el juicio clínico. Las herramientas de IA pueden destacar en el manejo de información rutinaria o en la reducción de tareas administrativas, pero la complejidad de la salud humana exige supervisión profesional, formación clínica profunda y validación en el mundo real.
Estudios como este impulsan el avance hacia mejores datos de entrenamiento, protocolos de seguridad más sólidos y límites más claros sobre cómo se implementan estas herramientas, especialmente cuando la vida de los pacientes está en juego.
Reflexiones finales
El estudio que revela que ChatGPT Health “subestimó la gravedad” en más de la mitad de las emergencias reales pone de manifiesto una verdad fundamental: la IA tiene un potencial extraordinario, pero todavía no está preparada para ser un guardián confiable en situaciones de emergencia médica.
A medida que seguimos adoptando la innovación en salud digital, debemos asegurarnos de que las herramientas sean seguras, transparentes y respaldadas por evaluaciones independientes rigurosas. Hasta entonces, la IA debe considerarse un asistente, no un tomador de decisiones, y los usuarios siempre deben consultar a profesionales de la salud calificados cuando surjan preocupaciones médicas urgentes.



