Cuidado con pedirle consejos médicos a ChatGPT o Gemini: un estudio revela que sus respuestas son problemáticas #FVDigital

Por

April 16, 2026

121

Millones de personas ya usan chatbots de inteligencia artificial para resolver dudas de salud, pero la ciencia acaba de lanzar una señal de alarma que no puedes ignorar. Un estudio reciente publicado en la revista BMJ Open confirmó que la mitad de las respuestas médicas que dan cinco de los chatbots más populares del mundo son incorrectas, incompletas o directamente peligrosas. Y no, no es exageración.

Hablamos de herramientas que usas todos los días: ChatGPT, Gemini, Grok y similares. Aunque se sienten como tener un médico en el bolsillo, la realidad es bastante más preocupante. Te explicamos por qué.

La mitad de las respuestas médicas de los chatbots tienen problemas serios

Investigadores del Instituto Lundquist para la Innovación Biomédica en Estados Unidos analizaron las respuestas de cinco chatbots populares ante preguntas médicas concretas. El resultado fue contundente: el 50% de las respuestas a preguntas claras y basadas en evidencia fueron clasificadas como “algo” o “muy” problemáticas.

El estudio clasificó las respuestas en tres categorías: sin problemas, problemáticas y muy problemáticas. Se consideraba problemática cualquier respuesta que pudiera llevar a un usuario sin formación médica a seguir tratamientos ineficaces o incluso a automedicarse sin orientación profesional. Eso incluye desde tomar un medicamento incorrecto hasta ignorar una señal de alarma que requería atención urgente.

El chatbot con peor desempeño fue Grok, que registró 29 de 50 respuestas muy problemáticas, equivalente al 58%. Gemini, por su parte, tuvo el menor índice de respuestas muy problemáticas entre los cinco evaluados, aunque eso no significa que sea completamente confiable.

Lo que más preocupó a los investigadores fue que los sistemas de IA fallan en más del 80% de los casos cuando intentan formular diagnósticos diferenciales, que son precisamente los más críticos en medicina, cuando un médico debe descartar varias enfermedades al mismo tiempo.dw

Los chatbots se confunden fácilmente y no saben cuándo algo es urgente

Uno de los problemas más inquietantes que detectaron varios estudios es que los chatbots tienen serias dificultades para distinguir cuándo un síntoma necesita atención inmediata y cuándo puede esperar. En experimentos donde los investigadores describieron síntomas directamente, los chatbots frecuentemente no supieron priorizar correctamente la urgencia de la situación.

La razón tiene que ver con cómo se entrenan estos modelos. Según la investigadora Danielle Bitterman del Mass General Brigham, los modelos se alimentan principalmente de libros de texto médicos e informes clínicos, pero tienen mucha menos experiencia con la toma de decisiones libre que los médicos desarrollan con años de práctica. Básicamente, saben teoría, pero no tienen el criterio clínico que viene de ver pacientes reales.

Además, un estudio publicado en The Lancet Digital Health por investigadores de Mount Sinai reveló algo todavía más alarmante: modelos como ChatGPT-4o, Llama o Gemma dan por válidas afirmaciones médicas falsas el 32% de las veces. Dicho de otro modo, si le preguntas algo basado en un bulo de internet, hay una probabilidad alta de que te lo confirme sin problema.

Otro factor que complica todo: la IA puede cambiar drásticamente sus consejos dependiendo de cómo formules la pregunta. Una pequeña variación en cómo describes tus síntomas puede darte respuestas completamente diferentes, lo que hace casi imposible confiar en ella como fuente médica consistente.

Te podría interesar:

Qué puedes hacer con los chatbots y qué definitivamente no debes hacer

No todo es tan oscuro. Los expertos reconocen que los chatbots sí tienen usos válidos dentro del ámbito de la salud, siempre y cuando se usen con criterio. Por ejemplo, son útiles para entender términos médicos complicados en un informe, preparar preguntas antes de una consulta o buscar contexto general sobre una condición que ya fue diagnosticada por un médico.

Pero hay líneas que no deberías cruzar. Los especialistas son claros en que, ante síntomas como dificultad para respirar, dolor en el pecho o un fuerte dolor de cabeza, lo último que debes hacer es consultarle a un chatbot. Esos son escenarios donde cada minuto cuenta y donde la IA puede literalmente equivocarse de manera fatal.

El doctor Lloyd Minor, de la Universidad de Stanford, recomienda acercarse a estos programas con “cierto escepticismo saludable”. Y los investigadores del Instituto Lundquist van más lejos: advierten que el despliegue masivo de estos chatbots sin educación pública ni supervisión adecuada corre el riesgo de amplificar la desinformación médica a una escala sin precedentes.

Si de todas formas decides usar un chatbot para temas de salud, una práctica que recomiendan algunos expertos es consultar la misma pregunta en dos o más chatbots distintos y comparar las respuestas. Cuando ambos coinciden, hay un poco más de margen para confiar. Pero incluso así, eso no reemplaza la opinión de un profesional de la salud.

La inteligencia artificial avanza a un ritmo impresionante, pero en medicina la diferencia entre una respuesta correcta y una incorrecta puede costar una vida. Por ahora, los chatbots son una herramienta útil para muchas cosas, pero diagnosticar enfermedades o recetar tratamientos no está entre ellas.

Sigue leyendo:
• Médicos recomiendan precaución al subir datos clínicos a ChatGPT
• Sin intentar reemplazar a profesionales médicos: OpenAI lanza nuevo modelo centrado en la salud
• ¿ChatGPT puede diagnosticar enfermedades con mucho más precisión que un doctor real?

Source link

La mitad de las respuestas médicas de los chatbots tienen problemas serios

Los chatbots se confunden fácilmente y no saben cuándo algo es urgente

Qué puedes hacer con los chatbots y qué definitivamente no debes hacer

Nosotros