Google está desarrollando una IA que realizará diagnósticos de salud

De primeras, una advertencia. «AMIE es un trabajo inicial únicamente experimental, no un producto», avisan los responsables del proyecto de Google, a través de un comunicado oficial. En él anuncian el desarrollo temprano de una herramienta de diálogo basada en Inteligencia Artificial (IA) que emite diagnósticos médicos. Unas líneas después apuntan que «algún día podría convertirse en un sistema de diálogo de diagnóstico en el mundo real», pero que todavía encuentran muchas limitaciones y que están jugando en «el arte de lo posible».

De manera irremediable, una pregunta sobrevuela todo el escrito: ¿sustituirá la IA a los médicos? El equipo de investigadores de Google Research y Google DeepMind no da una respuesta concreta a esta cuestión. Si bien reconocen que «aproximarse a la considerable experiencia de los médicos es un desafío importante», afirman que su IA tiene mejor trato con los pacientes que los médicos humanos de acuerdo a sus resultados y que emite diagnósticos más certeros.

Apodado Articulate Medical Intelligence Explorer (AMIE), el chatbot entrenado para realizar entrevistas médicas «igualó, o incluso superó, el desempeño de los médicos humanos al conversar con pacientes simulados y enumerar posibles diagnósticos sobre la base del historial médico de los pacientes», advierten los desarrolladores.

El chatbot, que se basa en un modelo de lenguaje grande (LLM) desarrollado por Google, fue más preciso que los médicos de atención primaria certificados en el diagnóstico de afecciones respiratorias y cardiovasculares, entre otras. En comparación con los médicos humanos, logró adquirir una cantidad similar de información durante las entrevistas médicas y obtuvo una clasificación más alta en empatía.

«Hasta donde sabemos, esta es la primera vez que un sistema de IA conversacional se ha diseñado de manera óptima para el diálogo de diagnóstico y la toma de la historia clínica», afirma Alan Karthikesalingam, científico de investigación clínica de Google Health en Londres y coautor del estudio, que se publicó el 11 de enero en el repositorio de preimpresiones arXiv. Aún no ha sido revisado por pares.

Los investigadores se apresuran también a enumerar las limitaciones de AMIE. Señalan que la construcción de su sistema ha sido a la vez «única y difícil» debido a la escasez de entrevistas médicas disponibles para entrenarlo, dice Vivek Natarajan, también coautor del trabajo y científico investigador de inteligencia artificial de Google Health en Mountain View, California.

Además, no se ha probado en personas con problemas de salud reales, solo en actores capacitados para representar a personas con afecciones médicas. Por eso, Karthikesalingam pide «que los resultados se interpreten con cautela y humildad». Aunque el chatbot está lejos de utilizarse en la atención clínica, los autores sostienen que podría desempeñar un papel en la democratización de la atención médica.

Los voluntarios pusieron nota a médicos reales y a la IA de Google sin saber quién era quién

Como mencionábamos, el principal desafío que enfrentaron los desarrolladores fue la falta de conversaciones médicas reales que «no logran mostrar la amplia gama de condiciones y escenarios médicos». Por otro lado, las transcripciones de diálogos «tienden a ser ruidosos y contienen lenguaje ambiguo, que incluye jerga». Para superar esta barrera, se apoyaron también en «conversaciones» actuadas.

Aunque entrenaron al sistema con la limitada cantidad de datos públicos disponibles (entrevistas médico-paciente y registros clínicos), a continuación, intentaron que el sistema se entrenara a sí mismo. Le pidieron que interpretara el papel de una persona con una enfermedad concreta y también el de un médico empático, con el objetivo de comprender la historia de la persona e idear diagnósticos potenciales.

El equipo también pidió al modelo que desempeñara un papel más: el de un crítico que evalúa la interacción del médico con la persona tratada y brinda retroalimentación sobre cómo mejorar esa interacción. La finalidad fue capacitar aún más al LLM y generar mejores diálogos.

Para probar el sistema, los investigadores reclutaron a 20 personas voluntarias entrenadas para interpretar el rol de diferentes pacientes, y les pusieron a chatear tanto con 20 médicos reales como con AIME. No se les dijo si estaban interactuando con un humano o con un robot. En total, los actores simularon 149 escenarios clínicos y luego se les pidió que evaluaran su experiencia. Un grupo de especialistas evaluó el desempeño de AMIE y también el de los médicos reales.

¿El resultado? El sistema de IA igualó o superó la precisión diagnóstica de los médicos en las seis especialidades médicas consideradas. El robot superó a los médicos en 24 de 26 criterios de calidad de la conversación, incluida la cortesía, la explicación de la afección y el tratamiento, la apariencia honesta y la expresión de atención y compromiso. Te puede interesar: El peligro de preguntarle a ChatGPT si tenemos cáncer: «Se inventa las cosas»

«Esto no significa en modo alguno que un modelo de lenguaje sea mejor que los médicos a la hora de realizar la historia clínica», afirma Karthikesalingam. El científico señala que los médicos de atención primaria del estudio probablemente no estaban acostumbrados a interactuar con los pacientes a través de un chat de texto, y esto podría haber afectado su desempeño. Por el contrario, un LLM tiene la «injusta ventaja» de poder redactar rápidamente respuestas largas y bellamente estructuradas, explica Karthikesalingam, lo que le permite ser considerado constantemente sin cansarse.

En el futuro, el equipo de Google tiene previsto mejorar las capacidades del sistema, poniéndolo a prueba en condiciones más realistas y mejorando aún más su trato con los pacientes. El equipo de Google también está empezando a investigar los requisitos éticos para probar el sistema con humanos que tienen problemas médicos reales.

Información de La Razón

Comparte con un amigo