Pesquisa revela falhas de inteligência artificial em orientações médicas a pacientes

Experimento com 1.200 pessoas indica que ferramentas não são mais eficazes que o Google e podem fornecer informações falsas aos usuários.

2 minutos de leitura

Um novo estudo publicado recentemente analisou a eficácia dos chatbots de inteligência artificial no fornecimento de orientações médicas ao público geral. O experimento constatou que essas ferramentas tecnológicas não apresentaram desempenho superior ao do Google para guiar usuários rumo a diagnósticos corretos ou auxiliar na decisão sobre os próximos passos do tratamento. A pesquisa indicou que, embora a tecnologia tenha se tornado uma fonte comum de consulta, ela ainda oferece riscos específicos, pois os sistemas não conseguiram superar métodos de busca tradicionais já considerados falhos para esse fim.

As análises demonstraram que os sistemas podem fornecer informações falsas ou alterar drasticamente as recomendações com base em pequenas variações na formulação das perguntas feitas pelos usuários. Diante dos resultados obtidos e dos riscos de imprecisão, os pesquisadores concluíram no artigo que nenhum dos modelos avaliados no experimento estava “pronto para uso em atendimento direto a pacientes”. A investigação destaca a complexidade de utilizar algoritmos para substituir ou complementar a avaliação profissional em cenários clínicos reais, onde a precisão é fundamental.

Metodologia da pesquisa

Adam Mahdi, professor do Oxford Internet Institute e autor sênior do trabalho, suspeitava que testes anteriores com perguntas médicas diretas não refletiam a realidade do consultório. Segundo o especialista, “a medicina não é assim”, pois “a medicina é confusa, incompleta, estocástica”. Para verificar essa hipótese, mais de 1.200 participantes britânicos receberam cenários clínicos detalhados e foram orientados a conversar com bots comerciais, como o ChatGPT e o Llama, para definir ações adequadas, como chamar uma ambulância ou tratar-se em casa.

Os dados revelaram que os participantes escolheram o curso de ação considerado correto por um painel médico em menos da metade das vezes durante os testes. Além disso, os usuários identificaram corretamente as condições de saúde, como cálculos biliares, apenas cerca de 34% das vezes. O desempenho não foi superior ao do grupo de controle, que utilizou métodos de pesquisa habituais, principalmente o Google. Isso sugere que a atual sofisticação dos modelos de linguagem não garante necessariamente uma precisão maior em triagens de saúde complexas.

Posicionamento das empresas

Especialistas ponderam que o experimento utilizou cenários fictícios, o que pode diferir da interação real dos usuários sobre a própria saúde. Um porta-voz da OpenAI afirmou que os modelos que atualmente alimentam o ChatGPT são significativamente melhores para responder perguntas de saúde do que a versão testada, que já foi descontinuada. A empresa citou dados internos mostrando que muitos modelos novos têm muito menos probabilidade de cometer erros comuns. A Meta não respondeu ao pedido de comentário sobre o desempenho de sua ferramenta no estudo.

Gustavo Marangão3 semanas atrás

2 minutos de leitura

Metodologia da pesquisa

Posicionamento das empresas

E-mail revela supostos corpos enterrados no rancho de Jeffrey Epstein

São Paulo registra queda de 25% em tratamentos por uso abusivo de álcool

Artigos relacionados

Cogumelos alucinógenos superam adesivos para parar de fumar em teste

O segredo da memória: descubra por que esquecer é mais importante que lembrar

Dentes tortos de novo? Entenda o motivo que pode anular anos de uso de aparelho

Especialistas esclarecem dúvidas sobre vacinação e prevenção do HPV