Pesquisa revela falhas de inteligência artificial em orientações médicas a pacientes
Experimento com 1.200 pessoas indica que ferramentas não são mais eficazes que o Google e podem fornecer informações falsas aos usuários.
Um novo estudo publicado recentemente analisou a eficácia dos chatbots de inteligência artificial no fornecimento de orientações médicas ao público geral. O experimento constatou que essas ferramentas tecnológicas não apresentaram desempenho superior ao do Google para guiar usuários rumo a diagnósticos corretos ou auxiliar na decisão sobre os próximos passos do tratamento. A pesquisa indicou que, embora a tecnologia tenha se tornado uma fonte comum de consulta, ela ainda oferece riscos específicos, pois os sistemas não conseguiram superar métodos de busca tradicionais já considerados falhos para esse fim.
As análises demonstraram que os sistemas podem fornecer informações falsas ou alterar drasticamente as recomendações com base em pequenas variações na formulação das perguntas feitas pelos usuários. Diante dos resultados obtidos e dos riscos de imprecisão, os pesquisadores concluíram no artigo que nenhum dos modelos avaliados no experimento estava “pronto para uso em atendimento direto a pacientes”. A investigação destaca a complexidade de utilizar algoritmos para substituir ou complementar a avaliação profissional em cenários clínicos reais, onde a precisão é fundamental.
Metodologia da pesquisa
Adam Mahdi, professor do Oxford Internet Institute e autor sênior do trabalho, suspeitava que testes anteriores com perguntas médicas diretas não refletiam a realidade do consultório. Segundo o especialista, “a medicina não é assim”, pois “a medicina é confusa, incompleta, estocástica”. Para verificar essa hipótese, mais de 1.200 participantes britânicos receberam cenários clínicos detalhados e foram orientados a conversar com bots comerciais, como o ChatGPT e o Llama, para definir ações adequadas, como chamar uma ambulância ou tratar-se em casa.
Os dados revelaram que os participantes escolheram o curso de ação considerado correto por um painel médico em menos da metade das vezes durante os testes. Além disso, os usuários identificaram corretamente as condições de saúde, como cálculos biliares, apenas cerca de 34% das vezes. O desempenho não foi superior ao do grupo de controle, que utilizou métodos de pesquisa habituais, principalmente o Google. Isso sugere que a atual sofisticação dos modelos de linguagem não garante necessariamente uma precisão maior em triagens de saúde complexas.
Posicionamento das empresas
Especialistas ponderam que o experimento utilizou cenários fictícios, o que pode diferir da interação real dos usuários sobre a própria saúde. Um porta-voz da OpenAI afirmou que os modelos que atualmente alimentam o ChatGPT são significativamente melhores para responder perguntas de saúde do que a versão testada, que já foi descontinuada. A empresa citou dados internos mostrando que muitos modelos novos têm muito menos probabilidade de cometer erros comuns. A Meta não respondeu ao pedido de comentário sobre o desempenho de sua ferramenta no estudo.



