#Notícias
ChatGPT 4.0 acerta 77% e Gemini 2.5 chega a 81% em provas de residência médica
Estudo com modelos da OpenAI e do Google sugere potencial educacional, mas reforça limites éticos e ausência de experiência prática
Avaliação com 464 questões revela salto de desempenho entre versões antigas e recentes de ChatGPT e Gemini em exames de subespecialidades cirúrgicas | Imagem: Unsplash
Pesquisadores da Universidade Estadual de Campinas (Unicamp) avaliaram o desempenho de diferentes modelos de inteligência artificial (IA) em provas de ingresso para programas de residência médica em subespecialidades cirúrgicas no estado de São Paulo.
Seus resultados foram publicados no dia 03 de fevereiro na revista einstein e revelam uma evolução consistente entre as versões mais antigas e as mais recentes dessas plataformas.
Ao todo, o estudo analisou 464 questões de múltipla escolha, submetidas a quatro modelos de linguagem: ChatGPT 3.5, ChatGPT 4.0, Gemini (Bard) e Gemini 2.5 Flash.
As perguntas foram extraídas das provas aplicadas em 2024 pelos programas de especialização da Unicamp, da Universidade de São Paulo (USP) dos campi de São Paulo e Ribeirão Preto, da Universidade Federal de São Paulo (Unifesp), do Instituto de Assistência Médica ao Servidor Público Estadual de São Paulo (IAMSPE-SP) e do Sistema Único de Saúde do Estado de São Paulo (SUS-SP).
Experimento prático com os modelos
Inicialmente, os autores selecionaram 580 questões, mas optaram por excluir 116 delas que exigiam interpretação de imagens ou exames radiológicos. Como os modelos avaliados operam predominantemente com texto, eles poderiam sofrer viés na análise de figuras.
O conjunto final ficou em 464 perguntas, todas com apenas uma resposta correta.
As questões foram copiadas integralmente e inseridas individualmente nas interfaces dos modelos. A cada nova pergunta, a página era atualizada, de maneira a reduzir possíveis efeitos de memória contextual.
Os pesquisadores aplicaram testes estatísticos (qui-quadrado e t de Student) para comparar o desempenho entre versões e confrontar os resultados com a média descrita em estudos internacionais.
Eles também categorizaram as questões segundo sua instituição de origem e tipologia cognitiva – a habilidade exigida para sua resolução, que podia ser conceitual, diagnóstica, de conduta e manejo, ou mista.
Desempenho elevado nas provas
Em média, o ChatGPT 3.5 acertou 55,4% das questões analisadas (257 de 464). O desempenho foi ligeiramente superior ao apresentado pelo Gemini (Bard), que respondeu corretamente 51,1% das perguntas (237).
Por sua vez, as versões mais recentes apresentaram um salto expressivo no sucesso da prova. O ChatGPT 4.0 alcançou uma taxa média de 77,6% (360), enquanto o Gemini 2.5 Flash obteve 81% (376).
Do ponto de vista estatístico, não houve diferença significativa no desempenho dos modelos conforme a categoria da questão. Ainda assim, emergiram tendências qualitativas.
O ChatGPT 3.5 e o Gemini (Bard) obtiveram melhores resultados em perguntas conceituais, que demandam recuperação direta de conhecimento factual. Já o ChatGPT 4.0 e o Gemini 2.5 Flash apresentaram seus melhores desempenhos em questões diagnósticas, sugerindo avanço na simulação de raciocínio clínico estruturado.
Além disso, a concordância entre modelos também aumentou nas versões mais novas: a taxa de coincidência de acertos entre ChatGPT 4.0 e Gemini 2.5 Flash foi maior do que entre suas versões anteriores. Isso indica uma possível convergência de desempenho em tarefas padronizadas.
Ferramenta de apoio à formação de médicos
Os autores destacam que, embora os resultados apontem para um desempenho robusto em exames padronizados, o uso dos modelos não substitui a formação clínica tradicional.
Vale lembrar que os modelos de linguagem não acumulam experiência prática, não vivenciam contextos assistenciais reais nem assumem responsabilidade ética por decisões.
Mesmo assim, o seu potencial educacional é evidente. Em um cenário em que provas de residência médica utilizam predominantemente questões de múltipla escolha, sistemas capazes de explicar alternativas, sintetizar conteúdos e simular raciocínio clínico podem funcionar como instrumentos de treino e revisão, por exemplo.
Referência
Figueiredo MC, Diniz VH, Granado AC, Paulino GC, Oliveira GR. Performance of the Artificial Intelligence large language models ChatGPT 3.5, Gemini (Google Bard), ChatGPT 4.0, and Gemini 2.5 flash in surgical subspecialty questions of Brazilian medical residency exams. einstein (São Paulo). 2026;24:eAO1436. https://dx.doi.org/10.31744/einstein_journal/2026AO1436
*
É permitida a republicação das reportagens e artigos em meios digitais de acordo com a licença Creative Commons CC-BY-NC-ND.
O texto não deve ser editado e a autoria deve ser atribuída, incluindo a fonte (Science Arena).
