Um grande dilema para a administração da universidade, que busca evitar a cola sem cortar totalmente o acesso dos alunos a uma ferramenta que provavelmente se tornará muito importante em sua futura profissão.
Stanford é uma dessas instituições que dedica recursos significativos ao estudo do ChatGPT, o chatbot baseado em aprendizado de máquina da OpenAI. Uma equipa de investigadores da prestigiada universidade americana publicou recentemente um novo estudo onde comparou o desempenho do programa com o dos seus alunos.
É uma abordagem popular, pois é uma boa maneira de avaliar a capacidade do programa de fazer contribuições muito tangíveis para a humanidade. Por exemplo, vários laboratórios de pesquisa já exploraram as capacidades do ChatGPT em gestão ou exames jurídicos, com resultados reconhecidamente heterogêneos, mas muitas vezes impressionantes.
Desta vez, a equipe do pesquisador e médico do hospital Eric Strong queria verificar do que ele era capaz em comparação com estudantes de medicina do primeiro e segundo ano de Stanford. É um curso de alto nível que todos os rankings nacionais colocam pelo menos entre os sete primeiros do país.
De MCQs a perguntas abertas
A particularidade deste estudo é que se centrou em estudos de caso, que incluíram apenas perguntas abertas. Esses testes, que oferecem grande latitude aos candidatos, são muito mais difícil do que múltipla escolha.
Com eles, o chatbot pode simplesmente dissecar as diferentes respostas possíveis para adivinhar qual é a correta. Uma questão aberta, por outro lado, envolve entender todas as nuances de uma declaração complexa. E acima de tudo, você deve então formular uma resposta fundamentada e coerente. É um exercício muito mais assustador, tanto para alunos quanto para sistemas baseados em aprendizado de máquina.
Os autores do texto compilaram 14 estudos de caso diferentes. As declarações continham algumas centenas a milhares de palavras. Eles também foram cheio de detalhes complicados sobre várias doenças crônicas ou tratamentos que não eram necessariamente importantes para resolver o problema. É uma forma de obrigar os candidatos a filtrar os elementos relevantes no quadro do diagnóstico.
Eles enviaram esses estudos de caso para alunos do primeiro e segundo anos selecionados aleatoriamente e, em seguida, para a versão mais recente do ChatGPT com base no GPT-4. Os roteiros foram então corrigidos por um painel de professores experientes.
Mais respostas de aprovação e uma pontuação média mais alta
Em média, os candidatos humanos pontuaram alto o suficiente para passar no exame 85% desses estudos de caso. O chatbot, por sua vez, conseguiu se sair melhor; suas respostas convenceram os examinadores em 93% casos. E não se tratava apenas de apresentar respostas pouco aceitáveis. Em média, o ChatGPT pontuou 4,2 pontos a mais que os aprendizes de medicina de carne e osso.
Esta pontuação impressionante não significa de forma alguma que o chatbot esteja agora pronto para substituir um profissional, longe disso. Por outro lado, sugere que ele está se tornando cada vez mais eficiente em sua maneira de abordar esses casos espinhosos.
Qual o lugar da IA na medicina?
Essas descobertas reforçam a ideia de que alguns alunos podem ser tentados ause o chatbot para trapacear. Este é um tema que está se tornando cada vez mais importante para os educadores, como evidenciado pelo caso de trapaça que atingiu a Universidade de Lyon no início do ano.
ChatGPT: Metade da classe trapaceia com IA, mas é pego
Ciente dessa armadilha potencial, os funcionários da Escola de Medicina de Stanford tomaram a decisão de mudar radicalmente as modalidades de seus exames.
Até agora, os alunos podiam contar com recursos acadêmicos retirados da web para responder a essas perguntas. Mas no semestre passado, o governo optou por mudar para um modelo fechado antiquado. Os alunos devem agora raciocinar apenas com base nas informações que memorizaram durante o ano.
Isso efetivamente reduz o número de casos de trapaça – mas há um outro lado. Que impede que os examinadores testem a capacidade dos candidatos de identificar e usar fontes confiáveis para tomar uma decisão informada — uma competência fundamental no exercício das profissões médicas.
Por esta razão, Stanford está atualmente trabalhando em uma nova atualização curricular. Eles planejamintegrar explicitamente ferramentas baseadas em IA nas práticas de ensino. O objetivo declarado é preparar melhor os alunos, em vez de excluí-los de uma ferramenta que provavelmente levará um lugar cada vez mais importante na medicina de amanhã.
” Não queremos treinar médicos tão dependentes da IA que nem conseguem aprender a raciocinar sozinhos “, explica Alicia DiGiammarino, chefe do segundo ano de medicina em Stanford e coautora do estudo.
” Mas tenho ainda mais medo de um mundo onde os médicos não serão treinados para usar a IA adequadamente. Ainda estamos longe de substituir totalmente os médicos, mas provavelmente estamos a apenas alguns anos de a IA ser incorporada à medicina cotidiana. “, conclui ela.
O texto do estudo está disponível aqui.