ChatGPT è diventato medico: supera brillantemente il test e si laurea. Ottima capacità diagnostica, ma ha carenze nella gestione clinica

L’intelligenza artificiale può superare un esame medico? Secondo un recente studio pubblicato su Scientific Reports del gruppo Nature, la risposta è sì—almeno in parte. ChatGPT-4 è stato sottoposto al test medico standard del Regno Unito, il UK Medical Licensing Assessment (UKMLA), e ha ottenuto risultati più che positivi, dimostrando competenze paragonabili a quelle di un medico junior. Tuttavia, il suo utilizzo rimane adatto più come strumento di supporto che come sostituto del professionista.
Il test: simulazione su 191 domande mediche reali
Il team di ricerca, guidato da James Blackwell dell’Imperial College di Londra, ha testato GPT-4 (la versione avanzata di ChatGPT) con 191 domande a risposta multipla, ispirate direttamente alla banca dati ufficiale del UKMLA, che verifica le competenze cliniche necessarie per esercitare in Gran Bretagna.
Le domande coprivano un ampio ventaglio di 24 aree mediche, tra cui cardiologia, pediatria, medicina d’urgenza e salute mentale. Nove domande sono state escluse perché contenevano immagini, non ancora interpretabili dal modello testuale. Le restanti 182 domande sono state sottoposte sia in formato a scelta multipla, sia in forma aperta, senza opzioni.
I risultati: oltre l’85% di accuratezza con le opzioni
- Con risposte a scelta multipla, ChatGPT ha raggiunto un’accuratezza dell’86,3% nel primo set e dell’89,6% nel secondo.
- Senza opzioni, la performance è calata al 61,5% nel primo test e al 74,7% nel secondo.
Interessante notare che in alcuni casi—8 domande—ChatGPT ha fornito risposte più corrette senza le opzioni. Secondo i ricercatori, questo suggerisce che le risposte multiple possono agire come “distrattori cognitivi”, influenzando negativamente l’elaborazione dell’IA.
Meglio nella diagnosi che nella gestione clinica
La capacità di ChatGPT si è distinta soprattutto nelle domande diagnostiche:
- 91,2% di accuratezza con opzioni
- 84,2% senza opzioni
Al contrario, nelle domande relative alla gestione clinica—cioè su cosa fare concretamente con un paziente—le performance sono scese fino al 51,2% senza opzioni multiple.
Questo evidenzia una forza nel ragionamento analitico e diagnostico, ma anche un limite nella presa di decisioni complesse, dove sono richieste esperienza, contesto umano e valutazione situazionale.
Un’IA che sa calcolare, ma non comprendere
Nel commentare i risultati, i ricercatori precisano:
“I modelli linguistici di grandi dimensioni (LLM) sono in grado di elaborare con competenza scenari clinici, ma rimangono incapaci di comprenderli davvero”.
L’intelligenza artificiale riesce quindi a riconoscere pattern, correlazioni e sintomi, ma non possiede una comprensione profonda dei contesti clinici, né la capacità di integrare elementi empatici, etici o relazionali essenziali nella medicina.