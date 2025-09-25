Un team di ricercatori dell’Università degli Studi di Milano e dell’ASST Santi Paolo e Carlo ha condotto il primo studio sperimentale per valutare le capacità diagnostiche di ChatGPT e Gemini – due tra i più noti Large Language Models (LLMs) – confrontandole con quelle di medici neurologi su casi reali di prima visita. I risultati mostrano che i neurologi hanno ottenuto un’accuratezza diagnostica del 75%, superando ChatGPT (54%) e Gemini (46%). Ma in futuro, avvertono gli autori, se l’AI verrà adeguatamente sviluppata, personalizzata, validata e si manterrà una supervisione umana, potrà diventare un’alleata nella pratica clinica. Lo studio è stato pubblicato sul Journal of Medical Informatics Research

Milano, 25 settembre 2025 – L’intelligenza artificiale può sostituire il medico nella diagnosi neurologica? I Large Language Models (come ChatGPT e Gemini) sono sempre più studiati per il loro potenziale in ambito medico, tuttavia la loro efficacia in un contesto clinico reale non è stata ancora sufficientemente sperimentata.

Un gruppo di ricercatori dell’Università degli Studi di Milano e dell’ASST Santi Paolo e Carlo ha condotto uno studio sperimentale, utilizzando casi clinici reali di prima visita neurologica, per testare ChatGPT e Gemini, due dei modelli generativi più noti, ma non specificamente addestrati in medicina, in un contesto simile a quello di una prima visita, con l’obiettivo di valutare la loro affidabilità e la qualità delle loro indicazioni cliniche.

Il lavoro, pubblicato sul Journal of Medical Informatics Research, ha coinvolto 28 pazienti anonimi afferenti alla Clinica Neurologica presso l’Ospedale San Paolo dell’ASST Santi Paolo e Carlo. I risultati hanno mostrato come i neurologi abbiano raggiunto un’accuratezza diagnostica del 75%, mentre ChatGPT si è attestato al 54% e Gemini al 46%. Entrambi i modelli di intelligenza artificiale hanno inoltre presentato una tendenza a sovra-prescrivere esami diagnostici, in circa il 17-25% dei casi.

“Questo studio dimostra che, sebbene i LLM come ChatGPT e Gemini abbiano un potenziale interessante come strumenti di supporto, al momento non sono ancora pronti per prendere decisioni cliniche autonome, soprattutto in ambiti complessi come la neurologia”, commenta Natale Maiorana, neuropsicologo e primo autore dello studio.

Prof. Alberto Priori

“È importante sottolineare che abbiamo lavorato con versioni pubbliche e generaliste di questi modelli, senza specifico addestramento medico. Quello che emerge è che l’intelligenza artificiale può essere utile, ma va inserita in modo responsabile nei processi clinici, con una forte supervisione umana”, aggiunge Sara Marceglia, professoressa di Bioingegneria all’Università degli Studi di Milano e coordinatrice della ricerca.

Lo studio invita alla cautela, ma anche all’ottimismo: gli autori ritengono che l’AI possa rappresentare un supporto utile nella pratica clinica futura, a patto che venga adeguatamente sviluppata, personalizzata e validata con rigorosi studi clinici.

“L’intelligenza artificiale è una risorsa promettente, ma oggi non può sostituire il giudizio clinico umano. Il nostro studio apre la strada a una nuova stagione di ricerca per integrare queste tecnologie in modo efficace e sicuro nella neurologia e più in generale nella medicina. Sarà ovviamente necessario inserire una specifica formazione e certificazione per l’uso dell’intelligenza artificiale nel percorso curriculare degli studenti di medicina e degli specializzandi”, conclude Alberto Priori, direttore della struttura di Neurologia dell’Ospedale San Paolo ASST Santi Paolo e Carlo, direttore del Centro di Ricerca ‘Aldo Ravelli’ dell’Università degli Studi di Milano e ideatore dello studio.

Ulteriore importante implicazione dello studio è che anche l’uso dei LLM da parte di utenti non sanitari per autointerpretare sintomi ed esami diagnostici deve essere molto cauto.