Sette diagnosi su dieci formulate da chatbot medici risultano fallaci, talvolta gravemente. Non è una boutade giornalistica ma il risultato di una ricerca pubblicata sull’European Journal of Pathology, che smaschera l’entusiasmo prematuro verso l’automazione delle competenze cliniche. Le IA, pur affinate e convincenti nel tono, sembrano ancora distanti dall’affidabilità necessaria per coadiuvare o sostituire un medico in carne e ossa.
Diagnostica virtuale: quando la precisione lascia il posto alla finzione
Duecento quesiti clinici sono stati proposti a diversi modelli di intelligenza artificiale, spaziando dalle patologie ematologiche alle neoplasie più complesse. Il verdetto è stato secco: il 70% delle risposte conteneva almeno un errore clinico, mentre il 30% presentava riferimenti bibliografici inventati, privi di qualsiasi riscontro scientifico. E non si trattava di sfumature: in più casi l’algoritmo ha confuso carcinomi distinti o descritto tumori mai diagnosticati. La lucidità dell’esposizione ha reso più insidioso l’errore, mascherandolo sotto una coltre di apparente autorevolezza.
Cinque casi clinici e un confronto che mette a nudo le fragilità dell’IA
Un team di ricercatori ha progettato cinque scenari simulati, modellati su reali casi diagnostici. Ogni quadro clinico è stato costruito seguendo le linee guida più recenti e approvato da specialisti esperti. Lo scopo era sondare il margine d’affidabilità di un chatbot messo nelle condizioni di operare come assistente decisionale. Solo il 32% delle risposte si è rivelato privo di errori significativi. Il resto del campione ha esibito diagnosi scorrette, interpretazioni fuorvianti e un uso disinvolto di fonti inattendibili.
Confronto sul campo: neurologi umani battono chatbot su pazienti reali
Un secondo studio, condotto in una struttura ospedaliera milanese, ha esteso la sperimentazione all’ambito neurologico. ChatGPT e Gemini sono stati messi alla prova durante prime visite neurologiche su 28 pazienti veri. I medici in carne ed ossa hanno centrato la diagnosi nel 75% dei casi. L’intelligenza artificiale, invece, si è fermata al 54% e al 46% rispettivamente. Oltre alle incertezze diagnostiche, i due modelli tendevano a raccomandare un numero spropositato di esami, con una media che oscillava tra il 17% e il 25%, alimentando un rischio di iper-medicalizzazione.
Tra big data e allucinazioni narrative: il confine pericoloso dell’IA
Anche se capaci di macinare dati in tempi record e generare bibliografie estese, le IA soffrono di una sindrome sempre più riconosciuta nel mondo scientifico: l’allucinazione algoritmica. Inventano fonti, fabbricano contesti, e costruiscono verità alternative con una coerenza formale che può trarre in inganno anche l’occhio esperto. Per i ricercatori, queste tecnologie non vanno demonizzate ma inserite in percorsi regolati, con protocolli chiari e supervisione umana costante. L’intelligenza artificiale, per ora, resta un’allieva brillante ma ancora troppo imprevedibile per guidare il bisturi della medicina.




