Come uno studio pubblicato su Science ha misurato il ragionamento clinico di un modello linguistico, perché il dato più citato è anche il più fuorviante, e quale sistema stiamo ottimizzando senza averlo deciso esplicitamente.

Ciao e buon lunedì!

Il 30 aprile 2026, un gruppo di ricercatori di Harvard Medical School e del Beth Israel Deaconess Medical Center di Boston ha pubblicato su Science uno studio destinato a girare ovunque: un modello linguistico di OpenAI, la versione o1-preview rilasciata nel settembre 2024, ha superato i medici in una serie di compiti di ragionamento clinico, incluse decisioni su casi reali di pronto soccorso.

Il numero che ha fatto il giro dei media è questo: nei cosiddetti compiti di "management reasoning", ossia le decisioni che vengono dopo la diagnosi (quali esami ordinare, quale antibiotico prescrivere, come impostare le cure di fine vita), il modello ha ottenuto un punteggio mediano dell'89%. I medici che usavano le risorse convenzionali, incluse ricerche aggiornate su Google, si sono fermati al 34%.

Vale la pena partire da qui. Non per smontare lo studio, che è rigoroso e pubblicato su una delle riviste scientifiche più autorevoli al mondo. Ma per capire cosa dice, cosa non dice, e cosa stiamo già facendo con quel numero prima di averlo letto per intero.

(Fonte: Brodeur PG, Buckley TA, Kanjee Z et al., "Performance of a large language model on the reasoning tasks of a physician", Science, 30 aprile 2026, doi:10.1126/science.adz4433)

Il fatto

Lo studio di Harvard è, nel suo genere, uno dei più solidi mai pubblicati sul confronto tra AI e medici. A differenza di molti precedenti, che usavano dati puliti o questionari a scelta multipla, una parte centrale della ricerca ha utilizzato cartelle cliniche reali di 76 casi del pronto soccorso: dati incompleti, disordinati, esattamente come li affronta un medico di guardia alle tre di notte.

Sei esperimenti complessivi, cinque dei quali su casi clinici strutturati, uno su casi reali. Il modello ha superato sia i modelli di generazione precedente (GPT-4 in testa) sia i medici di riferimento nella maggior parte delle prove. Il co-autore senior Arjun Manrai, professore di bioinformatica a Harvard, ha dichiarato che il modello "ha eclissato ogni benchmark precedente e le nostre baseline di medici". (Fonte: EurekAlert / Harvard Medical School press release, 30 aprile 2026)

Non è il primo studio a mostrare che i modelli linguistici avanzati reggono il confronto con i medici in ambienti clinici controllati. Nel febbraio 2025, una randomized controlled trial pubblicata su Nature Medicine aveva già mostrato che i medici che usavano l'AI in affiancamento prendevano decisioni terapeutiche migliori rispetto a chi usava solo le risorse convenzionali. (Fonte: Goh et al., Nature Medicine, 2025)

In Italia, il settore si sta muovendo rapidamente: la spesa in AI e analytics nella sanità italiana è passata da 120,9 milioni di euro nel 2022 a una previsione di 228,1 milioni nel 2025, un incremento del 90% in tre anni. Oltre l'80% dei professionisti dell'ingegneria clinica riconosce un impatto positivo dell'AI sulla qualità dell'assistenza. (Fonte: NetConsulting cube, "Sanità Digitale 2025", novembre 2025)

C’è un però

Il dato 89% contro 34% è reale. È anche, preso da solo, fuorviante.

Quella cifra viene da un sottoinsieme specifico dello studio: cinque scenari complessi progettati da 25 esperti, in condizioni controllate, non dai casi reali di pronto soccorso. Sui casi reali di pronto soccorso, dove le cartelle erano incomplete e i dati disordinati, il modello era "leggermente migliore" di due medici specialisti quando le informazioni erano scarse, ed equivalente al momento del ricovero completo. Lo scrive, in una lettera pubblicata nella stessa rivista Science pochi giorni dopo, un gruppo di ricercatori che ha analizzato la coerenza interna dello studio: il divario tra il titolo che circola e i dati effettivi è reale, e va nominato. (Fonte: lettera di risposta, Science, maggio 2026, doi:10.1126/science.aeg8766)

Lo stesso co-autore Manrai ha tenuto a precisare, nella dichiarazione pubblica rilasciata con lo studio, che i risultati non significano che "l'AI sostituisce i medici, nonostante quello che alcune aziende che vendono AI in sanità probabilmente diranno". Peter Brodeur, fellow clinico al Beth Israel, ha aggiunto un avvertimento preciso: "Un modello potrebbe identificare la diagnosi giusta proponendo però esami inutili che espongono il paziente a rischi". (Fonte: Harvard Magazine, maggio 2026)

C'è poi una dimensione che il dibattito sull'AI in sanità tende a trattare in modo insufficiente: l'equità. I sistemi di AI vengono addestrati quasi sempre su dati provenienti da ospedali universitari, centri di ricerca, popolazioni benestanti e prevalentemente bianche. Una revisione sistematica della letteratura condotta tra gennaio e marzo 2025 ha stimato che il bias algoritmico influenza fino al 24% delle decisioni diagnostiche per le minoranze etniche. (Fonte: Bridging the digital divide, ScienceDirect, luglio 2025) Il caso più documentato resta quello pubblicato su Science nel 2019 da Ziad Obermeyer e Sendhil Mullainathan: un algoritmo usato su oltre 200 milioni di americani, che usava la spesa sanitaria storica come proxy del bisogno di cura, finiva per sottovalutare sistematicamente i pazienti neri, che storicamente avevano speso meno non perché stessero meglio ma perché avevano avuto meno accesso alle cure. Correggere quel bias avrebbe più che raddoppiato la percentuale di pazienti neri ammessi ai programmi di cura avanzata, dal 17,7% al 46,5%. (Fonte: Obermeyer et al., Science, ottobre 2019)

Un sistema più accurato, in media, può essere contemporaneamente più iniquo, per le stesse ragioni matematiche che abbiamo già visto nel numero sette di questa newsletter, dedicato al bias algoritmico nel sistema giudiziario. Là il caso era COMPAS e i tribunali americani; qui è la medicina. Il meccanismo è identico: quando i tassi di base differiscono tra gruppi di popolazione, migliorare la precisione media non garantisce che il miglioramento raggiunga tutti in egual misura. La media non distribuisce i benefici in modo uniforme.

Il nocciolo della questione

L'AI Act europeo, entrato in vigore nell'agosto 2024, classifica i sistemi di supporto diagnostico medico come sistemi "ad alto rischio" (articolo 6), con obblighi stringenti di trasparenza, documentazione e supervisione umana. Le disposizioni diventano pienamente operative a partire dal 2027. Nel frattempo, il problema più urgente non è la classificazione normativa: è la "black box", ossia l'opacità del meccanismo interno.

La giurisprudenza italiana e europea richiede al medico un "controllo attivo" e una "verifica critica" dei risultati prodotti da un sistema AI. Ma come si esercita un controllo critico su un processo che non è comprensibile neppure ai suoi sviluppatori? Questo interrogativo, sollevato con precisione da un'analisi pubblicata su Altalex nell'aprile 2026, non ha ancora risposta normativa soddisfacente. (Fonte: Altalex, "L'intelligenza artificiale in sanità: il paradosso dell'invisibilità necessaria", aprile 2026)

La questione della responsabilità in caso di errore è il punto in cui tutto si complica. Se un medico accetta la diagnosi proposta da un algoritmo che non capisce, e quella diagnosi è sbagliata, chi risponde? Il medico che l'ha validata senza poterla verificare? L'azienda che ha prodotto il sistema? Il deployer ospedaliero che non ha formato adeguatamente il personale? L'AI Act distribuisce le responsabilità tra "provider" e "deployer", ma nella pratica clinica quotidiana quella catena di responsabilità è ancora teorica.

Il ARISE network di Stanford e Harvard, nel rapporto "State of Clinical AI 2026" pubblicato a gennaio, ha formulato un avvertimento che vale la pena leggere per intero: il campo si sta muovendo più velocemente delle sue pratiche di valutazione. I trial randomizzati su AI in medicina sono ancora pochissimi rispetto alla quantità di prodotti già sul mercato. La maggior parte degli studi è retrospettiva. I benefici vengono misurati in condizioni controllate; i rischi emergono nell'uso reale. (Fonte: ARISE network, "State of Clinical AI 2026", Stanford / Harvard, gennaio 2026)

Una cosa che penso

Ottimizzare la medicina per l'accuratezza diagnostica è un obiettivo ragionevole. Non è, però, la totalità di quello da cui è costituita la medicina.

Un medico che dedica undici minuti a visita, che ha 1.500 pazienti in carico e che magari compila cartelle durante la notte prima di un turno doppio, sta già erogando una medicina degradata, non per mancanza di competenza ma per mancanza di tempo e risorse. Un sistema AI che migliora la precisione diagnostica in quelle condizioni fa qualcosa di utile ma non risolve la condizione a monte: la mitiga, e rischia di renderla ancora più “cementata” nell’attuale sistema.

La domanda che il dibattito sull'AI in sanità non fa quasi mai è questa: a chi serve, prima di tutto, che un algoritmo sia più accurato del medico? Al paziente che riceve la diagnosi giusta, certamente. Ma anche all'amministratore ospedaliero che può giustificare organici più ridotti, al sistema sanitario che cerca di reggere sotto pressione di bilancio senza cambiare struttura, all'azienda farmaceutica o tecnologica che vende il prodotto. Il fatto che tutti questi soggetti abbiano un vantaggio non implica che il vantaggio sia distribuito in modo equo, né - tantomeno - che lo siano i rischi intrinsecamente connessi ad esso.

È uno schema di cui ho già parlato nel numero otto, dedicato all'AI e all'istruzione: l'AI migliora la performance ma non migliora necessariamente la preparazione della popolazione che produce quella performance. Chegg non ha creato il problema di un'istruzione orientata alle risposte piuttosto che all'apprendimento: lo ha portato alla sua logica estrema, e a costo zero. L'AI diagnostica non crea il problema di una medicina sottofinanziata e sovraccarica: rischia di normalizzarlo, con il conforto dei benchmark.

Quello che voglio, come paziente, non è soltanto un sistema che identifichi la diagnosi corretta con una percentuale più alta: vorrei un sistema in cui qualcuno risponde se la diagnosi è sbagliata, in cui la precisione media non nasconde disparità profonde tra categorie di pazienti, e in cui la supervisione umana non sia una clausola del regolamento ma qualcosa che viene fatto sul serio.

Fino a quando queste condizioni non saranno strutturalmente garantite, ogni percentuale di miglioramento diagnostico lascia un po’ il tempo che trova.

La bussola della settimana

"Efficienza" è la parola che ricorre più spesso quando i politici parlano di AI in sanità. Vale la pena fissare cosa significa, in quel contesto.

Significa: gli stessi risultati con meno risorse. Un algoritmo diagnostico più preciso del medico è, nella logica del bilancio ospedaliero, un argomento per non assumere un medico in più. Una piattaforma di triage automatizzata è un argomento per ridurre il personale infermieristico. Non è cinismo: è la logica del contenimento della spesa applicata a uno strumento che permette di sostenere questa scelta grazie a risultati quantificabili e misurabili.

Ogni volta che leggi di tagli al servizio sanitario pubblico giustificati con l'innovazione tecnologica, o di ospedali che "ottimizzano" grazie all'AI, chiediti chi porta a casa il risparmio. Il paziente che riceve la diagnosi giusta? Forse. Il sistema che reinveste quel risparmio in accesso allargato alle cure, in medici di medicina generale nelle aree carenti, in riduzione delle liste d'attesa? Raramente.

L'AI diagnostica è uno strumento serio, e lo studio di Harvard lo dimostra con rigore. Ma uno strumento serio usato per legittimare una scelta politica che non si vuole chiamare con il suo nome è qualcosa di diverso. Riconoscere la differenza non richiede competenze tecniche: richiede di leggere il comunicato stampa fino alla fine, e di chiedersi a quale problema quella soluzione stia davvero rispondendo.

A lunedì prossimo.

Alberto

Fonti principali di questo numero:

Brodeur PG, Buckley TA, Kanjee Z et al., "Performance of a large language model on the reasoning tasks of a physician", Science 392, 524 (2026), doi:10.1126/science.adz4433, pubblicato il 30 aprile 2026
EurekAlert / Harvard Medical School, press release, 30 aprile 2026 — eurekalert.org
Harvard Magazine, "AI Outperforms Doctors in Emergency Room Tasks", maggio 2026 — harvardmagazine.com
Lettera di risposta allo studio Brodeur et al., Science, maggio 2026, doi:10.1126/science.aeg8766
Goh E et al., "GPT-4 assistance for improvement of physician performance on patient care tasks: A randomized controlled trial", Nature Medicine 31, 1233–1238 (2025)
ARISE network (Stanford / Harvard), "State of Clinical AI 2026", gennaio 2026 — medicine.stanford.edu
Ziad Obermeyer, Brian Powers, Christine Vogeli, Sendhil Mullainathan, "Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations", Science, ottobre 2019
ScienceDirect / Olawade et al., "Bridging the digital divide: artificial intelligence as a catalyst for health equity in primary care settings", luglio 2025
NetConsulting cube, "Sanità Digitale 2025 – Verso l'integrazione: di dati, processi, organizzazioni", novembre 2025
Altalex, "L'intelligenza artificiale in sanità: il paradosso dell'invisibilità necessaria", aprile 2026 — altalex.com
Regolamento UE 2024/1689 (AI Act), in vigore agosto 2024

TURING POINT - n.10

Il fatto

C’è un però

Il nocciolo della questione

Una cosa che penso

La bussola della settimana

Continua a leggere

Turing Point