Come il bias algoritmico discrimina senza intenzione, e perché la matematica non è mai neutrale come sembra.

Ciao e buon lunedì!

Nel 2016, un team di giornalisti di ProPublica guidato da Julia Angwin, si è domandato perché un sistema software usato nei tribunali degli Stati Uniti stesse condannando le persone in modo diverso a seconda del colore della pelle.

Eppure il sistema funzionava esattamente come progettato.

Il fatto

Il sistema di cui parlo si chiamava COMPAS, acronimo di Correctional Offender Management Profiling for Alternative Sanctions: uno strumento di valutazione del rischio di recidiva usato in molti stati americani per orientare le decisioni su libertà vigilata, cauzione e sentenza finale. I giudici lo usavano come supporto nei processi: l'algoritmo assegnava a ogni imputato un punteggio da 1 a 10, indicando la probabilità che tornasse a commettere crimini.

ProPublica ha analizzato i dati di oltre 10.000 persone arrestate nella contea di Broward, in Florida, tra il 2013 e il 2014, confrontando i punteggi assegnati dall'algoritmo con quello che era poi accaduto realmente nei due anni successivi. Il risultato era inequivocabile: i detenuti neri venivano classificati come ad alto rischio quasi il doppio delle volte rispetto ai detenuti bianchi con lo stesso profilo criminale, anche quando in seguito non avevano poi commesso alcun reato. In termini numerici: tra chi non aveva commesso altri reati, i detenuti neri erano stati erroneamente classificati come ad alto rischio nel 45% dei casi. Ai detenuti bianchi, nello stesso scenario, veniva attribuito un alto rischio solo nel 23% dei casi. (Fonte: ProPublica, "Machine Bias", maggio 2016)

La società che produceva COMPAS, Northpointe, ha risposto che l'analisi condotta da ProPublica fosse fondamentalmente sbagliata. Da un punto di vista matematico, in effetti, Northpointe aveva assolutamente ragione.

Northpointe dimostrava che il loro algoritmo era ugualmente accurato per entrambi i gruppi: a parità di punteggio, la probabilità di recidiva era la stessa per neri e bianchi. L'algoritmo non dava un responso diverso a seconda della razza, era davvero calibrato equamente.

Ma come può essere che entrambi avessero ragione?

Cerco di spiegarti facendo un passo indietro e aiutandomi con un esempio.

Attenzione: contenuto teorico potenzialmente noioso. Se non ti interessa approfondire, salta direttamente alla sezione “C’è un però” 👌🏻

Immagina due quartieri: il Quartiere A e il Quartiere B. Per ragioni storiche di povertà, disoccupazione e attenzione selettiva da parte della polizia, nel Quartiere B il tasso di recidiva reale è più alto che nel Quartiere A. Attenzione: non perché le persone siano diverse, ma perché sono le condizioni ad essere differenti.

Ora un algoritmo deve valutare il rischio di recidiva per gli abitanti di entrambi i quartieri. La correttezza di tale algoritmo può essere valutata da due punti di vista differenti.

Punto di vista 1 (quello di Northpointe): quando l'algoritmo assegna il punteggio "alto rischio", quella valutazione deve essere ugualmente affidabile per entrambi i quartieri. Se dice "alto rischio", deve avere ragione nella stessa percentuale di casi, indipendentemente da dove viene la persona. In questo caso, parliamo di “calibrazione”.

Punto di vista 2 (quello di ProPublica): tra le persone che non recidiveranno mai, la stessa proporzione deve essere erroneamente etichettata come "alto rischio", indipendentemente dal quartiere di provenienza. Non è giusto che gli innocenti del Quartiere B rischino il doppio degli innocenti del Quartiere A di essere classificati come pericolosi. In questo caso, invece, parliamo di “parità degli errori”.

Sembra ragionevole volerli soddisfare entrambi, ma il problema è che, quando i due quartieri hanno tassi di recidiva reale diversi, è matematicamente impossibile che un algoritmo possa essere corretto per entrambi contemporaneamente.

Infatti, se nel Quartiere B la recidiva è più frequente, un algoritmo che vuole essere ugualmente preciso per entrambi i gruppi deve assegnare punteggi "alto rischio" più spesso a chi viene da quel quartiere. Inevitabilmente, quella rete più larga catturerà anche più innocenti del Quartiere B rispetto al Quartiere A. Il tasso di falsi positivi sarà diverso. Ma se invece forzi l'algoritmo a produrre lo stesso tasso di errori nei due quartieri, la sua capacità predittiva per il Quartiere B si deteriora.

Non c'è via di uscita: quando i tassi di base differiscono tra gruppi, nessun algoritmo può soddisfare simultaneamente tutte le definizioni matematiche di equità. Non è un calcolo risolvibile con una quantità maggiore di dati o con programmatori migliori: è un vincolo matematico. (Fonte: Chouldechova, "Fair Prediction with Disparate Impact", 2017; Kleinberg, Mullainathan, Raghavan, 2016)

Sia ProPublica che Northpointe avevano ragione. L'algoritmo era contemporaneamente equo e discriminatorio, a seconda di cosa si intende per equità.

E chi aveva scelto quale definizione usare? Nessuno, in modo esplicito. La scelta era stata incorporata silenziosamente nel design del sistema, senza che nessun giudice, nessun imputato, nessun legislatore ne fosse stato informato.

C’è un però

La reazione più ovvia di fronte a casi come COMPAS è quella di cercare un colpevole.

… Northpointe che vende un algoritmo discriminatorio…

… Amazon che (come è emerso nel 2018) ha dovuto silenziare un proprio sistema di selezione dei candidati perché penalizzava automaticamente i curriculum che contenevano la parola "women's" o i nomi di college femminili, dopo averlo addestrato su dieci anni di domande di lavoro, la grande maggioranza delle quali proveniva da uomini. (Fonte: Reuters, ottobre 2018)…

… o ancora Optum, una delle principali aziende americane di servizi sanitari, il cui algoritmo usato per identificare i pazienti ad alto rischio da inserire in programmi di cura avanzata aveva un difetto strutturale: usava la spesa sanitaria storica come indicatore del bisogno di cura. Peccato che i pazienti neri, a parità di condizioni di salute, spendevano storicamente meno dei bianchi visto che avevano avuto meno accesso alle cure. Risultato: i pazienti neri venivano sistematicamente sottovalutati. Lo studio pubblicato su Science nel 2019 da Zia Obermeyer e Sendhil Mullainathan ha stimato che correggere quel bias avrebbe più che raddoppiato la quota di pazienti neri ammessi ai programmi di cura, dal 17,7% al 46,5%. Per tua info, algoritmi di questo tipo vengono usati per gestire le cure di oltre 200 milioni di americani. (Fonte: Obermeyer et al., "Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations", Science, 2019)

Il punto è che in nessuno di questi casi c'era stato qualcuno che si fosse svegliato la mattina con l'intenzione di scrivere un algoritmo che potesse discriminare. Amazon non voleva escludere le donne. Optum non voleva lasciare senza cura i pazienti afroamericani. Northpointe non voleva mandare in prigione più innocenti che non fossero bianchi.

Inizi a vedere dove sta il problema?

Theodore Porter, storico della scienza all'UCLA, ha dimostrato nel suo libro "Trust in Numbers" (1995) che la quantificazione nasce storicamente come strategia per scaricare la responsabilità: un numero ha l'apparenza di essere imparziale, e chi prende decisioni basate su un numero si può schermare dall'accusa di arbitrarietà. Porter la chiama "tecnologia della distanza": i numeri non eliminano il giudizio umano, lo rendono invisibile. (Fonte: Theodore Porter, "Trust in Numbers: The Pursuit of Objectivity in Science and Public Life", Princeton University Press, 1995)

Un algoritmo non ha intenzione, non ha colpa né volto. Nessuno che lo usa sente di dover rispondere delle conseguenze delle sue decisioni perché, dopotutto, i numeri parlano chiaro.

Il nocciolo della questione

Hannah Arendt, nel suo libro del 1963 sul processo ad Adolf Eichmann tenutosi a Gerusalemme due anni prima, ha coniato una delle espressioni filosofiche più usate (e abusate) del Novecento: la "banalità del male". La sua tesi non era che Eichmann fosse innocente, ma che il male burocratico non richieda mostri. Richiede invece persone normali che eseguono istruzioni, senza mai fermarsi a chiedersi cosa stiano facendo davvero.

C’è una cosa che vale la pena evidenziare: l'algoritmo è la burocrazia resa assoluta. Nessuna persona fisica esegue le istruzioni. Le istruzioni si eseguono da sole. Il giudice che consulta COMPAS non sta scegliendo di discriminare: sta seguendo il protocollo. Il medico che usa lo strumento di Optum non sta negando cure ai pazienti afroamericani: sta rispettando le raccomandazioni del sistema.

Questo crea un problema che non ha precedenti nella storia della discriminazione: per la prima volta, è possibile discriminare sistematicamente milioni di persone senza che nessuno si senta responsabile, perché nessuno ha compiuto un atto intenzionale.

E c'è una questione ancora più profonda, che il caso COMPAS illumina in modo secondo me molto chiaro.

La domanda "l'algoritmo è equo?" non ha alcuna possibile risposta tecnica. Ha, piuttosto, una risposta politica. Scegliere quale definizione di equità adottare, tra definizioni ugualmente valide ma matematicamente incompatibili, non è un problema da risolvere con più dati o migliori modelli. È una scelta di valori. Significa decidere chi può sopportare quale tipo di errore. Significa scegliere, esplicitamente, se è peggio condannare ingiustamente un innocente o lasciare libero un futuro criminale recidivo. Questa è una scelta morale e politica, non tecnica.

Il problema non è che questa scelta venga fatta. Il problema è che venga fatta in silenzio, dentro un modello statistico, senza deliberazione pubblica e senza possibilità di appello.

John Rawls, che potremmo quasi definire il filosofo della giustizia procedurale, costruisce la sua teoria sull'idea che un processo sia giusto se chi lo subisce può contestarlo. Un sistema opaco, invece, è incompatibile con questa idea: se non sai come funziona l'algoritmo, se non sai quale definizione di equità ha incorporato, non puoi nemmeno formulare un'obiezione.

L'AI Act europeo, entrato in vigore nell'agosto 2024, classifica i sistemi di questo tipo come "ad alto rischio" e impone obblighi di trasparenza, documentazione degli errori noti e supervisione umana. Ma le disposizioni per i sistemi ad alto rischio diventeranno pienamente operative solo nel 2027. E anche allora, come nota il Parlamento Europeo, rimarrà aperta la questione di come fare interagire i requisiti dell'AI Act con la normativa antidiscriminazione esistente, che non è stata progettata per casi in cui il discriminatore non ha intenzione e non ha volto. (Fonte: Parlamento Europeo, Think Tank, "Algorithmic Discrimination under the AI Act and the GDPR", febbraio 2025)

Una cosa che penso

Il dibattito pubblico sul bias algoritmico si inceppa quasi sempre nello stesso punto: si cerca il responsabile. Il dato malato, l'ingegnere disattento, l'azienda senza scrupoli.

Questa ricerca ha senso, in alcuni casi, ma rischia di farci perdere di vista il problema fondamentale.

Il problema fondamentale è che stiamo delegando a sistemi matematici decisioni che sono intrinsecamente sociali o politiche, e lo facciamo proprio perché la matematica ci dà l'impressione di aver tolto la politica dall'equazione. Invece essa non è stata tolta: è stata nascosta così bene che non sappiamo più dove sia.

La vera questione del bias algoritmico rimane sul piano della legittimità: chi ha il diritto di decidere quale definizione di equità adottare in un sistema che riguarda milioni di persone? E chi ha il diritto di contestarla?

Finché queste domande restano dentro le software house invece che nelle aule legislative, la risposta implicita è: nessuno.

La bussola della settimana

La prossima volta che un sistema automatizzato prende una decisione che ti riguarda, che sia un prestito negato, un colloquio non ottenuto, una raccomandazione medica, o anche solo un feed che non ti mostra certe notizie, prova a chiederti: su quale delle due definizioni di equità è stato costruito questo sistema? E chi ha scelto quale rispettare?

Farti questa domanda cambia il modo in cui ti relazioni con il sistema: passi da essere utente passivo di uno strumento apparentemente neutrale ad una persona che ha il diritto di sapere quali valori siano stati incorporati negli strumenti che governano il sistema.

I numeri non sono neutri. Sono solo molto bravi a sembrarlo.

A lunedì prossimo.

Alberto

Fonti principali di questo numero:

  • ProPublica, "Machine Bias: There's Software Used Across the Country to Predict Future Criminals. And It's Biased Against Blacks", maggio 2016

  • Alexandra Chouldechova, "Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments", Big Data journal, 2017

  • Jon Kleinberg, Sendhil Mullainathan, Manish Raghavan, "Inherent Trade-offs in the Fair Determination of Risk Scores", 2016

  • Ziad Obermeyer, Brian Powers, Christine Vogeli, Sendhil Mullainathan, "Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations", Science, ottobre 2019

  • Reuters / MIT Technology Review, "Amazon scrapped a secret AI recruiting tool that showed bias against women", ottobre 2018

  • Theodore Porter, "Trust in Numbers: The Pursuit of Objectivity in Science and Public Life", Princeton University Press, 1995

  • Hannah Arendt, "La banalità del male", 1963

  • John Rawls, "A Theory of Justice", 1971

  • Parlamento Europeo, Think Tank, "Algorithmic Discrimination under the AI Act and the GDPR", febbraio 2025

Continua a leggere