• Background Image

    I problemi

22 Gennaio 2020

I problemi

“Dati in alto, questa è una rapina!”Rebecca De Fiore
Algoritmi disuguali in un mondo disugualeFabio Ambrosino

“Dati in alto, questa è una rapina!

Dalla sanità alla politica, come i giganti della Silicon Valley influenzano le nostre vite

Rebecca De Fiore, Il Pensiero Scientifico Editore

Sappiamo dove siete. Sappiamo dove siete stati. Possiamo sapere più o meno a cosa state pensando. — Eric Schmidt, per molti anni presidente di Google

l giorno d’oggi il comportamento digitale viene utilizzato per determinare conseguenze di ogni tipo nel mondo reale. Google e Facebook riescono a percepire lo stato emotivo di una persona o, come dice Schmidt, a sapere cosa pensiamo. I filmati sui bambini che si trovano su YouTube, ad esempio, sono stati usati per la ricerca scientifica sul potenziale dell’intelligenza artificiale nella diagnosi dell’autismo, mentre le compagnie di assicurazioni utilizzano i post sui social media per determinare il prezzo dell’assicurazione. Ma sempre di più i social media stanno iniziando a influenzare anche la politica mondiale. Basti pensare che negli Stati Uniti nel 2016 – anno della campagna presidenziale che ha visto vincitore Donald Trump – l’elettorato è stato investito per 760 milioni di volte di notizie false. Tre storie false per ogni americano adulto e il contributo della rete è stato determinante. Negli ultimi anni Google si sta facendo strada anche nel campo della sanità, mettendo da parte una grande quantità di dati sulle nostre abitudini d’acquisto, sui farmaci che usiamo e su dove viviamo. L’11 novembre The Wall Street Journal ha reso pubblico il cosiddetto Project Nightingale, l’accordo segreto di Google con Ascension, uno dei più grandi sistemi sanitari no profit degli Stati Uniti, che ha sede a St Louis, nel Missouri. Attraverso questa partnership, iniziata nel 2018, Google ha ottenuto l’accesso alle cartelle cliniche di oltre 50 milioni di persone in 21 stati. I dati raccolti nel progetto che prende il nome da Florence Nightingale – colei che creò l’assistenza infermieristica moderna – includono risultati di laboratorio, diagnosi mediche, registri di ospedalizzazione e prescrizioni di farmaci, fornendo così a Google una storia sanitaria completa con tanto di nomi e date di nascita. Né i pazienti né i medici coinvolti erano stati informati del progetto, riferisce The Wall Street Journal, ma le parti coinvolte hanno affermato di non aver violato le disposizioni contenute nell’Hipaa (Health insurance portability and accountability act), il pacchetto di normative sulla privacy che protegge i dati dei pazienti [1].

Questa faccenda evidenzia ancora una volta la relativa conoscenza delle normative sull’uso aziendale dei dati personali – in realtà abbastanza permissive – da parte dell’opinione pubblica. Secondo lo scienziato sociale Jay Shaw, che studia intelligenza artificiale e salute presso l’Università di Toronto in Canada, la situazione attuale sembra non essere troppo diversa da una sorta di far west nel quale manca una sostanziale attività regolatoria sull’uso industriale dei dati personali [2]. E anche Evgeny Morozov, sociologo e giornalista bielorusso, oggi uno degli intellettuali di riferimento in merito al dibattito sugli effetti politici e sociali dello sviluppo della tecnologia, la pensa allo stesso modo. Uno dei temi centrali del nostro tempo è la regolamentazione dello spazio cibernetico: se negli anni ottanta era emersa l’idea che il cyberspazio fosse un luogo distinto dal mondo reale e quindi regolato dal cosiddetto diritto cibernetico, al contrario il cyberspazio non può essere considerato un mondo separato perché internet è al centro del contemporaneo economico e sociale in cui ci troviamo. La Silicon Valley non è diversa da Wall Street e le grandi piattaforme digitali come Google e Facebook si stanno appropriando dello spazio pubblico monopolizzando i dati personali. “Le aziende della Silicon Valley – scrive Morozov – stanno piazzando un fi lo spinato invisibile intorno alle nostre vite. Sulla carta ci promettono più libertà, apertura e mobilità, ci dicono che possiamo andare dove vogliamo quando vogliamo, ma in realtà si tratta di una libertà fasulla, come quella di chi deve portare il braccialetto elettronico” [3].

Il controllo della nostra vita digitale è una delle principali sfide per i diritti umani della nostra era. — Kumi Naidoo

Anche un rapporto di Amnesty International accusa Facebook e Google di avere un “modello di business basato sulla sorveglianza che non ha confronto nella storia umana”. Basti pensare che Facebook, oltre alla sua omonima piattaforma, controlla anche WhatsApp, Messenger e Instagram, mentre Google controlla YouTube, Gmail, il sistema operativo mobile Android, il più famoso e utilizzato motore di ricerca e non solo. Ma non è tutto. Bisogna considerare, infatti, che la sorveglianza include anche “l’interno delle case delle persone attraverso l’uso di assistenti domestici come l’assistente di Google e sistemi domestici intelligenti che collegano più dispositivi come telefoni, televisioni e riscaldamento. Sempre di più, l’estrazione dei dati si estende anche gli spazi pubblici attraverso l’infrastruttura della città smart progettata per raccogliere dati in un’area urbana. Facebook sta persino sviluppando una tecnologia che consentirebbe di tracciare l’interno del cervello umano”.

Dunque, come afferma Kumi Naidoo, segretario generale di Amnesty International, i giganti della tecnologia hanno accumulato “un potere senza pari sul mondo digitale, raccogliendo e monetizzando i dati personali di miliardi di persone. Il loro insidioso controllo della nostra vita digitale mina l’essenza della privacy ed è una delle principali sfide per i diritti umani della nostra era” [4].

La questione della privacy, però, non è l’unica. E forse neanche la più importante. Le aziende, infatti, hanno accesso da tempo a milioni di cartelle cliniche e i pazienti raramente vengono informati. Google, ad esempio, aveva già milioni di dati di pazienti grazie agli accordi con diverse istituzioni sanitare, come la Mayo clinic, l’Università di Chicago e la Cleveland clinic. Senza dimenticare l’acquisizione da parte di Google di DeepMind Health, l’unità medica dell’omonima società basata sull’intelligenza artificiale, che già sollevò il problema dei dati personali. La vera domanda da farsi dovrebbe piuttosto essere cosa intenda fare Google con tutti questi dati. Per questo è fondamentale distinguere tra i dati in sé e le conoscenze acquisite da Google dall’analisi di tali dati, che potrebbe utilizzare anche in altri contesti. I documenti di brevetto depositati nel 2018 suggeriscono che Google aspira a prevedere o identificare le condizioni di salute delle persone che non hanno nemmeno consultato un medico, tramite quelli che oggi vengono chiamati dati medici emergenti (EMD), informazioni sulla salute dedotte dall’intelligenza artificiale grazie al comportamento del cittadino, considerato alla stregua di un consumatore di medicina. Un recente studio, ad esempio, ha analizzato le cartelle cliniche e i post sui social media di 999 utenti di Facebook mostrando risultati sorprendenti: messaggi contenenti linguaggio religioso, come le parole Dio, Signore e Gesù, erano forti predittori del diabete [5]. Sulla stessa scia, Google sta brevettando una casa smart che estrae EMD dal comportamento di chi ci abita per dedurre se stiano sviluppando la malattia di Alzheimer o disturbi da uso di sostanze. Anche in questo caso il guadagno reale non è nei dati, ma nell’utilizzo degli EMD per la profilazione dei consumatori. Per questo, il vero pericolo del Project Nightingale è la capacità di Google di sfruttare la sua cache di dati sanitari per costruire un impero senza rivali di sorveglianza della salute dei consumatori che abbraccia numerosi settori e tecnologie.

Tutti si aspetteranno di essere trattati e monitorati, visto che i vantaggi saranno enormi. — Hal Varian

Ed è proprio quello che intende Shoshama Zuboff quando parla di capitalismo della sorveglianza, qualcosa che “si appropria dell’esperienza umana usandola come materia prima da trasformare in dati sui comportamenti”. Hal Varian, chief economist di Google, preferisce ovviamente definirla personalizzazione: “Anziché dover chiedere qualcosa a Google, è Google a dover sapere che cosa volete e a dirvelo ancora prima che lo domandiate. Tutti si aspetteranno di essere trattati e monitorati, visto che i vantaggi in termini di convenienza, sicurezza e servizi saranno enormi. Il monitoraggio continuo sarà la norma” [6].

Bibliografia

[1] Shaukat T. Our partnership with Ascension. Inside Google Cloud, 12 novembre 2019.
[2] Ledford H. Google health-data scandal spooks researchers. Nature, 19 novembre 2019.
[3] Morozov E. Silicon Valley: i signori del silicio. Torino: Codice Edizioni, 2016.
[4] Amnesty International. Surveillance giants: how the business model of Google and Facebook threatens human rights. Rapporto, 2019.
[5] Merchant RM, Asch DA, Crutchley P, et al. Evaluating the predictability of medical conditions from social media posts. PlosOne, 17 giugno 2019.
[6] Zuboff S. Il capitalismo della sorveglianza. Roma: LUISS, 2019.

gennaio 2020

Lo scandalo di Cambridge Analytica

Nel 2014 Cambridge Analytica ha ottenuto l’accesso ai dati di alcuni profi li Facebook tramite un’app chiamata thisisyourdigitallife, creata da Aleksander Kogan, professore di psicologia all’università di Cambridge. L’applicazione ha raccolto i dati dei 270 mila suoi iscritti e della loro rete di amici, arrivando quindi a memorizzare informazioni di vario tipo su 50 milioni di profi li Facebook. Nel 2016, la campagna presidenziale Usa di Donald Trump si è avvalsa dei servizi di Cambridge Analytica, che ha utilizzato questi profili psicografi ci per aiutare lo staff della campagna di Trump a identificare il giusto target per gli annunci digitali. Nel 2017 il Guardian ha dedicato una lunga inchiesta a Cambridge Analytica e al suo ruolo anche nella campagna referendaria per Brexit. Secondo l’articolo, l’azienda aveva collaborato alla raccolta di dati e informazioni sugli utenti, utilizzati poi per condizionarli e fare propaganda a favore dell’uscita del Regno Unito dall’Unione europea. Nel 2018, quando lo scandalo è stato reso pubblico, Cambridge Analytica è stata immediatamente sospesa da Facebook con l’accusa di avere usato dati raccolti sul social network che non le appartenevano. Nelle loro inchieste, però, Guardian e New York Times hanno accusato Facebook di avere reso possibile la raccolta, seppure non attivamente, e di avere poi sottovalutato o nascosto la faccenda.

Ma facciamo un passo indietro. Cambridge Analytica è stata fondata nel 2013 da Robert Mercer, un miliardario statunitense con idee molto conservatrici, ed è specializzata nel raccogliere dai social network un’enorme quantità di dati sui loro utenti: quanti “mi piace” mettono e su quali post, cosa commentano di più, il luogo da cui condividono i loro contenuti. Queste informazioni vengono poi elaborate da algoritmi per creare profili psicologici di ogni singolo utente. Carole Cadwalladr – giornalista investigativa diventata famosa a livello internazionale quando ha reso pubblico lo scandalo Cambridge Analytica – in una famosa TED che ha totalizzato oltre 2 milioni di visualizzazioni in soli due mesi ha richiamato gli “dei della Silicon Valley” per il ruolo giocato nel consolidare poteri autoritari in diversi paesi: “Non si tratta di sinistra o di destra, di leave o remain, di Trump o no. Si tratta di sapere se è effettivamente possibile avere nuovamente elezioni libere ed eque. Così com’è, non penso che lo sia. E quindi la mia domanda per loro è: è questo quello che volete? È così che volete che la Storia vi ricordi? Come ancelle all’autoritarismo che è in aumento in tutto il mondo?”.


Algoritmi disuguali in un mondo disuguale

Quelle distorsioni che originano da dati distorti ma che sono evitabili

Fabio Ambrosino, Think2it

Erano gli anni settanta quando negli Stati Uniti furono chiuse le ultime poorhouse: gli istituti pubblici deputati alla reclusione dei poveri, passate alla storia per i tremendi episodi di sfruttamento e di violenza che si verificavano al loro interno. Oggi, fortunatamente, di queste strutture non resta che un lontano ricordo, ma le discriminazioni a danno delle classi più deboli continuano a essere un problema. Di recente sono state descritte diverse situazioni in cui un aumento delle disuguaglianze sociali è stato causato dall’implementazione in ambito sanitario di alcune delle più innovative e sofisticate tecnologie attualmente disponibili: gli algoritmi di machine learning. Pur essendo sviluppati per ottimizzare l’assistenza, infatti, può accadere che l’utilizzo di questi strumenti finisca per intrappolare le fasce più vulnerabili della popolazione in vere e proprie poorhouse digitali [1].

Dimmi il tuo codice postale e ti dirò chi sei
Per una struttura ospedaliera, si sa, i ricoveri rappresentano una delle maggiori voci di spesa. Inoltre, per i pazienti sono generalmente un’esperienza molto sgradevole, oltre che pericolosa. Per queste ragioni nel 2017 un gruppo di data scientists del Center for healthcare delivery science and innovation dell’University of Chicago medicine ha sviluppato un algoritmo di machine learning finalizzato a predire la durata dei ricoveri effettuati presso il sistema ospedaliero accademico [2]. “Volevamo assicurarci che i medici e gli operatori sapessero quali pazienti avrebbero lasciato l’ospedale entro 40 ore – spiega John Fahrenbach, uno dei data scientist che ha lavorato allo sviluppo dell’algoritmo – in modo da permettere loro di gestirli in modo prioritario rispetto a quelli che sarebbero rimasti per una settimana”. Dopo aver preso in considerazione i dati clinici dei pazienti che venivano trattati presso la loro struttura, i ricercatori hanno però cominciato a mettere in relazione i ricoveri con le informazioni demografi che. Con loro sorpresa, dai dati emergeva che il fattore in grado di predire con maggiore precisione la durata delle ospedalizzazioni era il codice postale. “Avevamo questo errore nell’algoritmo – sostiene Fahrenbach – e dovevamo capire quale fosse la causa”. Approfondendo la questione i ricercatori si sono trovati di fronte a una situazione molto delicata da un punto di vista etico: i codici postali associati ai ricoveri più lunghi erano quelli relativi a quartieri abitati principalmente da poveri e afroamericani.

“A parità di condizioni mediche, le persone che provengono da aree con meno risorse impiegano più tempo per essere dimesse, perché hanno bisogno di maggiore supporto sociale – sottolinea il data scientist –, c’è chi ha bisogno di aspettare che gli venga fornita una sedia a rotelle, ci sono madri con fi gli al seguito che chiedono di restare una notte in più perché la situazione nelle loro case è critica”. Se gli sviluppatori avessero deciso di modellare l’algoritmo esclusivamente in termini di efficienza, quindi, avrebbero finito per penalizzare i cittadini con maggiori necessità di supporto sociale, dirigendo invece le risorse verso quelli provenienti dai quartieri più benestanti.

Il primo passo è diventare consapevoli del problema, solo così è possibile cercare di gestirlo, di affrontarlo. — John Fahrenbach

“Non sapevo cosa fare e quindi mi sono rivolto al Diversity and equity commitee della nostra università – spiega Fahrenbach –, dove ho trovato supporto. Non è semplice trattare i bias che riguardano questioni cliniche e sociali perché si tratta di variabili in relazione tra loro: sappiamo per esempio che la provenienza è associata al reddito, che è a sua volta associato al tipo di assicurazione sanitaria, ma sappiamo anche che malattie come l’anemia falciforme sono più frequenti in alcuni gruppi etnici”.

Grazie al lavoro congiunto del Center for healthcare delivery science and innovation e del Diversity and equity commitee è stato però possibile intervenire per tempo e sistemare le falle del sistema prima che questo diventasse operativo. Inoltre, la collaborazione tra i due dipartimenti ha anche portato allo sviluppo di una checklist di raccomandazioni utili a garantire l’equità degli algoritmi di machine learning [3]. “Il primo passo è diventare consapevoli del problema – afferma Fahrenbach –, solo così è possibile cercare di gestirlo, di affrontarlo”. “Gli sviluppatori e gli utilizzatori degli algoritmi di intelligenza artificiale dovrebbero verificare in tutte le fasi di creazione e implementazione di queste tecnologie che i criteri di equità vengano rispettati”, sottolinea Marshall Chin, docente di etica sanitaria dell’University of Chicago medicine, tra gli autori della checklist. “Bisognerebbe sempre porsi alcune domande: l’obiettivo dell’algoritmo è migliorare gli outcome sanitari per tutti i pazienti o è quello, potenzialmente problematico, di tagliare i costi? L’algoritmo è stato sviluppato con dati distorti? I clinici e gli amministratori utilizzano gli algoritmi per migliorare l’assistenza a tutti i pazienti o ne discriminano alcuni?”.

Machine learning: non è razzista, ma…
Se non ci si rende conto per tempo della presenza di bias le conseguenze possono essere drammatiche. Lo dimostra uno studio, pubblicato di recente su Science, che ha indagato la presenza di discriminazioni razziali in un algoritmo di machine learning finalizzato a individuare i casi con maggiore necessità di assistenza sanitaria complessa [4]. Una tecnologia, questa, che negli Stati Uniti è già applicata su un bacino di circa 200 milioni di cittadini. Prendendo in considerazione i dati relativi a 6.079 pazienti che si erano autodefiniti “neri” e 43.539 pazienti che si erano autodefiniti “bianchi”, i ricercatori hanno messo in relazione lo stato di salute dei partecipanti – definitivo dal numero di condizioni croniche attive – con la valutazione del rischio effettuata dall’algoritmo.

Dai risultati è emerso che a parità di rischio predetto i pazienti di colore avevano uno stato di salute peggiore: al 97esimo percentile di rischio, valore utilizzato come livello soglia per l’assegnazione automatica a un programma di assistenza speciale, i pazienti “neri” avevano il 26,3 per cento di condizioni croniche in più rispetto ai “bianchi”.

I pazienti che avevano ricevuto maggiore assistenza erano gestiti in modo prioritario rispetto a quelli che ne avevano ricevuta di meno. — Ziad Obermeyer

Il risultato, come sottolineano gli autori, è una disparità sostanziale e quantificabile nel reclutamento nei programmi di assistenza speciale. Immaginando di utilizzare un algoritmo privo di questo bias razziale, infatti, i ricercatori hanno dimostrato che al 97esimo percentile di rischio la percentuale di pazienti di colore a cui venivano automaticamente assegnate risorse aggiuntive saliva dal 17,7 per cento al 46,5 per cento. “In altre parole l’algoritmo originale rinforzava le disuguaglianze – racconta Ziad Obermeyer, docente di Health policy and management della Berkley university, in California, primo autore dello studio –, i pazienti che avevano ricevuto maggiore assistenza erano gestiti in modo prioritario rispetto a quelli che ne avevano ricevuta di meno”.

Disponendo anche dei dati grezzi utilizzati per lo sviluppo dell’algoritmo, gli autori hanno poi potuto indagare i meccanismi sottostanti questo bias. È emerso che per valutare i bisogni di salute di un paziente gli sviluppatori avevano preso in considerazione il totale delle spese sanitarie associate a quel paziente in un anno. Di conseguenza, l’algoritmo non prediceva la probabilità di un paziente di avere bisogno di cure aggiuntive ma bensì l’ammontare dei costi che avrebbe prodotto. Facendo ulteriori approfondimenti Obermeyer e colleghi hanno quindi scoperto che la disparità di valutazione del rischio dipendeva da un dato economico reale: i pazienti “neri” generavano costi minori di quelli “bianchi”. Nello specifico, a parità di condizioni sanitarie per un paziente di colore si spendevano in media 1.801 dollari in meno all’anno.

Per cercare di risolvere il bias presente nell’algoritmo i ricercatori hanno quindi iniziato una collaborazione con l’azienda produttrice.
“Tutti, sia nel settore pubblico che in quello privato, stanno cominciando a capire solo ora come questi bias si insinuano negli algoritmi”, spiega Obermeyer. “La società che aveva sviluppato il software si è dimostrata molto ricettiva nei confronti della nostra ricerca e disponibile a integrarne i risultati nello sviluppo dei loro algoritmi”. Utilizzando una misura combinata di predittori clinici e economici al posto dei soli costi stimati, ricercatori e sviluppatori sono infine riusciti a ridurre dell’84 per cento le assegnazioni errate legate al bias. “L’algoritmo rivisto – sottolinea con orgoglio il ricercatore – si basa su una predizione di salute e mette in primo piano le persone più bisognose, a prescindere da quanto costano”.

Non sono gli algoritmi, siamo noi
Non sempre, tuttavia, i bias associati a un aumento delle disuguaglianze nascono in fase di sviluppo dell’algoritmo. Può accadere infatti che un sistema automatico di per sé efficiente e funzionale penalizzi un dato gruppo sociale o ne favorisca un altro per via indiretta. È quanto si è verificato, per esempio, con un algoritmo utilizzato a Los Angeles per aiutare i senza tetto a ottenere un’abitazione. Tenendo conto di diverse variabili di carattere clinico e demografi co raccolte durante un colloquio, questo software assegna un punteggio di rischio (compreso tra 1 e 17) a ogni individuo che entra nel programma di assistenza domiciliare. I soggetti con un punteggio che si avvicina a 17 sono quelli per cui la vita in strada rappresenta un rischio potenzialmente letale e vengono quindi assegnati a una casa in modo prioritario. Tuttavia, in aree particolarmente povere e prive di alloggi come South Los Angeles il punteggio di rischio assegnato può rivelarsi un’arma a doppio taglio: se da un lato un individuo con punteggio pari a 16 o 17 rappresenta un candidato ideale per l’assegnazione urgente di una casa, dall’altra è possibile che le istituzioni cittadine lo ritengano – proprio sulla base di quel punteggio – troppo compromesso per gestire un’abitazione in modo autonomo.

Senza un’attenzione adeguata alla tematica dell’equità, quindi, c’è il rischio che un intervento finalizzato a migliorare la qualità della vita dei più deboli si trasformi in un censimento non autorizzato o, peggio, in una sorta di prigione digitale. Secondo Marshall Chin per evitare che ciò accada è fondamentale favorire un processo di partecipazione condiviso che tenga conto dei punti di vista di tutti gli stakeholder interessati dall’implementazione di quella tecnologia, a partire dai gruppi sociali più marginalizzati. “Nell’ambito di progetti di sviluppo di algoritmi, chi finanzia il mondo della ricerca dovrebbe sempre tenere conto di eventuali problematiche legate all’equità”, conclude il docente dell’University of Chicago medicine.

Dello stesso parere è anche Obermeyer, secondo cui i finanziamenti della ricerca dovrebbero essere indirizzati allo stesso tempo verso interventi finalizzati a ridurre le disuguaglianze e verso lo sviluppo di algoritmi più efficienti: “È importante ricordare che le distorsioni originano da dati distorti, ma non sono inevitabili. Nel nostro caso non abbiamo risolto il bias nei dati, e figuriamoci nella società, ma abbiamo dimostrato che è possibile ridurre gli effetti di queste distorsioni facendo migliori scelte tecniche nella costruzione degli algoritmi”.

Bibliografia

[1] Eubanks V. Aumating inequality. How high-tech tools profi le, prolice, and punish the poor. New York: St. Martin’s Press, 2017.
[2] Nordling L. Mind the gap. Nature 2019;573:S103
[3] Rajkomar A, Hardt M, Howell MD, et al. Ensuring fairness in machine learning to advance health equity. Ann Intern Med 2018;169:866-72.
[4] Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science 2019;366:447-53.

gennaio 2020

0 Comments

Leave A Comment

Lascia un commento

Il progetto Forward è realizzato con il supporto di
  • ISCRIVITI ALLA NEWSLETTER DI FORWARD

    Quando invii il modulo, controlla la tua inbox per confermare l'iscrizione

  • Pin It on Pinterest

    Share This