Ciro Cattuto: (big) data
Il report | Il video
Rodolfo Saracci: big data, big illusion
Il report | Il video
Ciro Cattuto: (big) data
Aprendo il suo intervento, il direttore scientifico della Fondazione Isi, Ciro Cattuto, esordisce: “Il mio background è probabilmente simile al vostro, anche se parlo una lingua leggermente diversa dato che sono un fisico di formazione. Quello di cui voglio parlarvi sono alcune esperienze preliminari, alcuni segnali nuovi che indicano una strada diversa, che richiede un dialogo diverso. Questo dialogo coinvolge soggetti e culture molto differenti tra loro, in particolare per quanto riguarda computer science e machine learning. Nel titolo ho messo ‘big’ tra parentesi: il termine big data è legato principalmente al marketing, e in questo senso può risultare estremamente fumoso, ma dietro c’è molto di più e per questo è proprio dai idati’ che io vorrei partire”.
Cosa si intende quando si parla di big data viene ben esemplificato nella prima diapositiva presentata da Cattuto: una mappa che visualizza un miliardo di viaggi in taxi nella città di New York. Con soli 350 Gb di dati (che sembrano tanti, ma in fondo ogni laptop oggi può contenere una simile quantità di dati nel proprio hard disk) si riesce ad avere la visibilità di un intero sistema città e di una particolare funzione all’interno di questo sistema: un punto per ogni pickup, per ogni singolo viaggio in taxi avvenuto a New York negli ultimi 6 anni. Il fatto di avere una visibilità così granulare di grandi sistemi, alla scala di un’intera popolazione, per molti anni, per un’intera generazione, con un contesto finemente risolto, consente di estrarre dei pattern che possono diventare ipotesi che dovranno poi essere pesate e testate con i metodi tradizionali. I big data rappresentano quindi una macchina molto potente per generare ipotesi e stabilire potenziali inferenze causali. “Le nostre simulazioni e i nostri modelli matematici – avverte Cattuto – hanno l’ambizione di creare modelli estremamente realistici perché riescono a modellare la mobilità dell’individuo e tutta una serie di comportamenti che possono avere outcome di salute”.
Molti di questi dati non sono stati raccolti per ragionare, per esempio, su problemi medico-epidemiologici. Ma la disponibilità di proxy digitali della mobilità umana e dei nostri comportamenti risulta di fatto molto utile per modellare un’epidemia. Essendo ormai molto progredite le competenze tecnologiche, si è in grado di sfruttare questa enorme mole di dati con il complesso armamentario di machine learning, data mining, deep learning ecc. che consente di estrarre dei “segnali”. La sfida è imparare a creare una nuova capacità decisionale sulla base di questi nuovi segnali. Ciò non significa che i vecchi segnali non siano più validi, ma che piuttosto è necessario elaborare nuovi modi di misurare il mondo e di prendere decisioni.
Fatta questa premessa, il direttore della Fondazione ISI passa a esaminare rapidamente alcuni tipi di “segnali” e il loro utilizzo per studiare fenomeni clinici o epidemiologici, anche se i dati non sono stati raccolti specificamente con questo scopo. Una sorgente di dati è costituita dai social network quali Facebook e Twitter, e anche Google Trends. Negli Stati Uniti circa 1 persona su 5 è su Twitter, un numero enorme che consente di monitorare i contenuti generati dagli utenti. Legati a questi ultimi ci sono i cosiddetti “metadati” (dati sui dati): ogni volta che qualcuno twitta, nei server di Twitter, oltre al contenuto generato, finisce una struttura dati da cui si ottiene tutta un’altra serie di informazioni sull’autore del tweet, sulla sua localizzazione, su quale dispositivo ha utilizzato, ecc. I metadati sono piuttosto informativi anche perché sono disegnati per essere “digeriti” da un computer. Sono quindi forme di dati molto potenti.
Nel contesto di big data si parla molto di machine learning, un insieme di metodi sviluppati negli ultimi decenni che forniscono ai computer l’abilità di apprendere senza essere stati esplicitamente programmati a farlo, e anche di deep learning e reti neurali artificiali che emulano il funzionamento del cervello umano. Un gruppo di Stanford ha sviluppato un sistema di deep learning “addestrato” utilizzando 150.000 annotazioni manuali solide relative a lesioni cutanee raccolte nell’ospedale di Stanford che ha dimostrato la capacità di classificare una serie di tumori cutanei con un’accuratezza pari a quella dei massimi esperti del settore [1]. Tecnologie di questo tipo sono dormienti finché non diventano “reali”. Facendo attenzione, ammonisce Cattuto, a non cedere alla tentazione di parlare di intelligenza artificiale, perché in questo caso non si tratta di intelligenza artificiale in senso stretto ma semplicemente di percezione molto avanzata, così avanzata da essere sovrumana.
A questo punto il direttore della Fondazione Isi si sofferma ad analizzare alcuni dei pattern che stanno emergendo nella letteratura di epidemiologia digitale, a dimostrazione di cosa si può fare con segnali, come quelli dei big data, che sono piuttosto remoti rispetto al contesto da analizzare. Il primo esempio riguarda il fare data mining con i contenuti generati dagli utenti e si riferisce a uno studio condotto dal gruppo di Chunara alla New York University [2] per verificare se fosse possibile desumere il pattern spaziale dell’obesità utilizzando i like degli utenti su post di Facebook legati all’attività fisica oppure a serie televisive e quindi a situazioni di sedentarietà. “L’analisi statistica – afferma Cattuto – ha dimostrato che l’operazione è molto forte, a tal punto da consentire di inferire la prevalenza dell’obesità negli Stati Uniti senza dover aspettare i dati del Behavioral Risk Factor Surveillance System del governo americano”.
“Un altro esempio di data mining – prosegue – è il bellissimo lavoro di Francesco Gesualdo, Paola Velardi, Alberto Tozzi e colleghi [3], che hanno fatto un ulteriore passo avanti chiedendosi se, sempre negli Stati Uniti, i contenuti generati su Twitter dagli utenti potessero essere un buon proxy per la prevalenza di rinocongiuntivite allergica. Anche in questo caso la risposta è stata affermativa. E questo è un altro punto chiave: estrarre valore dai big data tipicamente significa incrociare dati che normalmente non dialogano tra loro, come quello che la gente scrive su Twitter e quanto polline c’è nell’aria. Questo richiede che i dati vadano raccolti, che siano condivisi e che ci siano le necessarie policy che consentono questo scambio di dati.”
Cattuto cita inoltre il lavoro di Marcel Salathé [4] che nel 2015 ha pubblicato una sorta di manifesto dell’epidemiologia digitale ponendosi una domanda ancora più difficile: se fosse possibile inferire da Twitter il pattern degli effetti collaterali dei farmaci antiretrovirali utilizzati per l’hiv. Il gruppo di Salathé è partito da un filtro che prendeva tutte le menzioni di farmaci antiretrovirali su Twitter negli Stati Uniti e ha iniziato a filtrare sempre di più fino a mantenere solo 37.000 tweet, che consentono di riprodurre una griglia di effetti collaterali dei principali farmaci utilizzati per trattare la progressione della sindrome da HIV. Questo dimostra che non c’è solo l’ambizione ma anche la possibilità di fare farmacovigilanza sulla base di dati di questo genere (cosa che del resto già si fa in ambito Ema e Fda).
L’attenzione di Cattuto si appunta poi su un’altra classe di dati che ha a che fare con le “search engine queries”. Il lavoro più interessante, a suo avviso, è quello pubblicato nel 2016 a firma di Ryen White di Microsoft Research e del suo gruppo [5] , che hanno affrontato un esercizio estremamente complesso. Analizzando le ricerche lanciate su Bing, il motore di ricerca di Microsoft, hanno cercato tutte le frasi in cui un utente dichiarava di aver ricevuto una diagnosi di adenocarcinoma pancreatico. Poi, andando indietro nella storia di ricerche di quell’utente (che naturalmente per problemi etici era anonimo) nei mesi precedenti la diagnosi, hanno trovato che una percentuale tra il 5 e il 15% dei casi di tumore poteva essere predetta fino a 6 mesi prima utilizzando solo i pattern di sintomi ricercati, che anche se deboli davano una percentuale di falsi positivi molto bassa.
Questo dimostra, secondo Cattuto, che la capacità tecnica oggi esiste, la sfida è utilizzare al meglio questi segnali. E per supportare quest’affermazione riporta due esempi significativi. Il primo è quello del lavoro del gruppo di John Brownstein alla Harvard Medical School [6] che, sfruttando un vero e proprio esercito di macchine, ha utilizzato tecniche di data mining da social media, giudizi di esperti, machine learning e trattamento automatico del linguaggio per creare HealthMap, un sistema che fornisce situational awareness su una serie di focolai epidemici e che attualmente viene utilizzato da alcune agenzie. Il secondo esempio riguarda il lavoro di Daniela Paolotti alla Fondazione Isi che, nell’arco degli ultimi anni, ha partecipato alla costruzione progressiva di Influenzanet, la più grande coorte partecipativa sul web per la sorveglianza sindromica dell’influenza [7].
Infine, Cattuto chiude riassumendo le opportunità esaminate: dall’uso di proxy data per studiare fenomeni clinici e dal ruolo delle nuove sorgenti di dati (dispositivi indossabili, sensori impiantabili o ingeribili, internet of things) alla possibilità di assemblare grandi coorti di persone monitorandole in tempo reale. A queste si aggiungono le potenzialità di modelli matematici avanzati (ma anche la possibilità che modelli matematici vecchi si avvalgano di dati di alta qualità e su larghissima scala per fare simulazioni e produrre predizioni), la capacità di monitorare l’opinione della comunità con le stesse tecnologie utilizzate dal marketing computazionale e, dal punto di vista della ricerca e produzione di conoscenza, quella di estrarre enormi quantità di evidenza correlazionale e di disegnare nuovi pattern per inferire connessioni causali. Molte delle tecniche esaminate sono utilizzate in matematica avanzata, statistica inferenziale, computer science. Per questo Cattuto conclude con l’esortazione a incentivare il dialogo tra la comunità medica e quella della scienza computazionale per avere l’opportunità di generare conoscenze diverse. Senz’altro si tratta di una feconda collaborazione che merita di essere incentivata.
Report a cura di Bianca Maria Sagone, Il Pensiero Scientifico Editore
Bibliografia
[1] Esteva A, Kuprel B, Novoa R, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 542: 115-8.
[2] Chunara R, Bouton L, Ayers JW, Brownstein JS. Assessing the online social environment for surveillance of obesity prevalence. PLoS One 2013; 8: e61373.
[3] Gesualdo F, Stilo G, D’Ambrosio A, et al. Can Twitter be a source of information on allergy? Correlation of pollen counts with Tweets reporting symptoms of allergic rhinoconjunctivitis and names of antihistamine drugs. PLoS One 2015; 10: e0133706.
[4] Adrover C, Bodnar T, Huang Z, Telenti A, Salathé M. Identifying adverse effects of HIV drug treatment and associated sentiments using Twitter. JMIR Public Health Surveill 2015; 1: e7. doi: 10.2196/ publichealth.4488.
[5] Paparrizos J, White RW, Horvitz E. Screening for pancreatic adenocarcinoma using signals from web search logs: feasibility study and results. J Oncol Pract 2016; 12: 737-44.
[6] Brownstein JS, Freifeld CC, Reis BY, Mandl KD. Surveillance sans frontieres: internet-based emerging infectious disease intelligence and the HealthMap project. PLoS Med 2008; 5: e151.
[7] Paolotti D, Carnahan A, Colizza V, et al. Web-based participatory surveillance of infectious diseases: the Influenzanet participatory surveillance experience. Clin Microbiol Infect 2014; 20: 17-21-
Video abstract
Rodolfo Saracci: big data, big illusion
L’intervento del noto epidemiologo Rodolfo Saracci, da lui stesso definito old-fashioned, non avrebbe potuto costituire uno stacco più netto da quello di Ciro Cattuto, con cui si confronta nel mettere a fuoco il tema dei big data. È il punto di vista della medicina “umanista”, nel suo senso più stretto, contrapposto a quello della medicina tecnologica e “transumanista”, nel suo senso più ampio. Non a caso, il ragionamento ha preso le mosse da una citazione tratta da The Rock, del poeta T.S. Eliot: “Where is the wisdom we have lost in knowledge? | Where is the knowledge we have lost in information?”. Eppure, al di là delle preoccupazioni esposte per i rapidi quanto inarrestabili cambiamenti in atto nello scenario della relazione di cura, Saracci non chiude la porta ai big data, invita piuttosto a prendere coscienza del problema per non farsene trascinare, per cercare di contribuire a guidare il processo nella giusta direzione.
“I big data arrivano con dei grandi spunti e delle grandi promesse”, sottolinea Saracci, prendendo come esempio gli esperimenti del CERN che hanno provato l’esistenza del bosone di Higgs. “Lì i dati sono veramente “big”, nell’ordine di 1015-1018 collisioni. Ma in quel contesto si danno condizioni di controllo assai strette, in grado di testare ipotesi specifiche derivate da teorie forti. Nessuna di queste condizioni si applica all’insieme dei dati raccolti di routine. A quale fine? Certamente una promessa è che i big data permettano predizioni più accurate, consentendo un salto di qualità nel settore salute”. Saracci non si riferisce alla banale stratificazione di rischio che senz’altro sarà migliorata dall’uso dei big data, ma alla capacità di fare previsioni a livello del singolo individuo sempre più accurate in campo clinico. E a questo proposito esorta a tener presente una considerazione che gli sembra fondamentale: occorrono rischi relativi elevati perché ci sia una buona capacità predittiva a livello individuale; anche se, paradossalmente, se si danno rischi relativi elevati, non c’è neanche bisogno di big data per rivelarli. Piuttosto, ci vogliono “dati buoni”.
Secondo Saracci, la massa informe percepita dei big data nell’ambiente biomedico, prima ancora che interagisca con collaboratori provenienti da altri “orizzonti”, deriva principalmente da tre sorgenti: la grande massa di individui, le misure ripetute nel tempo e la varietà di variabili. “Chiaramente la cosa più importante – sottolinea – è che le variabili abbiano un senso e si possano esplorare.
Un altro elemento importante è la ripetizione nel tempo, longitudinalmente. Ciò che ha meno importanza è la numerosità della massa delle persone che è invece rilevante per quelle che sono le forze economiche e sociali che spingono il meccanismo: è un dato di fatto che dei rischi anche piccoli (ad esempio 1,25), che non servono a nulla dal punto di vista né eziologico né predittivo, permettono in qualsiasi contabilità di ottenere un ottimo profitto”. Un altro aspetto da analizzare è se i big data consentono delle valutazioni conclusive degli esiti e in quali situazioni: “Da studi osservazionali che riescano a estrarre le informazioni pertinenti a delle strategie combinate, ognuna delle quali è affetta da forti fattori di confondimento, che oltretutto variano nel tempo, si possono ricavare dei suggerimenti. Ma le valutazioni non potranno mai essere conclusive: sono tanto assolutamente necessarie, quanto necessariamente solo indicative”.
Saracci porta l’esempio di un recente studio condotto su una base dati definibile “big” che “esaminava solo due condizioni (fibrillazione atriale valvolare e scompenso cardiaco) in una coorte di 200.000 persone presa dal “paradiso” dei registri: la Danimarca. Il quesito riguardava l’uso dei beta-bloccanti. “L’analisi è stata fatta con gli strumenti più avanzati a disposizione degli epidemiologi: regressione Cox, propensity score, sensitivity analysis, ecc. Tuttavia, nel discutere i risultati con i cardiologi, è emerso che mancavano i dati relativi alle frazioni di eiezione. Lo studio è stato fatto benissimo, ma è il tipo di dati disponibili che solleva dei punti interrogativi” [1].
Nel tirare le fila, Saracci si chiede se il salto di qualità non si possa fare finché si continua a guardare le cose in una certa ottica, che forse è obsoleta. “Prendete l’ultimo rapporto McKinsey del dicembre 2016: il titolo è “The age of analytics: competing in a data-driven world”. Proviamo a fare un salto di qualità e immaginiamo che siano i dati invece che il giudizio a trascinarci. Un bel giorno ognuno potrebbe trovarsi alla confluenza di una serie gigantesca di dati – biologici, di comportamento, economici e finanziari, e magari i dati del proprio diario – la cui somma sarà il proprio Io. Quel giorno si riterrà forse che il nostro Io possa essere costituito da qualcosa di esterno in grado di dar conto della nostra storia integrale. Non si tratta di fantascienza ma di un cambiamento di natura filosofica relativo al nostro modo di vivere”. Cambiamento, però, che Saracci non si sente di sposare fino in fondo: “Il mio Io non sarà mai costituito dalla sommatoria dei dati acquisiti su di me”.
Nel suo più recente libro – prosegue Saracci – lo storico israeliano Yuval Noah Harari [2] parla di “dataismo”, fenomeno per il quale l’anima di tutte le cose risiede nel flusso e nello stock di dati e ogni cosa può essere risolta algoritmicamente. “Anche in medicina ci sono delle tendenze che vanno fortemente in questo senso. Per esempio, dal lato del paziente, che è diventato il cliente, il consumatore o l’utilizzatore, il rischio è che alla fine diventi un “datoma”. E dal lato del medico – continua Saracci – c’è la taylorizzazione dell’attività clinica. Sul New England Journal of Medicine Jerome Groopman dell’Università di Harvard [3] ha scritto: “The aim of finding the one best way cannot be generalized to all of medicine, least of all to many cognitive tasks. Good thinking takes time, and the time pressure of Taylorism creates a fertile field for cognitive errors that can result in medical mistakes”. Quello che succede nella restrizione del tempo è che le prescrizioni e le linee-guida, che dovrebbero essere lo strumento per aumentare la capacità di ragionamento di quel computer che è il cervello umano, diventano un sostituto invece di essere uno strumento di aumento delle potenzialità. E il sostituto, in generale, apre la porta al fatto che il processo possa essere robotizzato: perché il robot funziona meglio, non è emotivo e costa meno, e, magari, la performance è migliore. Il problema è che dobbiamo decidere cosa vogliamo lasciare alle persone e cosa alle macchine. Non credo di fare delle previsioni fantascientifiche perché il movimento è molto forte e va veloce, è collegato a innovazioni tecnologiche, sviluppo economico e anche a una certa dose di ideologia». Avviandosi alla fine del suo intervento, Saracci afferma: “Chiaramente siamo nel dominio della prospettiva realistica, non sappiamo quando questo ‘salto’ avverrà. Ma se non cerchiamo di prenderne coscienza e di interagire con gli altri attori che possono far avanzare insieme a noi nelle giuste direzioni questi sviluppi, si va verso una prospettiva rischiosa: il dataismo, preso nella sua forma integrale, è una forma di transumanismo che mette in discussione la radici migliori della medicina, quelle umaniste”.
Saracci propone dunque due ultime riflessioni. “La prima è sulla variabile della relazione medico-paziente: la variabile proxy più vicina è il tempo del contatto, ma ci sono altri aspetti della relazione che non sono stati ancora sufficientemente misurati. La seconda riguarda la population health, termine sempre più popolare perché è un richiamo alla globalità della popolazione e alla sua salute. Ma, mentre la popolazione è abbastanza definita, i confini del concetto di health rimangono vaghi: ci vuole per lo meno un concetto chiaro”. E conclude: “Quando si parla di significato della sofferenza umana ci si riferisce a ciò che, in medicina, è importante ai fini della salute. Spero che le discussioni di oggi stimolino a prendere coscienza del problema, nelle due visioni che ne sono state date, perché si tratta di una questione rilevante. È possibile che la medicina fatta dai robot sia molto più performante, ma riallacciandomi alla frase citata da Iona Heath, ‘care giving is a moral experience‘, vorrei che rimanesse appunto un’esperienza morale. Per quanto, magari, anche i robot avranno le loro morali”.
Report a cura di Bianca Maria Sagone, Il Pensiero Scientifico Editore
Bibliografia
[1] Nielsen PB, Larsen TB, Gorst-Rasmussen A, Skjøth F, Lip GY. β-Blockers in atrial fibrillation patients with or without heart failure: association with mortality in a nationwide cohort study. Circ Heart Fail 2016; 9: e002597.
[2] Harari YN. Homo Deus. Financial Times, August 26, 2016.
[3] Hartzband P, Groopman J. Medical Taylorism. N Engl J Med 2016; 374: 106-8