Per decenni, l’epidemiologia ha fornito un fondamento scientifico per la salute pubblica e la prevenzione delle malattie [1], contribuendo a importanti scoperte scientifiche. La nuova sfida per l’epidemiologia del nostro secolo è affrontare lo tsunami di dati, i cosiddetti big data, che coprono lo spettro di informazioni genomiche, molecolari, cliniche, epidemiologiche, ambientali e digitali. La fusione di dati provenienti da tutte queste fonti ha in sé tutto il potenziale necessario per influenzare i processi decisionali del singolo medico e, più in generale, in sanità pubblica [2].
Il termine “big data” ha cominciato a essere utilizzato nelle pubblicazioni accademiche − e non solo − per descrivere la rapida integrazione e analisi di una grande mole di dati. Da quando è stato coniato nel 1997, per fare riferimento a dati troppo grandi per essere memorizzati nei sistemi di storage dell’epoca, la definizione di big data si è evoluta nel tempo. Secondo il modello di crescita, messo a punto nel 2001 dal ricercatore Doug Laney, il concetto di big data ruota intorno a 3 V: alta varietà, alto volume e alta velocità. In base a questa definizione, “alta varietà” si riferisce alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non); “alto volume” all’ordine di grandezza in termini di osservazioni e di variabili contenuti nei dataset; “alta velocità” al processo di generazione e analisi del dato in tempo reale o quasi, spesso grazie ad algoritmi che operano senza l’intervento umano [3]. Tale modello è ancora accettato nonostante siano state aggiunte nel tempo nuove variabili, come ad esempio “veridicità” riferita al valore e alla qualità dell’informazione [4].
“Una grande quantità di dati diversi e caotici è già disponibile, ma attualmente questi dati formano solo un rivolo d’acqua: è arrivato il momento di prepararsi all’imminente inondazione.” — Stephen J. Mooney, Daniel J. Westreich, Abdulrahman M. El-Sayeda
In ambito epidemiologico, il linkage di dati provenienti da varie fonti e con caratteristiche diverse non rappresenta una novità, e se l’aumento delle fonti informative disponibili da un lato può alimentare nuove opportunità di ricerca, dall’altro alimenta anche il rischio di dover gestire dati di qualità variabile. In questo contesto diviene senz’altro fondamentale indirizzare correttamente il processo di raccolta dati, al fine di assicurarne qualità e validità. Oltre a suggerire l’importanza di una valutazione rigorosa del dato, l’aumento della varietà sopra descritto ha anche portato a un aumento del volume. Grazie alle innovazioni in ambito tecnologico si potrà quindi includere, ad esempio, un maggior numero di soggetti negli studi clinici, a beneficio della potenza dello studio stesso e in più con un notevole risparmio in termini economici: le tecnologie web-based e della telefonia mobile consentono già oggi, infatti, di reclutare soggetti e seguirli nel tempo a costi molto inferiori rispetto ai sondaggi telefonici [5]. Aumentare il volume dei dati richiede anche un maggiore impegno in termini di tecniche statistiche e analitiche, che deve andare di pari passo con l’ampliamento delle conoscenze per poter essere in grado di interpretare al meglio i risultati. L’acquisizione di dati in tempo reale potrà senz’altro favorire un miglioramento in termini di salute pubblica: ad esempio, esistono già diverse applicazioni che raccolgono dati in modo istantaneo provenienti da ricerche web geolocalizzate per la sorveglianza epidemiologica [6]. Velocizzare la raccolta dati può aiutare, inoltre, a implementare interventi di sanità pubblica, in particolare quelli che devono rispondere immediatamente a una minaccia per la salute della popolazione e dove trasferire informazioni ad alta velocità è fondamentale per garantirne il successo. Ad esempio, la diffusione del colera a Haiti dopo il terremoto del 2010 ha richiesto un’importante risposta in condizioni avverse [7]. La pronta identificazione dei soggetti con l’infezione e la rapida distribuzione del vaccino sarebbero senz’altro state facilitate dall’uso di tecnologie ad alta velocità quali le reti cellulari. In realtà, purtroppo, il vaccino non venne distribuito nelle prime fasi dell’epidemia a causa della difficoltà di individuare la popolazione target che ne avrebbe beneficiato[8].
Alle tradizionali 3V dei big data se ne stanno aggiungendo altre, man mano che la riflessione procede.
La gestione dei big data richiederà l’acquisizione di nuove competenze, in particolare nell’ambito della programmazione informatica, grazie alle quali sarà possibile, con le autorizzazioni necessarie, costruire data set utilizzando dati pubblicamente disponibili tramite programmi web scraping che leggono e registrano i dati delle pagine web [9]. Allo stesso modo si potranno monitorizzare e implementare interventi di promozione della salute sfruttando le applicazioni mobili. Diverse applicazioni sono state già sviluppate allo scopo di incoraggiare la popolazione a seguire stili di vita sani (ad esempio, Noom, RunKeeper, MyFitnessPal). Esse permettono di accumulare un gran volume di dati sulla salute e sul comportamento dei cittadini, di notevole interesse per la ricerca epidemiologica; per tale motivo è auspicabile che il mondo scientifico colga presto l’opportunità di collaborare con le aziende produttrici di tali applicazioni.
“Una componente fondamentale del valore futuro del nostro campo sta nell’integrazione della conoscenza dell’epidemiologia con una migliore abilità tecnica.” — Stephen J. Mooney, Daniel J. Westreich, Abdulrahman M. El-Sayeda
Tutte queste attività di ricerca rientrano nell’ambito dell’epidemiologia digitale, disciplina che sfrutta la nuova generazione di sistemi di sorveglianza, insieme all’accesso diffuso a internet e la crescita esplosiva dei dispositivi mobili e delle piattaforme di condivisione online, in grado di generare continuamente una grande mole di dati contenenti informazioni sulla salute. Quindi nell’era dei big data la nuova sfida è integrare le conoscenze dell’epidemiologia tradizionale con nuove capacità tecniche quali la programmazione [10]. Attraverso l’uso di dati digitali globali, l’epidemiologia digitale promette di rilevare tempestivamente il focolaio di una malattia, di valutare il comportamento e gli atteggiamenti di salute della popolazione, nonché di dare un grosso contributo nell’ambito della farmacovigilanza. Tutti questi buoni propositi non sono esenti da rischi, in particolare quelli legati alla sensibilità dei dati raccolti. In un recente articolo vengono elencate alcune problematiche etiche emerse con l’avvento dei big data, accompagnate da alcune proposte per poterle affrontare [11].
Uno dei problemi principali è conciliare l’utilizzo dei big data per il bene comune con i diritti, tra cui quello alla privacy, e le libertà individuali. Una cosa è infatti utilizzare i dati digitali, come quelli dei social network, per promuovere la salute e il benessere dei cittadini, ben altra cosa farlo per mere finalità aziendali come quelle pubblicitarie. Emerge, quindi, la necessità di realizzare norme ad hoc e modalità specifiche per la gestione di dati provenienti da una vasta gamma di fonti.
Un altro aspetto rilevante è legato al rispetto dei diritti e degli interessi delle persone “proprietarie” del dato rispetto alla sua raccolta e analisi, in particolare nei progetti di ricerca che permettono l’accesso e la condivisione di dati globali, includendo quindi diversi paesi e culture con standard diversi per la tutela della privacy.
Una riflessione etica va fatta anche sulla provenienza dei dati: per gli studi epidemiologici dovrebbero essere utilizzati dati di pubblico dominio o per i quali i titolari delle informazioni abbiano espresso il loro esplicito consenso all’uso in ambito medico-scientifico. Tuttavia, sebbene in linea di principio i dati di dominio pubblico sono accessibili e possono essere utilizzati a fini di salute pubblica, cosa costituisca dominio pubblico su internet è tuttora oggetto di accesi dibattiti [12]. Non è chiaro, ad esempio, se gli utenti siano a conoscenza delle modalità con cui i dati delle loro interazioni sui social network possano essere utilizzati e chi possa accedervi. Qualunque progetto di ricerca dovrà necessariamente considerare questi aspetti, allo scopo di garantire la massima trasparenza e il rispetto dei diritti e della dignità individuali.
Cosa accade ogni secondo nel web…
Bibliografia
[1] Koplan JP, Thacker SB, Lezin NA. Epidemiology in the 21st century: calculation, communication, and intervention. Am J Public Health 1999;89:1153-5.
[2] Khoury MJ, Lam TK, Ioannidis JP, et al. Transforming epidemiology for 21st century medicine and public health. Cancer Epidemiol Biomarkers Prev 2013;22:508-16.
[3] Douglas L. The Importance of ‘Big Data’: A Definition. Stamford, CT: Gartner, 2012.
[4] What is Big Data? University Alliance www.villanovau.com/resources/bi/what-is-big-data
[5] Cook C, Heath F, Thompson RL. A meta-analysis of response rates in web-or internet-based surveys. Educational and psychological measurement 2000;60:821-36.
[6] Lampos V, Cristianini N. Tracking the flu pandemic by monitoring the social web. 2nd International Workshop on Cognitive Information Processing (CIP). New York: IEEE Press 2010:411-6.
[7] Frerichs R, Keim P, Barrais R, et al. Nepalese origin of cholera epidemic in Haiti. Clinical Microbiology and Infection 2012;18:E158-E163.
[8] Date KA, Vicari A, Hyde TB, et al. Considerations for Oral Cholera Vaccine Use during Outbreak after Earthquake in Haiti, 2010−2011. Emerging infectious diseases 2011;17:2105.
[9] Lee BK. Epidemiologic research and Web 2.0 – the user-driven Web. Epidemiology 2010;21:760–3.
[10] Mooney SJ, Westreich DJ, El-Sayed AM. Epidemiology in the era of big data. Epidemiology 2015;26:390-4.
[11] Vayena E, Salathé M, Madoff LC, et al. Ethical challenges of big data in public health. PLoS Comput Biol 2015;11:1-7.
[12] Nissenbaum H. Privacy in Context: Technology, Policy, and the Integrity of Social Life. Stanford (California): Stanford University Press, 2010.
Vedi ancheOccorre separare il segnale vero dal rumore di fondo: non è né facile né immediato ma è la sfida che è necessario vincere per tradurre le informazioni sempre più numerose di cui disponiamo in benessere e salute per i cittadini. Il titolo della rubrica della rivista Science nella quale è stata pubblicata la nota di Muin J. Khoury e John P. A. Ioannidis è programmatico: Insights [1]. Poco più di una pagina ricca di indicazioni essenziali che giungono da due autori di istituzioni in certo modo complementari: da una parte i Centers for disease control and prevention e dall’altra il Meta-Research innovation center di Stanford. Pubblico e privato, est e ovest degli Stati Uniti. “Big error can plague big data”, avvertono gli autori citando il caso del monitoraggio dell’andamento dell’epidemia influenzale attraverso Flu trends: paradossalmente, la proporzione di falsi allarmi all’interno di quanto registrato si moltiplica quando l‘oggetto di misurazione diviene più ampio. Allo stesso modo, la tentazione di correlazioni spurie e bizzarre diventa quasi irresistibile, così che possiamo finire col leggere su riviste anche teoricamente rispettabili che la produzione di miele da parte di colonie di api si correla alla frequenza di arresti per detenzione di marijuana nei giovani delle zone dove si trovano gli alveari… “La forza dei big data è nel trovare associazioni e non nel mostrare che queste associazioni abbiano significato”, ricordano gli autori. Come migliorare il potenziale insito nei big data di migliorare la salute delle popolazioni e prevenire le malattie? I big data sono per definizione di tipo osservazionale e come tali sono esposti alle distorsioni più varie, ma possono essere embedded in popolazioni epidemiologicamente ben caratterizzate e rappresentative. È questa la chiave per rendere utili le rilevazioni estese o “spontanee” di dati strutturati e non strutturati. Un passo in questa direzione è stato fatto dall’Institute for Health metrics and evaluation che ha deciso di affidare al Lancet la pubblicazione del Global burden of diseases, injuries, and risk factors study 2015 (GBD), la rilevazione dei dati epidemiologici di 195 paesi e territori, per anno, età e genere [2]. Si tratta di un documento molto rappresentativo della volontà di sistematizzare l’informazione disponibile riguardante la salute, per trasformarla in conoscenza: “This is the science of making data meaningful”, afferma l’editoriale della rivista inglese. La pubblicazione di un riferimento di questo tipo in una rivista accademica è una scelta significativa perché rende visibile l’impegno per garantire ai dati il massimo rigore, anche per aver superato il processo di peer review al quale ogni contributo pubblicato dal Lancet deve essere sottoposto. Bibliografia |