• Background Image

    Big, open, data

15 novembre 2016

Big, open, data

La grandezza risiede nella partecipazioneGiulia Annovi
Quando i big data possono diventare “scomodi”Carlo Alberto Perucci

La grandezza risiede nella partecipazione

La condivisione dei dati individuali sanitari può migliorare la salute della società e anche della ricerca.

Giulia Annovi

Navigando sul web assistiamo sempre più spesso alla generazione di contenuti che sono perfettamente cuciti sulle nostre preferenze. La ricerca di Google traccia i nostri percorsi per comprendere quali tipologie di pagine e documenti apriamo più di frequente. Ogni sito o piattaforma ci propone la pubblicità degli oggetti che preferiamo. I social network che frequentiamo tracciano intorno a noi una rete tridimensionale, che evidenzia le nostre relazioni e ci inserisce all’interno di categorie rilevabili all’interno di una popolazione [1]. La capacità predittiva o analitica di internet scaturisce dall’enorme ammontare di dati che seminiamo nel web, quando visitiamo i siti o esprimiamo le nostre preferenze con un click del mouse o lasciamo volontariamente i nostri dati ai gestori di piattaforme. Ormai il web permea ogni ambito della nostra esistenza e quindi sono molteplici le occasioni di produzione ma soprattutto di raccolta di dati.

Anche la medicina non è immune alla raccolta di informazioni sui pazienti. Anzi la clinica sembra avere già a disposizione possibili sistemi per la collezione di dati provenienti dai pazienti, tra l’altro senza dover spendere cifre esose per ottenerli. Infatti sono i pazienti stessi a generare dati nella loro quotidianità, ad esempio nel momento in cui usufruiscono delle strutture sanitarie o quando sfruttano strumenti elettronici per monitorare i propri parametri o comportamenti, al fine di migliorare la propria condizione di salute. L’introduzione della cultura del dato nella ricerca biomedica o nella pratica clinica produrrà conoscenza sia per i medici sia per i pazienti, mentre a livello della ricerca potrebbe dare impulso a commistioni di idee e tecniche.

Tuttavia l’utilizzo di questi dati, finora ancora poco sfruttati, non deve sfuggire a un’attenta riflessione. Secondo la Shared nationwide interoperability roadmap, la condivisione dei dati dovrebbe aiutare a mettere il paziente al centro di tutto il processo di cura [2]. Il confronto con l’evoluzione che il fenomeno sta avendo sul web ci mette in guardia: il rischio è di creare una grande mole di informazioni in continuo movimento, senza che le persone siano poste al centro di questo flusso. L’uso e l’elaborazione dei dati raccolti dal web spesso non avvengono alla luce del sole e l’informazione generata non è fruibile dall’utente iniziale, colui che di fatto ha generato questa immensa ricchezza.

Ecco perché è così urgente una riflessione sui big data in ambito sanitario. Se rispetto ad altri ambiti della scienza la medicina è ancora un passo indietro nella condivisione dei dati (si pensi ad esempio al progetto genoma o ai dati ottenuti dal telescopio spaziale Hubble), occorre cogliere questo ritardo come l’occasione per superare le barriere che un’informazione così personale, come quella sulla salute, introduce e come l’opportunità per costruire strutture e infrastrutture capaci di garantire accesso e coinvolgimento tanto ai pazienti quanto al personale sanitario.

La passione per i big data

la-passione-per-i-big-data

La ricerca dei trend di Google, focalizzata sugli ultimi cinque anni, evidenza che cresce l’interesse nei confronti dei big data relativi alla salute, mentre quello per gli open data mantiene un andamento costante. Il tema dell’accessibilità ai dati dovrebbe essere maggiormente dibattuto.

 

L’accesso ai dati implica partecipazione

Viviamo in un’epoca in cui sono attivi movimenti quali il crowdsourcing o la sorveglianza partecipativa, e dove il fatto di donare dati viene percepito come un impegno individuale, addirittura attraverso la quantificazione di parametri fisiologici tramite dispositivi elettronici. Questo fermento andrebbe sfruttato per contribuire a una maggiore conoscenza delle malattie, a una diagnosi sempre più puntuale e a cure e trattamenti più personalizzati. La ricerca, l’analisi e la sistematizzazione delle informazioni generate dalla popolazione sono una ricchezza per la società tutta, ma sono anche facile preda di mire commerciali. E le persone se ne stanno accorgendo. Lo dimostra l’iniziativa Care.data [3] condotta nel Regno Unito, che ha riscosso scarso successo a causa del fatto che le persone non hanno condiviso l’idea che le proprie informazioni sanitarie venissero cedute alla ricerca e, soprattutto, ad aziende concentrate sul profitto.

Occorre sviluppare una cultura per cui la condivisione di un dato personale rappresenti un beneficio per l’intera comunità. — Harlan Krumholz

Per non perdere l’accesso ai dati relativi alla salute, c’è un conflitto che va risolto tra il diritto di preservare la privacy e l’opportunità di una sanità guidata da nuove evidenze scientifiche che possono scaturire dall’analisi di una grande quantità di dati. Se da un lato nessuno sembra porsi il problema di cedere informazioni personali a piattaforme o dispositivi elettronici, la scarsa comunicazione da parte delle istituzioni, le agende poco chiare e l’insufficiente trasparenza sul controllo e la proprietà dei dati relativi alla salute, creano imbarazzo nel momento in cui viene richiesta la loro condivisione a soggetti terzi.

La discrepanza cui assistiamo non è questione di ingenuità dei cittadini ma di impostazione della richiesta. Occorre pensare attentamente alla formulazione del consenso, perché il cittadino non abbia l’impressione di perdere il controllo dei dati personali, una volta che si è rivolto a un ente per un problema di salute. La mancanza di trasparenza in fase di condivisione o elaborazione del dato potrebbe destare sfiducia e sospetti nei confronti delle istituzioni. Diverso è il discorso per le piattaforme e i dispositivi elettronici, dove il cittadino acconsente a “donare” i propri dati, nel momento in cui crea un proprio account e sottoscrive termini e condizioni di utilizzo [4].

Per superare la diffidenza, occorre incoraggiare il coinvolgimento dei cittadini nel processo di produzione, di gestione e di fruizione dei dati. Dialogo e trasparenza sono gli elementi fondanti per recuperare la fiducia, perché l’assenza di dibattito elimina la possibilità di costruire una consapevolezza. Occorre chiarire e rafforzare il concetto dei diritti legati alle proprie informazioni personali, perché sia piena la comprensione dei rischi e dei benefici legati alla condivisione dei dati. Sono inoltre incoraggianti le storie di successo, che aiutano a mettere in evidenza l’utilità della condivisione dei dati. Oltre al coinvolgimento, occorre assicurare sistemi capaci di rafforzare la trasparenza nel processo di amministrazione del dato e di garantire la gestione dei dati in modo anonimo. L’introduzione di consensi informati che mettano l’utente nelle condizioni di scegliere i destinatari dei propri dati sarebbe di grande vantaggio. Così come l’introduzione di meccanismi di notifica in grado di informare l’utente di possibili violazioni.

Altro elemento rassicurante potrebbe essere un sistema legislativo [5] più omogeneo, dato che le diverse scelte adottate da Stati Uniti e Europa sono disorientanti.

“Occorre sviluppare una cultura per cui la condivisione di un dato personale rappresenti un beneficio per l’intera comunità”, ha affermato Harlan Krumholz in un’intervista al New England Journal of Medicine [6]. “Nel processo di condivisione ogni persona deve essere messa in grado di vedere il dato, comprenderlo ed eventualmente usarlo.”

La partecipazione declinata nel contesto della ricerca clinica

È sulla base di tale prospettiva che nel 2011 Krumholz ha avviato il progetto Yale open data access (Yoda) perché nel caso della ricerca biomedica non mancano solo gli standard ma spesso anche le piattaforme capaci di garantire al contempo privacy, accessibilità, condivisione e riconoscimento degli autori della ricerca. Lo Yoda nasce proprio per rispondere a questi bisogni, presentandosi come un partner indipendente che fornisce supporto e assicura imparzialità e trasparenza a chiunque voglia condividere i dati di trial clinici. I principi guida della piattaforma sono il rispetto della privacy dei partecipanti coinvolti, mediante la sottoscrizione di un consenso informato. Chiara è la dichiarazione dei fini per cui i dati vengono raccolti: i progetti ammessi alla piattaforma Yoda per la condivisione dei dati hanno solo fini scientifici, volti a migliorare la salute pubblica e rifuggono qualsiasi utilizzo commerciale. Il principio cardine è la trasparenza che impone la tracciabilità delle decisioni e la condivisione dei risultati. La trasparenza, infatti, è garantita proprio dall’accesso all’elaborazione delle informazioni e dalla possibilità di condivisione. “Bisogna superare la cultura per cui solo il produttore del dato è in grado di capire come usarlo e interpretarlo”, ha continuato Krumholz. Per questo motivo è necessario accompagnare il dato con metadati che spieghino come un risultato è stato ottenuto e come può essere interpretato.

Yoda è dunque il tentativo di proporre uno standard accessibile a vari livelli, capace di assicurare l’interoperabilità nella gestione delle banche dati. Ciò si traduce nella realizzazione all’interno del progetto di una piattaforma utile all’elaborazione dei dati e predisposta per una sicura condivisione dei risultati. “Dobbiamo offrire una piattaforma affidabile ed essere responsabili nella gestione dei dati, per dimostrare a tutti che questa azione è volta a migliorare la società”, ha spiegato Krumholz. Dunque la partecipazione è significativa anche a un altro livello, quello della gestione del dato e del coinvolgimento del personale sanitario e dei medici.

Bisogna superare la cultura per cui solo il produttore del dato è in grado di capire come usarlo e interpretarlo. — Harlan Krumholz

Per procedere a più larghi passi la ricerca ha bisogno dei dati. Lo dimostrano le richieste di dati avanzate nei confronti dell’industria farmaceutica, che ha risposto in alcuni casi predisponendo programmi di condivisione delle informazioni cliniche e sperimentali raccolte. Questo tipo di impostazione è rafforzata dall’International committee of medical journal editors (Icmje) che sta tentando di diffondere una cultura basata sul concetto di open science, chiedendo ai suoi autori di condividere i dati generati dai trial clinici e di considerarlo come un “dovere morale” [7]. Secondo Krumholz, tale richiesta potrebbe inaugurare una tendenza culturale, capace perfino di spingere i pazienti a una maggiore partecipazione agli studi clinici.

Tuttavia, affinché i big data possano apportare benefici reali alla clinica e alla società intera è indispensabile modificare le impostazioni di ricerca. Il metodo scientifico finora applicato in medicina prevede il più delle volte di formulare un’ipotesi che deve essere in seguito verificata. Qui invece si tratterebbe di partire dai dati raccolti dall’osservazione dei pazienti, per poi formulare una spiegazione del fenomeno. Il ragionamento deduttivo verrebbe quindi sostituito da quello induttivo, un’impostazione che spaventa, perché potrebbe introdurre risultati falsi positivi. Per scongiurare tale possibilità occorre un robusto sistema di validazione dei dati, soprattutto quando si vogliono ricreare delle relazioni causali. Appellarsi ai principi della open science e alla condivisione dei risultati diventa quindi cruciale per validare i risultati tramite la replicazione, che non può avvenire se i dati non sono aperti e se non c’è la possibilità di verificare la riproducibilità di quanto affermato dai risultati ottenuti in differenti condizioni e coinvolgendo diversi gruppi di pazienti [8]. Oggi la maggior parte dei dati prodotti dai trial clinici non passa attraverso la revisione della peer review. Per fare un esempio che descrive il fenomeno, l’88% degli autori di articoli comparsi su giornali finanziati dai National institutes of health statunitensi non deposita i propri dati all’interno degli appositi registri. Come conseguenza questa cultura scientifica è inefficiente e irriproducibile. Secondo Eric L. Uhlmann e Raphael Silberzahn questo meccanismo − oltre a rallentare il progresso scientifico − sta sprecando gli investimenti pubblici e disonora chi contribuisce alla ricerca [9].

Senza contare che rilasciare i dati in formato aperto è un beneficio tanto per l’ambito clinico quanto per la ricerca, perché permette di correlare tra loro informazioni differenti in un sistema definito linked data, che può includere anche elementi provenienti dal mondo della biologia, dell’economia o dalle caratteristiche demografiche o ambientali: un tale grado di complessità è ciò che contraddistingue i big data. La correlazione semantica di dati provenienti da diverse fonti consente di creare corrispondenze tra sintomi, malattie, diagnosi, trattamenti e prescrizioni, ampliando la conoscenza e permettendo di produrre nuove evidenze [10]. Il fatto di rendere disponibili i dati è la chiave per trovare relazioni tra fenomeni che altrimenti difficilmente sarebbero identificabili. Occorre dunque permettere lo scambio e in seguito l’armonizzazione di tutti i dati legati alla salute, che risiedono in luoghi diversi e che sono archiviati in differenti formati [11]. Combinare set di dati che non sono basati su modelli comuni, a volte generano duplicati o informazioni conflittuali e in generale possono introdurre problemi nella pratica.

La possibilità di accedere ai dati non è dunque sufficiente per creare benefici. Bisogna avanzare nella tecnica e nelle capacità analitiche e sviluppare nuove applicazioni. Per maneggiare la varietà e il volume di informazioni che caratterizzano i big data non si può prescindere dalla collaborazione tra diverse figure professionali, provenienti sia dal mondo del machine learning e del data mining sia dall’ambito tipicamente biomedico, che ha gli strumenti per interpretare e valutare i risultati.

Accanto alle competenze servono piattaforme che rendano questi dati facilmente condivisibili e maneggiabili. Le applicazioni per gestire i dati devono essere semplificate affinché diventino accessibili a tutti [8]. L’Hit strategic plan per il 2015–2020 rafforza il concetto dell’accessibilità ponendo l’obiettivo di “migliorare la salute del singolo individuo e delle comunità attraverso l’uso delle informazioni derivate dalla tecnologia, che devono essere accessibili se rilevanti per più persone” [12].

Qual è dunque la possibilità del singolo o delle comunità, anche non scientifica, di interfacciarsi con i big data? In definitiva, osservati dalla prospettiva dei cittadini, essi potrebbero migliorare la comprensione di una malattia, perfezionare le terapie per le patologie croniche oppure offrire tutti gli elementi per curarsi da casa. Allargando lo sguardo al sociale, sarebbero l’occasione per sottolineare le disuguaglianze o le necessità proprie di alcune aree. I cittadini e le comunità locali, se opportunamente istruiti, potrebbero trovare risposte per problemi locali e disegnare possibili soluzioni [4].

Occorre creare delle metriche riportate pubblicamente per assicurare un facile accesso ai dati per i pazienti che si rivolgono agli ospedali o ai sistemi sanitari. Oggi, a volte, non sono nemmeno accessibili le note inserite nella cartella clinica, secondo quanto sostiene il movimento OpenNotes. C’è ancora molto da fare nella realizzazione di piattaforme che promuovano la ricerca, l’accesso, la possibilità di operare e infine il riuso dei dati [13].

È un’opportunità unica per le persone senza una preparazione medica il fatto di avere dati di confronto con altre centinaia di malati che hanno caratteristiche cliniche simili e che hanno provato determinati trattamenti. Con queste informazioni è possibile porre basi solide per una discussione basata su evidenze scientifiche con i clinici [14]. Se le persone potessero esprimere la propria opinione su come i loro dati vengono utilizzati, per garantire migliore qualità, informazioni più aggiornate e più complete, probabilmente si arriverebbe veramente ad aiutare tutti quegli individui che si trovano ad affrontare problemi simili.

i-cinque-problemi-dell-health-it-strategic-plan-15-20-statunitense

I cinque obiettivi dell’Health It strategic plan 2015-2020 statunitense

 

Bibliografia

[1] Lazer D, Pentland A, Adamic L, et al. Social science. Computational social science. Science 2009;323:721-3.
[2] The office of the national coordinator for Health information technology. Connecting Health and Care for the Nation. A Shared Nationwide Interoperability Roadmap. Final version 1.0, 2015.
[3] Goldacre B. Care.data is in chaos. It breaks my heart. The Guardian 2014; 28 febbraio.
[4] Kostkova P, Brewer H, de Lusignan S, et al. Who owns the data? Open data for healthcare. Front Public Health 2016; 4:7.
[5] Lupton D. Health promotion in the digital era: a critical commentary. Health Promot Int 2014; 30:174-83.
[6] Krumholz HM, Waldstreicher J. The Yale open data access (Yoda) project − A mechanism for data sharing. N Engl J Med 2016;375:403-5.
[7] Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the International committee of medical journal editors. Ann Intern Med 2016; 64: 505-6.
[8] Krumholz HM. Big data and new knowledge in medicine: the thinking, training, and tools needed for a learning health system. Health Affairs 2014;33:1163-70.
[9] Silberzahn R, Uhlmann EL. Crowdsourced research: many hands make tight work. Nature 2015;526:189-91.
[10] European Commission. The socio-economic impact of interoperable electronic health record (Ehr) and ePrescribing systems in Europe and beyond. 2009.
[11] Murugiah K, Ritchie JD, Desai NR, et al. Availability of clinical trial data from industry-sponsored cardiovascular trials. J Am Heart Assoc 2016;5:e003307.
[12] The Office of the national coordinator for health information technology. Federal health It strategic plan: 2015-2010. 2014.
[13] Wilkinson MD, Dumontier M, Aalbersberg IJ, el al. The Fair guiding principles for scientific data management and stewardship. Sci Data 3016;3:160018.
[14] Krumholz HM, Terry SF, Waldstreicher J. Data acquisition, curation, and use for a continuously learning health system. Jama 2016; doi: 10.1001/jama.2016.12537

novembre 2016

Vedi anche

Condividere, governare e utilizzare i dati favorisce un sistema sanitario capace di apprendere costantemente dall’esperienza: ne è convinto Harlan Krumholz che è tornato a esporre il proprio punto di vista in una nota pubblicata nel numero speciale del Jama curato dall’Institute of medicine statunitense [1].
Purtroppo, però, questo scenario è ostacolato da diversi fattori: in primo luogo, chi detiene il dato (il più delle volte il ricercatore) non è incentivato a condividerlo, soprattutto perché su di lui (o sulla sua istituzione) ricade la totalità dei costi necessari per l’attività di sharing. Inoltre, l’interoperabilità dei dati è ancora un miraggio. In definitiva, i problemi sono di ordine etico e di natura tecnologica: serve una cultura nuova, in cui la non condivisione delle informazioni sia vista come un oltraggio al progresso.

[1] Krumholz HM, Terry SF, Waldstreicher J. Data acquisition, curation, and use for a continuously learning health system. Jama 2016;316:1669-70.


Quando i big data possono diventare “scomodi”

Dalla produzione e gestione dei dati alle scelte politiche

A colloquio con Carlo Peruccigià direttore del Programma nazionale esiti.

Il termine “big data” è diventato di gran moda. Sulla base dell’esperienza di chi ha visto già molto tempo fa nei dati amministrativi la potenzialità di trarre da questi nuova conoscenza, la nuova attenzione al tema è frutto di qualche novità particolare o siamo di fronte alla riproposizione di qualcosa che ben si conosce?

Dati amministrativi? Non so cosa siano i dati amministrativi. Sistemi informativi con vari contenuti possono essere utilizzati per scopi diversi, anche di carattere amministrativo, ma queste sono caratteristiche dell’utilizzazione, non dei dati per sé. Tuttavia le finalità per le quali viene disegnato e gestito un sistema informativo, e il contesto sociale, culturale e istituzionale determinano in modo rilevante la riproducibilità e la validità dei dati. Ancor di più: la variabilità temporale e geografica degli utilizzi di un sistema informativo si associano sempre a variabilità della riproducibilità e della validità dei dati. Le cosiddette schede di dimissione ospedaliera (sdo), oggi molto utilizzate per la remunerazione prospettica delle prestazioni di assistenza ospedaliera, erano certamente già presenti in Italia negli anni Settanta, prima in modalità campionaria e poi sistematica, ben prima che negli anni Novanta iniziasse il loro uso a fini “amministrativi”. Ma la remunerazione dei soggetti erogatori di assistenza ospedaliera è stata introdotta in modo eterogeneo nel tempo, tra diverse regioni, per diverse tipologie di aziende, pubbliche e private; ancor oggi molti ospedali, soprattutto pubblici e nel meridione, non sono finanziati sulla base del valore della loro produzione che viene calcolato attenendosi alle sdo. Questa forte eterogeneità geografica, istituzionale e temporale dell’uso di questi dati determina una grande, ma non sempre attentamente considerata, eterogeneità della riproducibilità e della validità dei dati che riguardano i ricoveri ospedalieri, non solo in Italia peraltro. Quando il Programma nazionale esiti (Pne) ha iniziato la propria attività, l’estrema variabilità della “qualità” dei dati delle sdo ha proposto una sfida metodologica e operativa molto impegnativa.

Alcuni esempi?

Negli anni Novanta in Italia non solo non era possibile ma non era nemmeno progettata la interconnesione sistematica a livello nazionale tra le sdo e le schede di morte; solo alcune regioni avevano anticipato i tempi con propri sistemi informativi ospedalieri e con i cosiddetti registri nominativi delle cause di morte, interconnetendoli. Quindi a livello nazionale era possibile stimare esclusivamente la mortalità intraospedaliera. All’inizio del nuovo secolo le stime di mortalità intraospedaliera dopo un episodio di infarto miocardico acuto (ima) davano valori relativamente omogenei nel nord e centro Italia, attorno a circa il 10%, con un rapido progressivo decremento delle stime nel sud, per giungere a straordinari valori inferiori al 4% in Sicilia. Ricordo, oggi con un sorriso, le fantasiose interpretazioni di questi risultati da parte di alcuni, anche illustri, non solo clinici ma anche epidemiologi: la dimostrazione del potente ruolo protettivo della dieta mediterranea (ipotesi “etiologica”: fattore protettivo per letalità dopo ima). Oppure la clamorosa sconfessione dell’opinione molto diffusa della bassa qualità dell’assistenza ospedaliera nel meridione. I “dati” empirici mostravano chiaramente il ruolo protettivo della dieta mediterranea e/o l’ottima efficacia del trattamento degli episodi di ima negli ospedali del sud. Ma il controllo dei dati sdo consentì di tener conto di un’altra ipotesi valutativa: per fattori culturali e sociali in molte aree del meridione le famiglie ritenevano, e in molti casi oggi ancora ritengono, disonorevole la morte di un congiunto in ospedale. Quindi, anche per cinici fenomeni speculativi altresì connessi a organizzazioni mafiose, le persone decedute in ospedale venivano dimesse come vive e contro il parere dei sanitari, e trasportate a casa dove veniva certificato il decesso. L’interconnessione tra sdo e registri di morte permise quindi di svelare il fenomeno e migliorare la validità delle stime della mortalità intraospedaliera dopo infarto che nel sud risultava in media simile a quella del centro e del nord. Ma questo problema di validità dei dati, non è uno dei soliti difetti italiani: credo che ancora oggi l’Organizzazione per la cooperazione e lo sviluppo economico (Ocse) stimi la mortalità intraospedaliera post-infarto per tutti i paesi europei, poiché in alcuni non sarebbe possibile l’interconnessione sistematica tra sistemi informativi ospedalieri e i registri di morte. Gli stili di cura inpatient e outpatient sono eterogenei nel tempo e da un paese a un altro, e il confronto della mortalità intraospedaliera è affetto da forti distorsioni; tuttavia molti esperti e molti politici usano talora in modo acritico le stime dell’Ocse senza tener conto di questi rilevanti limiti di validità.

Ancor oggi un’analisi “esplorativa”, così cara a certi maneggioni di big data, consentirebbe di osservare alcuni singolari fenomeni. Ad esempio, negli ospedali italiani, ipertensione, diabete, broncopneumopatia cronica ostruttiva e altre patologie croniche sembrano essere fattori protettivi nella mortalità a 30 giorni dopo ima, ancor più protettivo sembrerebbe il fumo di tabacco. Artefatti… In realtà questi risultati dipendono esclusivamente da un noto fenomeno di codifica “competitiva”, quando patologie croniche, meno rilevanti in un contesto di misurazione per “intensità assistenziale”, vengono registrate e codificate su sdo solo nei casi di minore gravità.

Nulla di nuovo, dunque…

Certamente oggi si presentano maggiori opportunità per disponibilità di tecnologie informatiche, sia hard sia soft, che consentono in tempi brevi il trattamento di grandi volumi di dati e lo sviluppo di metodi statistici avanzati che ne possono permettere analisi molto “potenti”. Tuttavia questa grande disponibilità di dati e tecniche di analisi aumenta i problemi di riproducibilità e di validità non solo dei dati ma, soprattutto, delle stime e delle loro interpretazioni.

Probabilmente torna il grande dilemma metodologico tra approcci induttivi e metodi ipotetico-deduttivi. Personalmente ritengo importante formulare ipotesi, etiologiche e valutative, basate sulle conoscenze disponibili, da sottopore a processi di falsificazione utilizzando metodologie rigorose e trasparenti. Attenzione, basarsi sulle conoscenze disponibili non significa assolutamente considerare solo ipotesi plausibili, semmai avere il coraggio di sottoporre a valutazione anche o soprattutto ipotesi altamente improbabili, contrarie al senso comune dominante e sgradite alla politica e cultura del momento. Tanto più sarà big la quantità dei dati disponibili, tanto maggiori saranno i problemi metodologici nella loro produzione, analisi e utilizzazione, e tanto maggiori dovranno essere il rigore nella formulazione a priori delle ipotesi e la trasparenza nella discussione e interpretazione delle informazioni derivate, dei loro limiti, dei potenziali errori casuali e sistematici.

Nessun disegno di studio, su nessuna ipotesi etiologica o valutativa, è privo di errori sistematici e casuali. I risultati di grandi trial clinici randomizzati (rct) sono affetti da distorsioni (soprattutto, ma non solo, per selezione e modificazione delle misure di effetto), come lo sono quelli dei grandi studi osservazionali (soprattutto per confondimento). Forse, tuttavia, qualcuno pensa, per esempio nel campo della valutazione di efficacia dei trattamenti sanitari, di superare il rigore (apparente) metodologico dei trial, per affermare una pratica corrente di studi osservazionali usando soprattutto big data, molto “quick and dirty”, perché ritenuti più manipolabili e adattabili a specifiche finalità commerciali. La risposta tuttavia non è la difesa a oltranza degli studi sperimentali e del loro (apparente) rigore ma l’affermazione, negli studi osservazionali che usano big data, di metodi scientifici rigorosi, altrettanto o più complessi e costosi di quelli degli rct.

Anni fa, nella fase sperimentale di Pne, gli esperti di una grande società di consulenza, che fornisce al Ministero della salute servizi di sistemi informativi, chiesero di produrre e fornire per ciascun indicatore di esito modelli di risk adjustment e di controllo del confondi mento da inserire nella base di dati del Nuovo sistema informativo sanitario (Nsis), in modo da produrre “automaticamente” stime di esito aggiustate che tenessero conto dei fattori confondenti di ciascun indicatore. Sulle prime parve straordinario come i consulenti avessero (finalmente) colto l’idea del confondimento nei confronti – concetto spesso assai ostico da capire negli ambienti professionali sanitari, per non dire in quelli politici. Ma fu difficile spiegare come non fosse possibile produrre procedure di risk adjustment standard, ma fosse necessario sviluppare modelli di risk adjustment specifici di ciascun confronto, di ciascun periodo temporale, valutandone la validità e le potenziali distorsioni legate, soprattutto, alla eterogeneità temporale e geografica della validità dei dati (big) utilizzati, e agli effetti sulla precisione delle stime aggiustate.

A proposito di dati “aggiustati”, mi si permetta un episodio. A una Commissione del Senato, tra pochi senatori, alcuni annoiati, altri interessati, vi è una rapida presentazione di Pne; con diapositive sintetiche che riportano stime comparative tra ospedali, si sottolinea che i risultati sono aggiustati. Una senatrice, furibonda, chiede la parola: “Come vi permettete di presentare al Senato delle Repubblica dati aggiustati!”. Molti altri aneddoti potrebbero essere raccontati sulla grande difficoltà, da parte dei politici e soprattutto dei giornalisti, a interpretare correttamente gli errori casuali, le “magiche” p e gli effetti del caso.

“L’aumento delle conoscenze disponibili, anche attraverso i big data, non è destinato a ridurre l’incertezza, semmai a renderci maggiormente consapevoli di tutto quello che non conosciamo.”

Emergono atteggiamenti culturali e politici talora contrastanti: sottovalutazione degli aspetti di metodo; rifiuto di considerare errori casuali e sistematici o, viceversa, enfatizzazione opportunistica di errori; sopravalutazione degli aspetti informatici e gestionali dei dati. In generale si riproduce il noto paradosso nei sistemi sanitari: quando mancano informazioni per decidere, i decisori sostengono di essere costretti a decidere in assenza di informazioni utili; quando invece le informazioni sono disponibili, e talora abbastanza “forti”, i decisori preferiscono non considerarle nemmeno, per potere decidere come vogliono. Quindi istituzioni, politici e decisori sono pronti, a parole, a creare e finanziare grandi sistemi informativi, basi di dati sempre più grandi, infrastrutture informatiche costosissime e faraoniche, salvo poi non sapere o volere utilizzare le “evidenze” prodotte dalla loro utilizzazione e analisi, soprattutto quando limitano i gradi di libertà delle decisioni. Di questo processo sono spesso complici esperti, anche epidemiologi, pronti a produrre risultati, analisi, informazioni funzionali, a giustificare decisioni (politiche) già prese. E guai a quelli che formulano ipotesi e producono conoscenze considerate contrarie, non compatibili, comunque fastidiose, critiche con gli orientamenti decisionali dei potenti di turno.

L’aumento delle conoscenze disponibili, anche attraverso l’uso di big data, non è destinato a ridurre l’incertezza, semmai a renderci maggiormente consapevoli di tutto quello che non conosciamo. In altre parole la produzione di enormi volumi di dati e di informazioni non semplifica gli scenari decisionali, anzi costringe i decisori ad aver a che fare con livelli più complessi di incertezza e a essere esposti a maggiori e più documentate critiche.

Mi permetto di dire che il problema non è quanto big siano i dati, ma quanto sono grandi, forti e oneste l’autonomia, l’indipendenza e l’integrità di coloro che li progettano, gestiscono, analizzano e interpretano.

Con i big data si fa spesso riferimento (anche) a flussi di dati non strutturati generati dai social. I limiti legati alla qualità del dato, alla definizione di protocolli affidabili rispetto a quesiti clinici precisi, alla difficoltà di gestire la privacy sono simili a quanto era già presente negli attuali flussi amministrativi?

Personalmente rifiuto la definizione di “flussi amministrativi”: non ho nessun pregiudizio nell’uso di questi dati, a condizione che siano utilizzati, analizzati e interpretati tenendo conto, con metodi rigorosi, delle loro caratteristiche di riproducibilità e validità.

In quanto alla questione della cosiddetta privacy, mi si consenta una premessa. Non solo in Italia certo, ma soprattutto nella degradata e arretrata condizione delle nostre burocrazie, nella sua attuale modalità di funzionamento, la cosiddetta Autorità garante della privacy potrebbe essere da alcuni considerata, alla stregua del fumo di tabacco, dell’inquinamento ambientale e di alcune epidemie di malattie trasmissibili, uno dei principali fattori di rischio per la salute della popolazione con un potente fenomeno di modificazione/moltiplicazione di effetto con le altre burocrazie. Ce ne sarebbero molti di buoni motivi. Un esempio: attorno al 2010, anche sulla base delle proposte di Agenas, allora diretta da un innovatore intelligente come Fulvio Moirano, il Ministero della salute, un po’ controvoglia in alcune sue burocrazie, diede nuova spinta a un processo di revisione dei contenuti informativi delle sdo e a un progetto di integrazione delle basi di dati del Sistema sanitario nazionale (Ssn), peraltro già avviato all’inizio degli anni Duemila con il cosiddetto progetto Mattoni, con una esplicita interconnessione tra i diversi cosiddetti flussi informativi correnti. Era un obiettivo ambizioso l’interconnessione a livello nazionale delle informazioni individuali tra sdo, farmaceutica, specialistica, emergenza, pronto soccorso, riabilitazione e tutti gli altri sistemi informativi su base individuale del Ssn con l’anagrafe tributaria, allora, e ancor oggi, unica anagrafe di popolazione attiva a livello nazionale. Questa importante azione di riorganizzazione del sistema informativo del Ssn viene esplicitamente sancita per iniziativa di Renato Balduzzi, divenuto Ministro della salute e grande sostenitore dei sistemi di valutazione, e con il contributo decisivo di alcuni senatori, tra i quali mi piace ricordare Lionello Cosentino, dalla Legge numero 135, del 7 agosto 2012. Stiamo parlando delle cosidetta spending review del governo Monti che all’articolo 15 comma 25 bis, così recita: “Ai fini della attivazione dei programmi nazionali di valutazione sull’applicazione delle norme di cui al presente articolo, il Ministero della salute provvede alla modifica e integrazione di tutti i sistemi informativi del Servizio sanitario nazionale, anche quando gestiti da diverse amministrazioni dello Stato, e alla interconnessione a livello nazionale di tutti i flussi informativi su base individuale. Il complesso delle informazioni e dei dati individuali così ottenuti è reso disponibile per le attività di valutazione esclusivamente in forma anonima ai sensi dell’articolo 35 del decreto legislativo 23 giugno 2011, n.118. Il Ministero della salute si avvale dell’Agenas per lo svolgimento delle funzioni di valutazione degli esiti delle prestazioni assistenziali e delle procedure medico-chirurgiche nell’ambito del Servizio sanitario nazionale. A tal fine, Agenas accede, in tutte le fasi della loro gestione, ai sistemi informativi interconnessi del Servizio sanitario nazionale di cui al presente comma in modalità anonima”.

Più chiaro di così il legislatore non poteva essere. Ma l’attuazione di questa legge, avanzatissima per quei tempi e certamente nel senso della creazione di big data per la valutazione e il governo del Ssn, avrebbe poi comportato: la acquisizione dei pareri della cabina di regia del Nisis, della Conferenza permanente per i rapporti tra lo Stato, le regioni e le province autonome, e dell’Autorità garante della privacy, del Consiglio di stato; poi il nulla osta della Presidenza del Consiglio dei ministri, il visto del Ministro guardasigilli, la registrazione della Corte dei conti, infine la pubblicazione sulla Gazzetta ufficiale e l’attuazione da parte delle regioni, prevista allora per l’inizio del 2015. Il 2015 è passato, il 2016 sta finendo e i decreti sulla interconnessione e quello sulle sdo non sono ancora pubblicati sulla Gazzetta ufficiale

Anni e anni per realizzare una riorganizzazione dei sistemi informativi che, in altri paesi e in altre culture, avrebbe richiesto solo pochi atti amministrativi. In questo ritardo spaventoso ha giocato un inammissibile ruolo ostativo, dilatorio l’Autorità garante della privacy con continui rinvii e obiezioni, sempre alla scadenza dei termini, in un tiramolla paralizzante e defatigante.

Quali potrebbero essere le ragioni di questo ritardo?

A taluni è venuto il sospetto che in questo incredibile ritardo abbiano giocato fattori non dichiarati, come i contrasti tra gestori commerciali dei sistemi informativi in diversi ministeri o l’ostilità di qualche settore professionale. Ad esempio la nuova sdo dovrebbe contenere l’identificazione dei chirurghi per ciascuna procedura chirurgica, informazione che consentirebbe di stimare il volume di attività dei professionisti e di valutarne gli effetti sugli esiti, ma anche di controllare possibili distorsioni nello svolgimento delle attività professionali. Magari, ad esempio, si potrebbe anche scoprire che alcuni illustri cattedratici o alcune scuole di specializzazione non hanno sufficienti volumi di attività.

Di fatto le burocrazie hanno fino ad oggi bloccato questi importanti cambiamenti nelle informazioni disponibili per il Ssn, impedendo tante possibili analisi etiologiche e valutative importanti per la tutela della salute della popolazione. Quanti studi su fattori di rischio ambientale e occupazionale sarebbero stati possibili se i dati interconnessi del Ssn fossero stati tempestivamente resi disponibili alla agenzie competenti e alle strutture di ricerca qualificate? Quanti farmaci avrebbero avuto una più rapida e valida valutazione comparativa di efficacia (o di inefficacia)? Quanta inappropriatezza in strutture e servizi sanitari avrebbe potuto essere meglio identificata? Quante tecnologie sanitarie avrebbero potuto essere meglio valutate? Quanta della tanto osannata “eccellenza” avrebbe potuto essere validamente certificata, consentendo ai cittadini scelte più informate nei luoghi di cura?

Viene spontanea una domanda: sono corpi e settori burocratici arretrati e conservatori a ostacolare lo sviluppo di una più valida base informativa sulla quale fondare valide analisi etiologiche o valutative nel Ssn? Oppure esiste una diffusa, nemmeno tanto nascosta, volontà politica che non vuole informazioni valide e tempestive sulla salute della popolazione e sull’efficacia dei servizi sanitari per poter continuare a decidere arbitrariamente senza spiegare le ragioni delle decisioni e senza dover rispondere dei loro effetti?

Ovvero, anche nel Ssn è la burocrazia il male oscuro di questo paese, oppure è una certa politica che usa la burocrazia per non dover rispondere delle proprie scelte?

La velocità di produzione e messa a disposizione dei nuovi big data sembra un vantaggio rispetto ai dati generati dalle rilevazioni fatte fino ad oggi con i sistemi correnti. Si tratta di un vero avanzamento? E riguardo alla varietà e al volume?

Credo di aver risposto a questa domanda. Grandi ed efficienti basi di dati di buona qualità sarebbero molto utili alla ricerca etiologica e valutativa e consentirebbero di fornire importanti e tempestive informazioni per le decisioni di gestione e di governo dei sistemi sanitari. Ben vengano quindi big, anche very, extremely big data, a condizione tuttavia che siano utilizzati con trasparenza e rigore metodologico, con la consapevolezza che la moltiplicazione delle fonti, della quantità e tipologia dei dati e dei loro trattamenti, moltiplica le fonti di errore. Ancora una volta, guardando una fotografia è bene ricordare che le caratteristiche della macchina fotografica sono altrettanto importanti della (teorica) realtà che il fotografo intende riprendere. Ogni misura è un esercizio di errore, ma nulla possiamo conoscere di quello che non misuriamo.

In quanto alla velocità mi pongo una domanda: come è possibile pensare a velocissimi big data quando per ottenere una semplice modifica dei contenuti informativi della sdo ci sono voluti cinque anni? Avremmo già disponibili grandi e relativamente veloci sistemi informativi che, se interconnessi, costituirebbero una base di dati grande e potente, ma le burocrazie che paralizzano il paese ne impediscono la realizzazione e l’uso. Siamo veramente convinti che la politica, nelle sue diverse articolazioni, voglia veramente i big data che, se utilizzati con metodi scientifici rigorosi e in modo trasparente, potrebbero produrre informazioni capaci di condizionare e criticare le scelte politiche, limitandone comunque i gradi di libertà, l’arbitrio e, soprattutto, costringendo tutti a rendere esplicita l’incertezza e a rendere ragione delle proprie scelte?

“Ogni misura è un esercizio di errore, ma nulla possiamo conoscere di quello che non misuriamo.”

novembre 2016

0 Comments

Leave A Comment

Lascia un commento

Iscriviti alla newsletter di Forward

Quando invii il modulo, controlla la tua inbox per confermare l'iscrizione

Pin It on Pinterest

Share This