Skip to main content
(R)evolution Articoli

L’epidemiologia e la data visualization nell’era dei big data

Quando forme e colori aiutano a leggere la complessità.

Valeria Belluedi, Alessandro C. Rosa

Dipartimento di epidemiologia, Servizio sanitario regionale del Lazio, Asl Roma 1

By Dicembre 2019Maggio 11th, 2021Nessun commento
Fotografia di Lorenzo De Simone

“La semplicità non è una cosa semplice”. Questo aforisma attribuito a Charlie Chaplin racchiude una delle grandi sfide che si trovano ad affrontare gli analisti del dato, nell’epoca dei big data: comunicare, in modo chiaro ed efficiente, dei concetti talvolta complessi, in un contesto in rapida evoluzione. La rivoluzione tecnologica, sociale e culturale legata alla cosiddetta era digitale ha portato alla maggiore accessibilità, da parte di un pubblico non solo di formazione specialistica, a strumenti complessi. La produzione esponenziale di enormi quantità di dati (e metadati) di diversa natura, fonte specifici, ad alta varietà e l’aumentata capacità computazionale dei processori hanno modificato i paradigmi analitici e interpretativi dei risultati, creando persino nuovi filoni di studio. La digitalizzazione a livello mondiale ha modificato le abitudini, lo stile di vita e i nostri livelli di attenzione.

Comprendere e raccontare i big data
La necessità di comunicare in modo efficiente informazioni ad alta complessità, all’interno di una rete, rappresenta un tema non banale per il ricercatore. Se la visualizzazione può essere descritta come “il processo di strutturare un dato, focalizzando l’attenzione su specifici messaggi al fine di aiutare la comprensione e l’analisi dei dati elaborati” [1], la comunicazione, per risultare efficiente e al passo coi tempi, non può distaccarsi dal racconto del dato stesso, da principi di storytelling funzionali alla descrizione del risultato. La data visualization, pertanto, non ha la pretesa di collocarsi tra le scienze esatte ma va inquadrata come un’esigenza di contesto in grado di produrre un prodotto utile a vari livelli, con l’obiettivo di rendere comprensibili anche risultati complessi. La scelta di rappresentare graficamente un fenomeno richiede, da parte del ricercatore, una seria valutazione a priori su possibili interpretazioni semplicistiche, se non erronee, che una determinata rappresentazione potrebbe indurre. Affinché un grafico sia comunicativo ed efficace, l’era dei big data ha imposto la valutazione di una serie di parametri di contesto prima non presi in considerazione dal mondo accademico. Un grafico dovrebbe stimolare curiosità e generare engagement in un pubblico “liquido”, potenzialmente proveniente da ambiti differenti, che ha sempre meno tempo. È auspicabile che il prodotto sia ad alta fruibilità, possibilmente open source; la scelta cromatica dei grafici deve in primis rispondere al messaggio che si intende veicolare stimolando, nell’utente, delle prime valutazioni di tipo intuitivo. Non è un caso che sono disponibili in commercio molteplici piattaforme, dedicate alla business intelligence, in grado di combinare dinamicamente visualizzazioni geo-spaziali, istogrammi e tabelle. Recentemente, nei convegni scientifici, la tendenza a utilizzare tecniche di data visualization sembra essere in aumento.

Un grafico dovrebbe stimolare curiosità e generare engagement in un pubblico “liquido”.

Alla ricerca della forma migliore
La scelta di una soluzione grafica rispetto ad un’altra risponde a diversi criteri: alcuni, di base, vertono su paradigmi consolidati (per esempio, torte, bar chart e diagrammi di Eulero-Venn per variabili categoriali, istogrammi, boxplot e scatterplot per variabili numeriche); altri, più profondi, dipendono dallo specifico ambito di studio. In ambito epidemiologico, sono molteplici gli esempi vincenti di ricorso a tecniche di visualizzazione in grado di racchiudere, in un solo grafico, la complessità di un fenomeno. Per esempio, la possibilità di rappresentare la rilevanza di un fenomeno attraverso i diversi livelli che lo descrivono viene offerta dall’aster chart [2]: diversi grafici a torta vengono sovrapposti e le partizioni tipiche delle pie chart, possono variare sia in altezza sia in larghezza per poter descrivere le molteplici dimensioni in studio.

Aster chart

Indicatore di sintesi per aziende sanitarie locali dello stato di salute della popolazione. Lazio, anni 2015-2017.

Con l’aster chart si rappresenta una misura di sintesi utile per interventi di programmazione sanitaria. Di immediata interpretabilità, consente la comparazione delle dimensioni di salute critiche per ciascuna unità territoriale. Le aree relative agli indicatori di mortalità, incidenza e prevalenza per patologie a maggior impatto sono proporzionali alla distanza dalla condizione di salute migliore. Il colore contenuto negli spicchi permette di ricondurre diversi indicatori ad un’area comune di riferimento. Il valore che sintetizza la condizione di salute dell’unità territoriale selezionata è posto al centro del grafico e varia tra 0 (condizione migliore) e 100 (condizione peggiore). Per il distretto rappresentato nell’immagine, si evidenziano diverse aree di possibile intervento.

Michelozzi P. Indicatore sintetico per la valutazione dello stato di salute della popolazione: una proposta da OpenSalute Lazio. XLIII Convegno Aie, Catania 2019.

Come ulteriore metodo di rappresentazione di dati gerarchici di qualsiasi profondità, il treemap consente, grazie alle differenti proporzioni dei rettangoli innestati e di specifiche scelte cromatiche, un’agevole comprensione sinottica delle aree di studio comprese in un contesto più ampio. La raffigurazione per rettangoli, inoltre, ottimizza la visione da monitor o device. Nel caso si intenda visualizzare un percorso, o un flusso, all’interno di un sistema complesso, il Sankey diagram risponde a questa esigenza, sempre più emergente in politica sanitaria. Lo spessore delle linee rappresentate è proporzionale all’intensità del flusso; inoltre, gli step intermedi interposti tra l’inizio e la fine di un percorso possono evidenziare switch e/o scostamenti dell’andamento atteso, oltre a dare un’idea della timeline che sottende un fenomeno.

Treemap

Aree cliniche per struttura ospedaliera Lazio. Anno 2019.

Nel Programma regionale valutazione degli esiti, il livello di aderenza delle aree cliniche della singola struttura ospedaliera agli standard di qualità viene monitorato attraverso il treemap. I rettangoli innestati fanno riferimento alle principali aree (cardiocircolatorio, nervoso, respiratorio, chirurgia generale, chirurgia oncologica, gravidanza e parto, osteomuscolare) e sono proporzionali ai volumi di attività della struttura ospedaliera in esame. Per ciascuna struttura, il punteggio riportato per area clinica è stato ottenuto come media ponderata dei punteggi attribuiti in base ai risultati degli indicatori di esito e/o volume rappresentativi dell’area stessa. L’attribuzione cromatica restituisce intuitivamente il livello di aderenza agli standard ed eventuali criticità (come l’area respiratoria nell’esempio).

P.Re.Val.E. 2019 – Programma regionale di valutazione degli esiti. www.dep.lazio.it/prevale2019

Sankey diagram

Discontinuità dei trattamenti nelle donne con artrite reumatoide nel Lazio. Anni 2009-2016.

L’interruzione, durante il periodo gestazionale, del consumo di determinate categorie farmacologiche da parte di donne affette da una patologia cronica quale l’artrite reumatoide viene ben evidenziato dal Sankey diagram. I flussi rappresentano i pattern d’utilizzo e le diramazioni degli stessi testimoniano graficamente i differenti cambi di terapia farmacologica attraverso i trimestri. Rispetto al periodo preconcepimento, diminuisce progressivamente la proporzione di donne che persiste nel trattamento inizialmente intrapreso coi farmaci biologici; si osserva una diminuzione anche dell’uso dei farmaci sistemici mentre il consumo di farmaci sintomatici risulta pressoché inalterato anche nel periodo gestazionale (evidenziando, in tal senso, la cronicità della patologia).

Belleudi V, Poggi FR, Perna S, et al. Farmaci antipsoriasici e antireumatici nelle pazienti in gravidanza. Terzo Rapporto sui farmaci in Toscana 2019. In stampa.

L’interconnessione, tra le diverse entità di un network è rappresentabile attraverso soluzioni che attingono alla teoria dei grafi. Tra queste, nel chord diagram (inizialmente utilizzato negli studi di genomica) lo spessore degli archi è proporzionale ai valori assegnati in fase di analisi e permette di mostrare relazioni di interdipendenza. La social network analysis mostra le relazioni tra i nodi di una rete pesandone intensità, direzionalità ed eventuale centralità.

Chord diagram

Switch da farmaci antireumatici (Dmard, dall’inglese disease modifying antirheumatic drug) convenzionali a biologici in una coorte con artrite reumatoide.

Il chord diagram permette di analizzare il pattern di switch da farmaci sistemici a biologici in una coorte di pazienti con artrite reumatoide nel primo anno dall’insorgenza della malattia. In particolare, lo switch da farmaco convenzionale a biologico è evidenziato dai flussi che partono dall’emisfero in basso della circonferenza, contenente le prescrizioni dei farmaci convenzionali, verso i biologici nella parte alta. Risulta evidente che, come previsto dalle linee guida, non esiste un unico farmaco biologico di riferimento per questa patologia. Nel dettaglio si può notare come, il farmaco convenzionale più frequentemente prescritto, il methotrexate, venga sostituito con etanercept e adalimumab in maggior frequenza nonostante persista un’importante quota residuale di switch ad altri farmaci biologici.

Angelici L, Addis A, Agabiti N, et al. Determinanti dell’uso precoce dei farmaci biologici nel trattamento dell’artrite reumatoide. XLII Convegno Aie, Lecce 2018.

Social network analysis

Switch tra epoetine in pazienti con malattia renale cronica in Italia. Anni 2009-2015.

In ambito nefrologico, l’intercambiabilità tra epoetine originator e biosimilari è stata misurata per un’ampia coorte di pazienti attraverso la social network analysis. La dimensione di ciascun nodo è proporzionale al numero di utilizzatori di uno specifico farmaco; lo spessore di ciascun arco è calibrato con il numero di pazienti che hanno effettuato almeno uno switch; la direzionalità dello switch è rappresentata dalla freccia del legame. Il colore del nome del farmaco riconduce alla categoria di appartenenza dell’epoetina: verde = alfa originator, rosso = alfa biosimilari, blu = long acting, giallo = short acting. In questo studio, lo switch più frequente avviene tra farmaci originator (da Aranesp a Eprex e viceversa), mentre si osserva una bassa propensione a effettuare switch da epoetine alfa originator a biosimilare.

Belleudi V on behalf of Italian Biosimilar Network (ItaBioNet). Switching between epoetins in Italy: a multiregional drug utilization study among persistent patients in two clinical settings. Poster 33rd ICPE 2017, Praga 2017.

Se invece si intende rendere esplicito il confronto, solo apparentemente banale, di tipo puramente quantitativo tra variabili, il waffle chart risulta essere lo strumento che meglio permette all’utente di confrontare, a livello visivo, numerosità diverse; l’occhio umano intuitivamente carpisce suddette differenze più rapidamente rispetto alle proporzioni rappresentate nei grafici a torta.

Waffle chart

Uso dei farmaci in gravidanza: variabilità tra regioni. Anni 2014-2017.

La possibilità di maturare un’immediata percezione dell’ammontare puramente quantitativo dell’utilizzo, da parte di donne in età fertile, di qualsiasi tipo di farmaco nel periodo pre, post e durante la gravidanza viene offerta dal waffle chart. Utilizzato nell’ambito del Rapporto Osmed, questa rappresentazione consente di confrontare, orizzontalmente, i consumi nella ripartizione temporale (in questo caso l’aggregazione è per trimestri) e, verticalmente, far emergere differenziali territoriali.

Belleudi V, Fortinguerra F, Poggi FR, et al. L’uso dei farmaci in gravidanza in Italia: variabilità regionale. Abstract XXVIII Seminario nazionale di farmacoepidemiologia-Iss, Roma 2019.

Se i detrattori considerano la data visualization niente di più che una branca della statistica descrittiva, evidenziando persino il rischio che il fattore estetico possa banalizzare una metodologia raffinata o i risultati di un’analisi, gli estimatori, al contrario, la descrivono come un felice connubio tra arte e scienza. Al netto delle perplessità o di facili entusiasmi, gli strumenti cambiano col tempo: probabilmente la necessità di comunicare efficacemente deve trovare il difficile compromesso col senso del bello che la tecnologia permette più facilmente di prima. A questa transizione, l’epidemiologia sta dando il suo felice contributo.

Bibliografia

[1] Matuz M, Benko R, Hoffmann M. Visualization of drug utilization data. In: Matuz M, Benko R, Hoffmann M. Drug utilization research. Hoboken: John Wiley & Sons, 2016.
[2] Stafoggia M, Lallo A, Fusco D, et al. Spie charts, target plots, and radar plots for displaying comparative outcomes of health care. J Clin Epidemiol 2011;64:770-8.