Dati \ Dati e modelli per il contenimento del Covid-19: il punto sulla situazione italiana

La mancanza di dati consistenti sulla pandemia da Covid-19 non ha consentito l’uso di strumenti di analisi dei dati basati principalmente sull’intelligenza artificiale. Negli Stati Uniti, CORD-19 è una base dati gratuita che comprende circa 30.000 articoli accademici sul virus Sars-cov-2 e su Covid-19. Kaggle ha proposto un hackathon per l’analisi dei dati disponibili attraverso l’uso di modellistica di machine learning e per l’analisi di dati testuali.

Nel contesto italiano le previsioni legate alla diffusione del virus non hanno funzionato perché da un lato non è stato consentito l’accesso alla totalità dei dati disponibili, ivi comprese le cartelle cliniche dei pazienti, dall’altro lato la corretta identificazione del numero dei casi ha presentato diverse problematicità. Il regolamento sulla privacy, il Regolamento UE 679/16 (GDPR) e la resistenza da parte dei cittadini a fornire a terzi l’accesso ai dati sul proprio stato di salute hanno costituito un blocco insormontabile per la parte di analisi. Però gli strumenti ci sono e potrebbero funzionare.

Nella fase di diagnosi, l’uso di metodologie per l’analisi di sequenze di immagini (prevalentemente TAC polmonari) non sono in grado di rilevare se un soggetto è positivo o negativo, ma permettono di diagnosticare la patologia in tempi nettamente inferiori rispetto al tampone. In Italia alcune realtà ospedaliere usano l’Intelligenza Artificiale per la diagnosi precoce e il monitoraggio di polmoniti, partendo dall’analisi delle immagini della TC polmonare, con un tasso di attendibilità del 98,5%, individuando la tipologia di polmonite (virale da Covid-19 vs. altre patologie come polmoniti batteriche).

La modellistica matematica e statistica può facilitare la scoperta di terapie e vaccini, ad esempio attraverso lo studio di modelli predittivi sulla struttura tridimensionale delle proteine coinvolte e sulla base di informazioni genetiche, ad esempio come proposto da Google DeepMind, con il modello AlphaFold per prevedere le strutture proteiche associate al virus.

L’Italia è troppo lontana dal modello cinese per il contenimento del Covid-19.

In Cina sono stati analizzati dati raccolti da 200 milioni di telecamere di sicurezza e analizzati attraverso strumenti di riconoscimento delle immagini per monitorare i pazienti in obbligo di quarantena. Il governo cinese ha utilizzato anche software di image recognition nei luoghi di grande affluenza per il monitoraggio e il riconoscimento dei cittadini. Tali software sono capaci di sottoporre a uno screening ‘invisibile’ i cittadini per stabilirne la temperatura corporea. Questa immensa quantità di dati generati, analizzata opportunamente con algoritmi di classificazione e previsione, può assegnare a ogni cittadino un grado di pericolosità epidemica e genera previsioni su possibili nuovi focolai.

La proposta cinese è molto distante dalla modalità di raccolta e analisi dati proposta dalla Federazione delle Società Medico Scientifiche Italiane (FISM), con l’app “iorestoacasa”

In Italia il sistema di monitoraggio degli spostamenti è applicato solo in alcune regioni e si basa sui dati provenienti dalle celle dei ripetitori dei telefoni cellulari a cui si collegano gli smartphone dei cittadini, ma con le limitazioni imposte dalla legge sulla privacy, i dati sono utilizzabili soltanto per le statistiche riguardanti il numero di spostamenti effettuati durante la giornata e non per il monitoraggio dei cittadini sprovvisti di un’autorizzazione o, ancora più grave, sottoposti a quarantena.

Il Covid-19 è una pandemia e purtroppo non sarà l’ultima. Occorre uno sforzo enorme da parte di tutti i soggetti coinvolti: soggetti politici, personale medico, comunità scientifiche e cittadini. Occorre valutare la sospensione temporanea di alcuni vincoli legati alla privacy per facilitare la scoperta e lo sviluppo di nuovi farmaci e vaccini, lo sviluppo di strumenti per la previsione della diffusione della pandemia e per la diagnosi e il trattamento. In tale scenario, l’analisi dei dati con strumenti di machine learning e deep learning può contribuire allo sviluppo di strumenti di supporto alla diagnosi e alle decisioni, alla gestione ottimizzata delle risorse critiche, al coordinamento delle risposte e all’ottimizzazione degli approvvigionamenti.

Guardando alla situazione di altri paesi, come la Sud-Corea o Taiwan, più densamente popolati rispetto all’Italia, si può vedere come l’impiego della tecnologia, dei big data, di particolari strumenti come, sia riuscito a contenere il contagio “semplicemente” monitorando il virus e le persone contagiate: numeri elevati di tamponi con esito rapido (15 minuti) e nuove tecnologie per identificare e monitorare i focolai del virus che sfruttano congiuntamente informazioni temporali e spaziali.

La scienza dei dati fuori dall’Italia è stata messa nelle condizioni di fornire un servizio di informazione che ha inciso positivamente sul contenimento dell’epidemia nel pieno rispetto della privacy delle persone. In Italia esperti e strumenti di analisi sono presenti. Rimangono, molti aspetti, soprattutto di carattere normativo, che dovranno essere disciplinati in maniera organica, al fine di adottare soluzioni tecnologiche che possano aiutare al contenimento dell’emergenza sanitaria in modo concreto e nel rispetto di tutte le garanzie a tutela dei dati personali raccolti e trattati.