Federated Learning: ecco come i computer hanno studiato la pandemia senza tradire la privacy

Alle volte non ce ne rendiamo conto e lo diamo per scontato, ma praticamente qualsiasi attività nella quale siamo coinvolti durante la giornata ha a che fare con gli algoritmi.

La medicina, l’intrattenimento, i trasporti pubblici ma anche quelli privati, la costruzione di tutti gli oggetti che ci circondano: tutto è gestito in gran parte da sistemi informatici che sono chiamati a fare previsioni ed a prendere decisioni. Ciò è qualcosa di assolutamente normale ed acquisito al giorno d’oggi e si chiama machine learning. Il machine Learning è l’attività di “dare in pasto” ad un computer, una grande quantità di dati perché capisca come fare previsioni e prendere decisioni sempre più affidabili ed efficaci.

Due istanze contrapposte

Durante la pandemia di covid-19 le sperimentazioni sui farmaci e i modelli di evoluzione e diffusione delle varie varianti hanno fatto un uso massivo dei modelli informatizzati sviluppati grazie al machine learning. Per permettere ai sistemi informatici di fare previsioni sia sul decorso della malattia nel singolo paziente, ma anche sulla declinazione del covid-19 su varie tipologie di pazienti, si fatto largo uso di sistemi computerizzati. Ma anche sull’evoluzione della pandemia dal punto di vista geografico e demografico, si è fatto larghissimo utilizzo dei sistemi informatici che hanno avuto bisogno di una montagna di dati per il machine learning. Il machine Learning permette di sviluppare sistemi informatizzati davvero molto efficienti nell’aiutare l’uomo in tanti frangenti, ma c’è il grosso nodo della privacy da affrontare. Vediamo meglio di capire cosa si tratta.

Se in un’istituzione ha bisogno di addestrare i suoi sistemi informatici utilizzando dati che sono già in suo possesso, il problema non si pone. Lo stesso vale per un’azienda, ecc. Il problema nasce quando un sistema che ad esempio deve prevedere la diffusione di una pandemia su scala globale e la percentuale attesa di contagiati e di morti ha bisogno di rastrellare montagne di dati da tutto il pianeta. E’ etico ed è legale far uscire i dati sensibili fuori dalla cerchia dei loro titolari? È giusto che un ospedale spedisca all’altro capo del mondo tutti i dati delle cartelle cliniche dei suoi pazienti e per addestrare un server che si trova chissà dove?

Una magia creata nei laboratori di Google

Dunque è nata la contrapposizione radicale tra le giuste esigenze di privacy e le altrettanto giuste esigenze di addestrare i modelli predittivi. Curiosamente la risposta a questo contrasto è venuta anche se in forma embrionale, alcuni anni prima della diffusione del covid-19. La risposta è proprio il Federate Learning. Si tratta di una serie di protocolli molto raffinati che permettono all’algoritmo di imparare da fonti diverse senza che i dati escano dal recinto di queste fonti. In ambito medico e sanitario questo consente di superare un problema che, come capiamo bene, è spinosissimo. Una buona fetta delle previsioni che abbiamo sentito in questi mesi è nata proprio dagli sviluppi provvidenziali del federated learning.

Il federated learning è una risposta alla necessità di adattare le dinamiche di apprendimento del machine learning all’altrettanto apprezzabile necessità di salvaguardare la privacy dei titolari dei dati utilizzati per l’addestramento.

Google nel 2016 ha introdotto il concetto nel suo paper “Communication Efficient Learning of Deep Networks from Decentralized Data” ed anche nell’altro paper “Federated Optimization: Distributed Machine Learning for On-Device Intelligence.”

Questa nuova prospettiva avrebbe consentito di utilizzare i dati per favorire il machine learning, ma senza dover coinvolgere un processo centralizzato e dunque senza la necessità di far circolare i dati.