COVID-19 Browser: Utilizzo del Natural Language Processing per combattere la pandemia

La nostra società sta affrontando una crisi senza precedenti a causa del recente scoppio di COVID-19 che sta mettendo sotto pressione i sistemi sanitari in tutto il mondo. Recentemente, decine di paesi hanno annunciato la chiusura di tutte le attività non essenziali per il prossimo futuro prevedibile e gli scienziati stanno cercando, in tutto il mondo, di trovare cure e vaccini in grado di fermare la pandemia in corso.

In questi tempi difficili, tutti dovrebbero mettere in gioco le proprie competenze per aiutare a combattere il virus. Per Gabriele Sarti, uno studente di Data Science all’Università di Trieste e un giovane membro dell’Associazione italiana per la linguistica computazionale (AILC), ciò ha significato sfruttare la sua esperienza in Natural Language Processing (NLP) per sviluppare il COVID-19 Browser, un sistema sfruttando tecniche all’avanguardia nella PNL per estrarre informazioni significative e guidare gli scienziati verso una migliore comprensione di COVID-19.

Ad oggi, oltre 32000 articoli scientifici sono stati pubblicati da laboratori di ricerca in tutto il mondo sugli argomenti del nuovo virus corona SARS-CoV-2 e della malattia COVID-19. È molto probabile che in una così grande quantità di testo si perdano molte informazioni utili, rendendo la nostra conoscenza sull’argomento troppo scarsa per essere sfruttata al massimo delle sue potenzialità. Il browser COVID-19 consente agli utenti di sfogliare una vasta raccolta di tali articoli direttamente nella propria console, abbinando gli abstract dell’articolo con le query degli utenti formulate in linguaggio naturale per approfondire le nostre attuali conoscenze sull’argomento.

Il modello alla base di Covid-19 Browser è SciBERT-NLI, un modello linguistico all’avanguardia addestrato dall’AI2 senza fini di lucro americano su un corpus di articoli scientifici di 1,14 milioni e successivamente adattato da Gabriele per essere utilizzato per l’attività di recupero.

Gabriele Sarti è uno studente del Master in Data Science dell’Università di Trieste (https://dssc.units.it/), ed è affiliato con SISSA (https://www.sissa.it) e CNR ItaliaNLP Lab a Pisa (http://www.italianlp.it). È membro dell’Associazione italiana di linguistica computazionale (https://www.ai-lc.it/en/) e svolge un ruolo attivo nel suo team di divulgazione.

Link