BLOG – Pagina 2

Bid per Lectures on Computational Linguistics 2023

L’Associazione Italiana di Linguistica Computazionale (AILC) sollecita candidature per ospitare
l’edizione 2024 delle “Lectures on Computational Linguistics”.

Le Lectures sono una iniziativa annuale di AILC rivolta alla formazione nel campo della
Linguistica Computazionale, e sono il frutto di una stretta collaborazione con l’alta formazione in
Università, in particolare con le Scuole di Dottorato. Informazioni sul format delle Lectures e
sulle edizioni precedenti sono disponibili qui.
Le sedi che si intendono proporre dovranno presentare un documento contenente le seguenti
informazioni:

Gruppo organizzatore locale: indicare le persone coinvolte nell’organizzazione locale
delle Lectures, inclusa una persona proposta per far parte del Comitato Scientifico delle
Lectures per due anni; indicare precedenti esperienze dei local organizers
nell’organizzazione di eventi di formazione.
Caratteristiche della Sede: indicare la posizione della sede, numero di sale disponibili
con la relativa capienza, spazi per sessione poster, presenza di attrezzature audio-video,
possibilità di pranzo in mensa per i partecipanti.
Scuola di dottorato e corsi universitari collegati alla sede: indicare la/le scuole di
dottorato coinvolte nell’organizzazione, gli eventuali corsi di laurea interessati, e il
corrispondente numero di studenti potenzialmente interessati alle Lectures.
Caratterizzazione scientifica della Sede: indicare la caratterizzazione della sede (sede a
orientamento umanistico, orientamento informatico o misto); indicare eventualmente
alcuni temi scientifici che la Sede ospitante intende proporre al Comitato Scientifico delle
Lectures, nel caso la sede fosse selezionata.
Alloggi: indicare la disponibilità di alloggi, in particolare a costi contenuti, per es., se
presenti, studentati e strutture universitarie di accoglienza.
Evento sociale: indicare possibilità e costi per una cena o altro evento sociale.
Trasporti: indicare i collegamenti (aereo, treni) per raggiungere la sede; mezzi di
trasporto urbani con i tempi per raggiungere la sede.
Budget: indicare i costi stimati relativi alle sale, i costi della mensa, e eventuali altri costi
fissi richiesti dalla sede ospitante.
Sponsorizzazioni: indicare eventuali sponsorizzazioni da parte di istituzioni universitarie
(dipartimento, scuola di dottorato).
Date: indicare le date possibili delle Lectures (tre giorni) nel periodo maggio-giugno 2023.

La selezione della sede ospitante verrà effettuata, in seduta congiunta, dal Comitato Scientifico
delle Lectures e dal Consiglio Direttivo AILC.
Le candidature dovranno essere inviate per posta elettronica al Presidente AILC (Simonetta Montemagni – simonetta.montemagni@ilc.cnr.it) e al Coordinatore del Comitato Scientifico delle Lectures (Elisabetta
Jezek – jezek@unipv.it) entro il giorno 15 ottobrebre 2023.

Contatti: Simonetta Montemagni (simonetta.montemagni@ilc.cnr.it) e Elisabetta Jezek (jezek@unipv.it)

Di Simonetta Montemagni|2023-09-26T10:49:05+02:0020 Lug, 2022|BLOG, EVENTI, FORMAZIONE, NEWS|

Continua a leggere

È Dante o non è Dante? Questo è il problema

Dante e intelligenza artificiale: li avete mai pensati insieme? In questo laboratorio avrete la possibilità di avvicinarvi alle Digital Humanities e alla Linguistica Computazionale giocando con il risultato di modelli automatici per la generazione del linguaggio, che proveranno a imitare lo stile del Sommo Poeta. Riuscirete a distinguere il Dante vero dal Dante robotico, o cadrete nell’inganno?

Questo laboratorio è stato realizzato in collaborazione con AIUCD

Questo laboratorio è stato proposto qui:

Festival della Scienza 2021

Di root|2024-07-22T22:16:44+02:0021 Ott, 2021|BLOG, DIVULGAZIONE, LABORATORI|

Continua a leggere

Ma un computer mi capisce? Cos’è e a cosa serve la Linguistica Computazionale

Strumenti basati sull’elaborazione del linguaggio naturale e sull’intelligenza artificiale, quali sistemi di raccomandazione sui social media, traduttori automatici, e assistenti vocali, fanno ormai parte della nostra vita quotidiana, sia in ambito personale che in ambito lavorativo.

Queste tecnologie si basano sulla rappresentazione di conoscenza linguistica, l’oggetto di ricerca di cui si occupa una disciplina spesso poco conosciuta al di fuori del ristretto ambito specialistico: la Linguistica Computazionale.

Quanto più tali strumenti sono pervasivi, tanto più li diamo per scontati, senza chiederci come siano stati creati, come precisamente funzionino, e, soprattutto, quali possano essere le conseguenze del loro utilizzo massiccio, diffuso, e largamente inconsapevole. piu info qui.

Ludovica Pannitto, Università degli Studi di Trento

Malvina Nissim, Università degli Studi di Trento

Di root|2024-05-21T19:02:38+02:0021 Mag, 2021|BLOG, DIVULGAZIONE, SEMINARI|

Continua a leggere

Bid per Lectures on Computational Linguistics 2022

L’Associazione Italiana di Linguistica Computazionale (AILC) sollecita candidature per ospitare
l’edizione 2022 delle “Lectures on Computational Linguistics”.

Le Lectures sono una iniziativa annuale di AILC rivolta alla formazione nel campo della
Linguistica Computazionale, e sono il frutto di una stretta collaborazione con l’alta formazione in
Università, in particolare con le Scuole di Dottorato. Informazioni sul format delle Lectures e
sulle edizioni precedenti sono disponibili qui.
Le sedi che si intendono proporre dovranno presentare un documento contenente le seguenti
informazioni:

Gruppo organizzatore locale: indicare le persone coinvolte nell’organizzazione locale
delle Lectures, inclusa una persona proposta per far parte del Comitato Scientifico delle
Lectures per due anni; indicare precedenti esperienze dei local organizers
nell’organizzazione di eventi di formazione.
Caratteristiche della Sede: indicare la posizione della sede, numero di sale disponibili
con la relativa capienza, spazi per sessione poster, presenza di attrezzature audio-video,
possibilità di pranzo in mensa per i partecipanti.
Scuola di dottorato e corsi universitari collegati alla sede: indicare la/le scuole di
dottorato coinvolte nell’organizzazione, gli eventuali corsi di laurea interessati, e il
corrispondente numero di studenti potenzialmente interessati alle Lectures.
Caratterizzazione scientifica della Sede: indicare la caratterizzazione della sede (sede a
orientamento umanistico, orientamento informatico o misto); indicare eventualmente
alcuni temi scientifici che la Sede ospitante intende proporre al Comitato Scientifico delle
Lectures, nel caso la sede fosse selezionata.
Alloggi: indicare la disponibilità di alloggi, in particolare a costi contenuti, per es., se
presenti, studentati e strutture universitarie di accoglienza.
Evento sociale: indicare possibilità e costi per una cena o altro evento sociale.
Trasporti: indicare i collegamenti (aereo, treni) per raggiungere la sede; mezzi di
trasporto urbani con i tempi per raggiungere la sede.
Budget: indicare i costi stimati relativi alle sale, i costi della mensa, e eventuali altri costi
fissi richiesti dalla sede ospitante.
Sponsorizzazioni: indicare eventuali sponsorizzazioni da parte di istituzioni universitarie
(dipartimento, scuola di dottorato).
Date: indicare le date possibili delle Lectures (tre giorni) nel periodo maggio-giugno 2022.

La selezione della sede ospitante verrà effettuata, in seduta congiunta, dal Comitato Scientifico
delle Lectures e dal Consiglio Direttivo AILC.
Le candidature dovranno essere inviate per posta elettronica al Presidente AILC (Bernardo
Magnini – magnini@fbk.eu) e al Coordinatore del Comitato Scientifico delle Lectures (Elisabetta
Jezek – jezek@unipv.it) entro il giorno 8 ottobre 2021.
Contatti: Bernardo Magnini (magnini@fbk.eu) e Elisabetta Jezek (jezek@unipv.it)

Di Bernardo Magnini|2021-09-21T07:57:53+02:0016 Mag, 2021|BLOG, EVENTI, FORMAZIONE, NEWS|

Continua a leggere

Computational Linguistics and the COVID-19 Outbreak
Galleria
Computational Linguistics and the COVID-19 Outbreak

BLOG, HOME, RISORSE

Computational Linguistics and the COVID-19 Outbreak

This page is maintained by AILC (the Italian Association for Computational Linguistics). It groups some of the initiatives that the Computational Linguistics community is carrying out to contribute to the fight against COVID-19. Everyone is invited to collaborate by reporting new initiatives. Please do so through our contact form.

Datasets

CORD-19 – The Allen Institute COVID-19 Open Research Dataset, a collection of Covid-19 scientific papers, weekly updated (March 2020)
Processed CORD-19 – The Allen Institute corpus processed with Sketch Engine (March 2020)
40wita – A dataset of tweets in Italian collected daily by the University of Turin
Corona Corpus – A corpus of texts from online newspapers and magazines in 20 different English-speaking countries and part of the English-Corpora.org suite of corpora

Tools

COVID-19 Browser – A semantic search tool on COVID-19 scientific papers developed by Gabriele Sarti and hosted by Area Science Park (April 2020)
COVID19 Infodemics Observatory – A platform to monitor fake news on covid-19, developed at FBK (March 2020)
COVID-19 Extracting Relations with Chemicals – A tool (submitted to the CORD-19 Kaggle Task) for extracting causal relations between chemicals and COVID-19, developed by FBK and IDSIA.

Shared Tasks and Events

CLEF 2020: CheckThat! Lab Task 1 Tweet Check-Worthiness – The task asks to rank a stream of tweets on a number of topics, including COVID-19, according to their check-worthiness (March 2020)
Kaggle Tasks – Several tasks on COVID-19 (March 2020)
NLP COVID-19 Workshop an emergency workshop at ACL 2020 – Authors are invited to submit papers related to NLP applied to combat the COVID-19 pandemic (July 2020)
TREC-COVID program – Launched by NIST and OSTP, the challenge will follow the TREC assessment process to evaluate search systems, based on the CORD-19 documents

Publications

Björn W. Schuller, Dagmar M. Schuller, Kun Qian, Juan Liu, Huaiyuan Zheng, Xiao Li. COVID-19 and Computer Audition: An Overview on What Speech & Sound Analysis Could Contribute in the SARS-CoV-2 Corona Crisis, Arxive.org.

Di Manuela Speranza|2020-05-20T08:17:11+02:002 Apr, 2020|BLOG, HOME, RISORSE|

Continua a leggere

COVID-19 Browser: Utilizzo del Natural Language Processing per combattere la pandemia

La nostra società sta affrontando una crisi senza precedenti a causa del recente scoppio di COVID-19 che sta mettendo sotto pressione i sistemi sanitari in tutto il mondo. Recentemente, decine di paesi hanno annunciato la chiusura di tutte le attività non essenziali per il prossimo futuro prevedibile e gli scienziati stanno cercando, in tutto il mondo, di trovare cure e vaccini in grado di fermare la pandemia in corso.

In questi tempi difficili, tutti dovrebbero mettere in gioco le proprie competenze per aiutare a combattere il virus. Per Gabriele Sarti, uno studente di Data Science all’Università di Trieste e un giovane membro dell’Associazione italiana per la linguistica computazionale (AILC), ciò ha significato sfruttare la sua esperienza in Natural Language Processing (NLP) per sviluppare il COVID-19 Browser, un sistema sfruttando tecniche all’avanguardia nella PNL per estrarre informazioni significative e guidare gli scienziati verso una migliore comprensione di COVID-19.

Ad oggi, oltre 32000 articoli scientifici sono stati pubblicati da laboratori di ricerca in tutto il mondo sugli argomenti del nuovo virus corona SARS-CoV-2 e della malattia COVID-19. È molto probabile che in una così grande quantità di testo si perdano molte informazioni utili, rendendo la nostra conoscenza sull’argomento troppo scarsa per essere sfruttata al massimo delle sue potenzialità. Il browser COVID-19 consente agli utenti di sfogliare una vasta raccolta di tali articoli direttamente nella propria console, abbinando gli abstract dell’articolo con le query degli utenti formulate in linguaggio naturale per approfondire le nostre attuali conoscenze sull’argomento.

Il modello alla base di Covid-19 Browser è SciBERT-NLI, un modello linguistico all’avanguardia addestrato dall’AI2 senza fini di lucro americano su un corpus di articoli scientifici di 1,14 milioni e successivamente adattato da Gabriele per essere utilizzato per l’attività di recupero.

Gabriele Sarti è uno studente del Master in Data Science dell’Università di Trieste (https://dssc.units.it/), ed è affiliato con SISSA (https://www.sissa.it) e CNR ItaliaNLP Lab a Pisa (http://www.italianlp.it). È membro dell’Associazione italiana di linguistica computazionale (https://www.ai-lc.it/en/) e svolge un ruolo attivo nel suo team di divulgazione.

Link

Il codice per il progetto è open-source e disponibile qui: ps://github.com/gsarti/covid-papers-browser
Una breve descrizione del modello utilizzato è disponibile qui: https://huggingface.co/gsarti/scibert-nli
La raccolta di papers utilizzata per il progetto è disponibile qui: https://pages.semanticscholar.org/coronavirus-research

Di root|2020-04-06T10:37:41+02:0024 Mar, 2020|BLOG, RICERCA|

Continua a leggere

Lessici affettivi per l’italiano
Galleria
Lessici affettivi per l’italiano

BLOG, RISORSE

Lessici affettivi per l’italiano

Un lessico affettivo è un database di parole (o sensi, espressioni, o altri tipi di elementi lessicali), in cui ogni elemento è classificato in base al suo contenuto in termini di soggettività, polarità (positiva o negativa), capacità di provocare particolari emozioni, e così via. Questo tipo di risorse è usato per costruire sistemi in grado di analizzare il linguaggio naturale (per esempio, da siti Web o social media), e “leggere” il sentimento espresso nel testo. Questa attività è chiamata Analisi del Sentimento (anche Sentiment Analysis o Opinion Mining) e sta rapidamente raccogliendo attenzione crescente da parte delle comunità scientifiche e dell’industria, poiché è in grado di rispondere a domande quali “i clienti sono contenti del prodotto X?” oppure “che tipo di persone ha gradito l’iniziativa Y?”.

L’italiano è una lingua relativamente poco rappresentata nel panorama delle risorse linguistiche computazionali. Questo vale anche per i lessici affettivi, ma grazie ad una comunità vivace, lo scenario sta mutando rapidamente. Abbiamo condotto una piccola indagine tra i membri di AILC, chiedendo loro di indicarci lessici affettivi per l’italiano e risorse correlate. Le risposte sono sintetizzate nella lista seguente. Alcuni di questi sono propriamente lessici, altri sono risorse di vario tipo e metologie per l’italiano o comunque legate alla comunità italiana di NLP.

Sentix
Realizzato automaticamente dall’allineamento di MultiWordNet e SentiWordNet.
Assegna ad ogni senso punteggi di polarità e intensità.
Disponibile presso http://valeriobasile.github.io/twita/downloads.html.
Pubblicazione: V. Basile and M. Nissim (WASSA 2013).
Lessico realizzato semi-automaticamente per la partecipazione a EVALITA 2014 (shared task SENTIPOLC).
Descrito in Di Gennaro, Rossi e Tamburini (EVALITA 2014).
Lessico sentiment sviluppato in modo semi-automatico per il progetto Opener.
Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.
Disponibile presso https://dspace-clarin-it.ilc.cnr.it/repository/xmlui/handle/20.500.11752/ILC-73.

Sentiment lexicon contenente parole singole, multiword ed espressioni idiomatiche, annotato con polarità, intensità, emozione e dominio.

Risorsa proprietaria che CELI vende con licenza d’uso.
Descritta in A. Bolioli, F. Salamino, V. Porzionato (ESSEM 2013).
Tecnica per creare word embeddings polarizzati, descritta in G. Attardi (IIR 2015) ed implementata in DeepNL.
Database di norme affettive sviluppato all’interno del progetto INCREASE.
Disponibile presso https://sites.google.com/view/mariamontefinese/norms-data?authuser=0 (altre risorse affettive si trovano sulla stessa pagina).
Descritto in Montefinese, M., Ambrosini, E., Fairfield, B. et al. Behav Res (2014).
Metodo automatico per la creazione di “opinionated lexicons” in più lingue basato su distant supervision.
Usato per la partecipazione a EVALITA 2016 (shared task SENTIPOLC).
Dizionari in inglese ed italiano sono disponibili presso: http://sag.art.uniroma2.it/demo-software/distributional-polarity-lexicon/.
Descritto in G. Castellucci, D. Croce, R. Basili (2016) e G. Castellucci, D. Croce, R. Basili (2015).
SentiWords
Risorsa ad alta copertura contenente circa 155.000 parole inglesi con associati punteggi di sentimento tra -1 e 1.
DIsponibile presso: http://hlt-nlp.fbk.eu/technologies/sentiwords.
Descritto in Gatti L., Guerini M. & Turchi M. (2015).

Questa lista è aprta a modifiche ed integrazioni. Chi sia a conoscenza di risorse rilevanti è invitato a contattare AILC, in modo da poterle includere.

Di Valerio Basile|2017-10-04T16:42:23+02:0028 Set, 2017|BLOG, RISORSE|

Continua a leggere

L’utilità della ricerca per le aziende
Galleria
L’utilità della ricerca per le aziende

BLOG, INDUSTRIA

L’utilità della ricerca per le aziende

L’innovazione e la ricerca nelle aziende italiane di linguistica computazionale

All’inizio degli anni ‘90, quando i giovani della mia generazione studiavano linguistica computazionale (o Natural Language Processing) all’Università, il Center for the Study of Language and Information della Stanford University era uno dei luoghi più ambiti e sognati. Molti di noi si erano innamorati della Head-Driven Phrase Structure Grammar (HPSG), inventata da Carl Pollard e Ivan A. Sag in California. Ci sembrava che HPSG potesse essere la parola definitiva sulle grammatiche formali delle lingue naturali, perché univa alcuni principi universali delle lingue (ispirati alla linguistica di Noam Chomsky) con un potentissimo framework computazionale. L’approccio presentava però due problemi: era difficile creare e gestire tutte quelle regole piuttosto complesse; il parsing non era veloce come avremmo voluto. Ci dedicavamo alla ricerca ma non riuscivamo a fare dei servizi commerciali efficaci basati su questo o altri framework linguistico-computazionali.

Da allora sono passati alcuni anni. Ad ottobre 2016 leggo un’intervista fatta ad Andrew Ng in occasione del rilascio da parte dell’azienda cinese Baidu di un chatbot per fare diagnosi mediche: “As Melody has more conversations, it will also learn and keep getting better. This is just the start of a much larger, AI-driven transformation of the healthcare industry.” Nel 1990 Andrew Ng aveva 14 anni. Dopo un paio di lauree e dottorati, nel 2002 iniziò a lavorare alla Stanford University. Nel 2011 fondò il Google Brain project. Sempre nel 2011 tenne un corso di Machine Learning online per la Stanford University, che fu seguito da circa 100.000 studenti in tutto il mondo. Nel 2012 fondò Coursera, piattaforma di MOOC che ha ormai quasi 2000 corsi e 24 milioni di iscritti. Dal 2014 Ng lavora a Baidu come Chief Scientist, e finora è rimasto a lavorare in quell’azienda. Quest’uomo eccezionale è un esempio brillante di come il mondo della ricerca, della formazione e della produzione aziendale si alimentino a vicenda con scambi continui.

Il mondo della Linguistica Computazionale e più in generale dell’Intelligenza Artificiale stanno vivendo un periodo di incredibile accelerazione

con passaggi velocissimi tra le attività di ricerca e l’applicazione dei risultati della ricerca in servizi concreti e viceversa, quando i problemi sollevati dai casi reali diventano materia di studio.

Questo scambio vivace avviene anche nelle aziende italiane che fanno linguistica computazionale. Così come i ricercatori di questo settore sono sempre stati all’avanguardia a livello globale, anche le aziende italiane che fanno linguistica computazionale si sono fatte valere a livello internazionale. Ad esempio Expert System, una SpA con sedi a Modena, Napoli, Rovereto, è sbarcata da alcuni anni negli Stati Uniti ed è cresciuta in Europa. Una PMI come CELI, con sedi a Torino e Milano, fornisce tecnologie e consulenze di Natural Language Processing ad aziende internazionali, dalla Corea alla California. Almawave, del gruppo Almaviva, da qualche anno integra tecnologie NLP. Euregio, con sede a Bolzano, utilizza l’NLP per fornire servizi di media intelligence. Interactive Media SpA è specializzata in soluzioni di speech. La startup pugliese QuestionCube è focalizzata sul question answering e usa il machine learning come strumento principale. Altre aziende più o meno grandi stanno integrando queste tecnologie per fornire i loro servizi, utilizzando tecnologie di machine learning combinate con tecnologie NLP standard.

Quali servizi offrono ai clienti? Il servizio principale è il “Natural Language Processing”, cioè l’analisi automatica e la comprensione dei testi scritti e del parlato.

La comprensione è ovviamente parziale rispetto alla comprensione umana ma è molto più veloce, e questo consente di svolgere delle attività che altrimenti non potrebbero essere realizzate, o di semplificare attività eccessivamente complesse.

Nei prossimi post di questo blog verranno descritti più in dettaglio i temi e i problemi della Linguistica Computazionale affrontati nelle università e nelle aziende.
Uno degli scopi dell’AILC è facilitare gli scambi tra università, centri di ricerca e aziende in questo settore. In questo blog perciò si potranno raccontare alcune delle scoperte, dei risultati ottenuti, dei progetti in corso, e dei problemi incontrati nei vari ambiti di questa disciplina.

CELI, Expert System, Euregio e QuestionCube sono già socie dell’Associazione Italiana di Linguistica Computazionale. Ci auguriamo che nei prossimi mesi altre aziende si uniscano, per contribuire alla creazione dell’ecosistema italiano della linguistica computazionale e dell’Intelligenza Artificiale.

Di Andrea Bolioli|2017-04-10T08:41:59+02:0030 Mar, 2017|BLOG, INDUSTRIA|

Continua a leggere

Questo laboratorio è stato proposto qui:

Datasets

Tools

Shared Tasks and Events

Publications

L’innovazione e la ricerca nelle aziende italiane di linguistica computazionale

Titolo