Lessici affettivi per l’italiano
Un lessico affettivo è un database di parole (o sensi, espressioni, o altri tipi di elementi lessicali), in cui ogni elemento è classificato in base al suo contenuto in termini di soggettività, polarità (positiva o negativa), capacità di provocare particolari emozioni, e così via. Questo tipo di risorse è usato per costruire sistemi in grado di analizzare il linguaggio naturale (per esempio, da siti Web o social media), e “leggere” il sentimento espresso nel testo. Questa attività è chiamata Analisi del Sentimento (anche Sentiment Analysis o Opinion Mining) e sta rapidamente raccogliendo attenzione crescente da parte delle comunità scientifiche e dell’industria, poiché è in grado di rispondere a domande quali “i clienti sono contenti del prodotto X?” oppure “che tipo di persone ha gradito l’iniziativa Y?”.
L’italiano è una lingua relativamente poco rappresentata nel panorama delle risorse linguistiche computazionali. Questo vale anche per i lessici affettivi, ma grazie ad una comunità vivace, lo scenario sta mutando rapidamente. Abbiamo condotto una piccola indagine tra i membri di AILC, chiedendo loro di indicarci lessici affettivi per l’italiano e risorse correlate. Le risposte sono sintetizzate nella lista seguente. Alcuni di questi sono propriamente lessici, altri sono risorse di vario tipo e metologie per l’italiano o comunque legate alla comunità italiana di NLP.
- Sentix
Realizzato automaticamente dall’allineamento di MultiWordNet e SentiWordNet.
Assegna ad ogni senso punteggi di polarità e intensità.
Disponibile presso http://valeriobasile.github.io/twita/downloads.html.
Pubblicazione: V. Basile and M. Nissim (WASSA 2013). - Lessico realizzato semi-automaticamente per la partecipazione a EVALITA 2014 (shared task SENTIPOLC).
Descrito in Di Gennaro, Rossi e Tamburini (EVALITA 2014). -
Lessico sentiment sviluppato in modo semi-automatico per il progetto Opener.
Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.
Disponibile presso https://dspace-clarin-it.ilc.cnr.it/repository/xmlui/handle/20.500.11752/ILC-73.
-
Sentiment lexicon contenente parole singole, multiword ed espressioni idiomatiche, annotato con polarità, intensità, emozione e dominio.Risorsa proprietaria che CELI vende con licenza d’uso.
Descritta in A. Bolioli, F. Salamino, V. Porzionato (ESSEM 2013). - Tecnica per creare word embeddings polarizzati, descritta in G. Attardi (IIR 2015) ed implementata in DeepNL.
- Database di norme affettive sviluppato all’interno del progetto INCREASE.
Disponibile presso https://sites.google.com/view/mariamontefinese/norms-data?authuser=0 (altre risorse affettive si trovano sulla stessa pagina).
Descritto in Montefinese, M., Ambrosini, E., Fairfield, B. et al. Behav Res (2014). - Metodo automatico per la creazione di “opinionated lexicons” in più lingue basato su distant supervision.
Usato per la partecipazione a EVALITA 2016 (shared task SENTIPOLC).
Dizionari in inglese ed italiano sono disponibili presso: http://sag.art.uniroma2.it/demo-software/distributional-polarity-lexicon/.
Descritto in G. Castellucci, D. Croce, R. Basili (2016) e G. Castellucci, D. Croce, R. Basili (2015). - SentiWords
Risorsa ad alta copertura contenente circa 155.000 parole inglesi con associati punteggi di sentimento tra -1 e 1.
DIsponibile presso: http://hlt-nlp.fbk.eu/technologies/sentiwords.
Descritto in Gatti L., Guerini M. & Turchi M. (2015).
Questa lista è aprta a modifiche ed integrazioni. Chi sia a conoscenza di risorse rilevanti è invitato a contattare AILC, in modo da poterle includere.