Vista bidimensionale del cambiamento di significato di tre parole inglesi, tratto da Hamilton et al. (2016). Credito:upf
La semantica distributiva ottiene rappresentazioni del significato delle parole elaborando migliaia di testi ed estraendo generalizzazioni utilizzando algoritmi computazionali. Nonostante la popolarità della semantica distributiva in campi come la linguistica computazionale e le scienze cognitive, il suo impatto sulla linguistica teorica è stato finora molto limitato.
Ricerca di Gemma Boleda, capo del gruppo di ricerca Computational Linguistics and Language Theory (COLT) e professore di ricerca ICREA presso il Dipartimento di Scienze della Traduzione e del Linguaggio dell'UPF, pubblicato sulla rivista Revisione annuale della linguistica , fornisce una rassegna critica degli abbondanti studi disponibili sulla semantica distributiva, ponendo particolare enfasi sui risultati che sono rilevanti per la linguistica teorica. Nello specifico ci sono tre aree:cambiamento semantico, polisemia e composizione, e l'interfaccia grammatica-semantica.
La ricerca di Gemma Boleda cerca di collegare approcci teorici e computazionali per avanzare nella conoscenza collettiva di come funziona il linguaggio. Uno dei metodi che ha ampiamente studiato è la semantica distributiva, che permette di ottenere rappresentazioni di parole automaticamente. È stato dimostrato che queste rappresentazioni riflettono proprietà linguistiche significative, ad esempio come due parole sono simili:una persona ti dirà che "cane" e "cucciolo" sono molto simili, eppure "cane" e "democrazia" non sono affatto simili; la semantica distributiva dirà lo stesso, grazie al fatto che induce proprietà linguistiche basate su testi scritti da persone. Perciò, la semantica distributiva fornisce rappresentazioni radicalmente empiriche.
La semantica distributiva permette di analizzare l'uso delle parole e l'evoluzione del loro significato
La semantica distributiva fornisce un interessante, quadro complementare ad altri, metodi più tradizionali, non solo perché radicalmente empirico ma anche perché fornisce rappresentazioni multidimensionali:due parole possono essere accostate su una dimensione di significato ("pizza" e "pasta" sono tipi di cibo), o su un altro ("pizza" e "ruota" sono rotondi). Per rappresentare tutti gli aspetti del significato, sono necessarie rappresentazioni multidimensionali. La semantica distributiva può catturare gli usi comuni di due parole, così come i loro fattori di differenziazione.
Una delle importanti applicazioni della semantica distributiva nella linguistica teorica è la rilevazione dei cambiamenti di significato. Se vengono elaborati dati linguistici di periodi diversi, come libri in inglese del 1900, 1950 e 1990, la semantica distributiva può essere utilizzata per rilevare automaticamente il cambiamento di significato di alcune parole. Per esempio, la parola "gay" in inglese all'inizio del secolo scorso significava "felice" ed è stata usata sempre più spesso per significare "omosessuale".
Aspetti della ricerca sulla semantica distributiva che contribuiscono alla teoria del linguaggio
Dall'analisi dei lavori studiati, Boleda conclude che ci sono prove sufficienti per importare direttamente nella ricerca in linguistica teorica i solidi risultati della semantica distributiva.
"Ci sono almeno quattro aspetti della ricerca nella semantica distributiva che possono contribuire alla teoria del linguaggio. Il primo aspetto è esplorativo:le rappresentazioni distributive possono essere utilizzate per esplorare dati su larga scala, per esempio esaminando la somiglianza delle parole. Il secondo è come strumento per identificare casi specifici di fenomeni linguistici. Per esempio, si possono identificare parole i cui significati sono cambiati confrontando le rappresentazioni ottenute da testi di epoche diverse. Il terzo è come banco di prova:valutare diverse ipotesi linguistiche in termini distributivi. Il quarto e più difficile è la scoperta di nuovi fenomeni linguistici o tendenze teoriche rilevanti nei dati, " spiega l'autrice nel suo lavoro.