Distribuzione globale delle lingue incluse nella versione CLICS3, identificato per famiglia linguistica. Credito:S.J. Greenhill
Ogni lingua ha casi in cui due o più concetti sono espressi dalla stessa parola, come la parola inglese "fly, " che si riferisce sia all'atto di volare che all'insetto. Confrontando i modelli in questi casi, che i linguisti chiamano colexificazioni, attraverso le lingue, i ricercatori possono acquisire informazioni su un'ampia gamma di questioni, compresa la percezione umana, evoluzione del linguaggio e contatto linguistico. La terza puntata del database CLICS aumenta notevolmente il numero di lingue, concetti, e fonti di dati disponibili nelle versioni precedenti, consentendo ai ricercatori di studiare le colexificazioni su scala globale con dettagli e profondità senza precedenti.
Con flussi di lavoro computerizzati dettagliati, CLICS facilita la standardizzazione dei set di dati linguistici e fornisce soluzioni a molte delle sfide persistenti nella ricerca linguistica. "Mentre in passato l'aggregazione dei dati era generalmente basata su procedure ad hoc, i nostri nuovi flussi di lavoro e le linee guida per le migliori pratiche sono un passo importante per garantire la riproducibilità della ricerca linguistica, "dice Tiago Tresoldi.
Efficacia del CLICS dimostrata nelle applicazioni di ricerca
La capacità di CLICS di fornire nuove prove per affrontare questioni all'avanguardia in psicologia e cognizione è già stata illustrata in un recente studio pubblicato su Scienza , che si concentrava sulla codificazione mondiale dei concetti emotivi. Lo studio ha confrontato reti di colexificazione di parole per concetti emotivi da un campione globale di lingue, e ha rivelato che i significati delle emozioni variano notevolmente tra le famiglie linguistiche.
"In questo studio, CLICS è stato utilizzato per studiare le differenze nella codifica lessicale delle emozioni nelle lingue di tutto il mondo, ma il potenziale del database non si limita ai concetti di emozione. Molte altre domande interessanti possono essere affrontate in futuro, " dice Johann-Mattis List.
Rete di colexificazione incentrata sui concetti di "mano" e "braccio". Credito:J.-M. Elenco, T. Tresoldi
Nuovi standard e flussi di lavoro consentono la raccolta riproducibile di dati lessicali globali
Basandosi sulle nuove linee guida per i formati di dati standardizzati nella ricerca interlinguistica, che sono stati presentati per la prima volta nel 2018, il team di CLICS è stato in grado di aumentare la quantità di dati da 300 varietà linguistiche e 1200 concetti nel database originale a 3156 varietà linguistiche e 2906 concetti nell'installazione corrente. La nuova versione garantisce inoltre la riproducibilità del processo di aggregazione dei dati, conforme alle migliori pratiche nella gestione dei dati di ricerca. "Grazie ai nuovi standard e flussi di lavoro che abbiamo sviluppato, i nostri dati non sono solo FAIR (trovabili, accessibile, interoperabile, e riproducibile), ma il processo di trasferimento dei dati linguistici dalle loro forme originali ai nostri standard interlinguistici è anche molto più efficiente che in passato, "dice Robert Forkel.
L'efficacia del flusso di lavoro sviluppato per CLICS è stata testata e confermata in vari esperimenti di convalida che hanno coinvolto un'ampia gamma di studiosi e studenti. Sono stati condotti due diversi compiti degli studenti, con conseguente creazione di nuovi dataset e il progressivo miglioramento dei dati esistenti. Gli studenti sono stati incaricati di lavorare attraverso le diverse fasi della creazione del set di dati descritte nello studio, per esempio. Estrazione dati, mappatura dei dati (per catalogare di riferimento), e identificazione delle fonti. "Avere persone al di fuori del core team utilizzare e testare i tuoi strumenti è essenziale e aiuta enormemente a mettere a punto tutti i processi, "dice Christoph Rzymski.
Con CLICS e il suo flusso di lavoro accessibili a un pubblico più ampio, gli studiosi non possono solo contribuire direttamente al database in futuro; possono anche trarre vantaggio dai macchinari stabiliti e avviare le proprie raccolte mirate. "Il numero di linguisti che utilizzano attivamente i nostri standard e flussi di lavoro è in costante aumento. Ci auguriamo che il rilascio di questa nuova versione di CLICS li propaghi ulteriormente, "dice Simon Greenhill.