Quali sono le caratteristiche del modo in cui dici, "Ciao, " (o qualsiasi altra cosa se è per questo) che ti renda riconoscibile al telefono? Nonostante la crescente quantità di letteratura sulla qualità della voce personale, in realtà si sa molto poco su come caratterizzare il suono di un singolo altoparlante.
Due ricercatori dell'UCLA di Los Angeles, California, Patricia Keating e Jody Kreiman, stanno unendo le forze (come hanno fatto molte volte in passato) per applicare strumenti acustici alla loro ricerca linguistica, indagando su questa domanda. Keating e Kreiman presenteranno i risultati preliminari della loro ricerca al 172nd Meeting of the Acoustical Society of America e al 5th Joint Meeting with Acoustical Society of Japan, tenutosi dal 28 novembre al dic. 2, 2016, a Honolulu, Hawaii.
Essenzialmente, Keating e Kreimen vogliono scoprire come misurare il suono delle persone. "Non c'è modo di quantificare cosa significhi, " ha detto Kreiman. "Quando cambi qualcosa di fisico, puoi prevedere come suonerà?"
La voce di una persona può variare nel tempo a causa del suo stato emotivo, Salute, il contesto della conversazione, o una miriade di altri fattori che rendono particolarmente difficile quantificare questa misurazione.
Una grande quantità di prove dalla fonetica, la psicologia cognitiva e la neuropsicologia indicano che gli ascoltatori organizzano tutta questa variabilità all'interno dell'interlocutore in un prototipo per ogni oratore - una rappresentazione "media" - e una serie di deviazioni da quel prototipo. Anche una singola sillaba può contenere informazioni sufficienti per distinguere una voce dall'altra, ma non è ancora chiaro quali siano nello specifico le caratteristiche identificative più importanti all'interno di un tale prototipo, o quanto ogni caratteristica deve variare prima che la voce diventi irriconoscibile.
"La qualità della voce vagherà, " Keating ha detto. "Stiamo guardando il punto in cui smetti di suonare come te stesso e inizi a suonare come qualcun altro".
Keating e Kreiman hanno analizzato digitalmente le registrazioni di cinquanta donne, tutti madrelingua inglese, che hanno letto cinque frasi due volte in tre giorni diversi. Questa analisi ha esaminato più parametri acustici per i suoni vocalici e consonantici che compongono le frasi lette, come la frequenza fondamentale, intensità delle frequenze armoniche l'una rispetto all'altra, e come si confrontano con i livelli di rumore sottostanti all'interno della voce.
Queste frasi fornivano a ciascuna caratteristica una media quantitativa e un intervallo, la cui raccolta ha formato una sorta di profilo vocale identificativo potenziale. Confrontando tutti gli oratori con questo insieme di caratteristiche—il profilo vocale di una particolare persona—usando un insieme casuale delle loro frasi campione, potrebbe essere testato per l'accuratezza nel distinguere l'oratore corretto e confrontato con quanto bene altri insiemi di caratteristiche agiscono per distinguere una particolare voce.
Questo lavoro amplia il lavoro precedente che i due hanno completato con successo con un campione di soli tre oratori. La dimensione del campione più ampia offre maggiori informazioni per comprendere quali caratteristiche, e con quale margine, rendere irriconoscibile una voce riconoscibile. Questo è il motivo per cui il set di campioni era composto da diffusori simili, tutte donne e madrelingua inglese.
"Chi dovrebbe essere confondibile e in quali circostanze?" chiese Kreiman. "Quanto di un cambiamento acustico è percepibile?" Guardando avanti, rispondere a queste domande può aiutare a generare previsioni sulla confondibilità nel contesto di entrambi gli ascoltatori umani, che tendono a essere in grado di discernere in modo riconoscibile in pochi secondi, e algoritmi informatici, che in genere richiedono campioni di lunghezza inferiore a un minuto.