Arnav Kapur, ricercatore nel gruppo Fluid Interfaces del MIT Media Lab, dimostra il progetto AlterEgo.. Credit:Lorrie Lejeune/MIT
I ricercatori del MIT hanno sviluppato un'interfaccia per computer in grado di trascrivere parole che l'utente verbalizza internamente ma in realtà non pronuncia ad alta voce.
Il sistema è costituito da un dispositivo indossabile e da un sistema informatico associato. Gli elettrodi nel dispositivo raccolgono segnali neuromuscolari nella mascella e nel viso che sono attivati da verbalizzazioni interne, dicendo parole "nella tua testa", ma non sono rilevabili all'occhio umano. I segnali vengono inviati a un sistema di apprendimento automatico che è stato addestrato a correlare segnali particolari con parole particolari.
Il dispositivo include anche un paio di cuffie a conduzione ossea, che trasmettono vibrazioni attraverso le ossa del viso all'orecchio interno. Perché non ostruiscono il condotto uditivo, le cuffie consentono al sistema di trasmettere informazioni all'utente senza interrompere la conversazione o interferire in altro modo con l'esperienza uditiva dell'utente.
Il dispositivo è quindi parte di un sistema di calcolo silenzioso completo che consente all'utente di porre e ricevere risposte in modo impercettibile a difficili problemi di calcolo. In uno degli esperimenti dei ricercatori, ad esempio, i soggetti utilizzavano il sistema per segnalare silenziosamente le mosse degli avversari in una partita di scacchi e ricevere altrettanto silenziosamente le risposte consigliate dal computer.
"La motivazione per questo era costruire un dispositivo IA, un dispositivo di potenziamento dell'intelligenza, "dice Arnav Kapur, uno studente laureato al MIT Media Lab, che ha guidato lo sviluppo del nuovo sistema. "La nostra idea era:potremmo avere una piattaforma informatica più interna, che fonde in qualche modo uomo e macchina e che sembra un'estensione interna della nostra stessa cognizione?"
"Sostanzialmente non possiamo vivere senza i nostri cellulari, i nostri dispositivi digitali, "dice Pattie Maes, un professore di arti e scienze dei media e relatore di tesi di Kapur. "Ma al momento, l'uso di questi dispositivi è molto dirompente. Se voglio cercare qualcosa che sia rilevante per una conversazione che sto avendo, Devo trovare il mio telefono e digitare il passcode e aprire un'app e digitare alcune parole chiave di ricerca, e l'intera faccenda richiede che sposti completamente l'attenzione dal mio ambiente e dalle persone con cui sto al telefono stesso. Così, io e i miei studenti da molto tempo sperimentiamo nuovi fattori di forma e nuovi tipi di esperienza che consentono alle persone di beneficiare ancora di tutte le meravigliose conoscenze e servizi che questi dispositivi ci offrono, ma fallo in un modo che permetta loro di rimanere nel presente."
I ricercatori descrivono il loro dispositivo in un documento che hanno presentato alla conferenza ACM Intelligent User Interface della Association for Computing Machinery. Kapur è il primo autore sulla carta, Maes è l'autore senior, e sono raggiunti da Shreyas Kapur, una laurea in ingegneria elettrica e informatica.
Segnali sottili
L'idea che le verbalizzazioni interne abbiano correlati fisici esiste dal 19° secolo, ed è stato seriamente indagato negli anni '50. Uno degli obiettivi del movimento di lettura veloce degli anni '60 era eliminare la verbalizzazione interna, o "subvocalizzazione, "come è noto.
Ma la subvocalizzazione come interfaccia del computer è in gran parte inesplorata. Il primo passo dei ricercatori è stato determinare quali posizioni sul viso sono le fonti dei segnali neuromuscolari più affidabili. Quindi hanno condotto esperimenti in cui agli stessi soggetti è stato chiesto di sottovocalizzare la stessa serie di parole quattro volte, con una serie di 16 elettrodi in diverse posizioni facciali ogni volta.
I ricercatori hanno scritto un codice per analizzare i dati risultanti e hanno scoperto che i segnali provenienti da sette particolari posizioni degli elettrodi erano costantemente in grado di distinguere le parole subvocalizzate. Nel documento del convegno, i ricercatori segnalano un prototipo di un'interfaccia silenziosa vocale indossabile, che avvolge la parte posteriore del collo come una cuffia telefonica e ha appendici curve simili a tentacoli che toccano il viso in sette punti su entrambi i lati della bocca e lungo le mascelle.
Ma negli esperimenti attuali, i ricercatori stanno ottenendo risultati comparabili usando solo quattro elettrodi lungo una mascella, che dovrebbe portare a un dispositivo indossabile meno invadente.
Una volta selezionate le posizioni degli elettrodi, i ricercatori hanno iniziato a raccogliere dati su alcuni compiti computazionali con vocabolari limitati, circa 20 parole ciascuno. Uno era l'aritmetica, in cui l'utente subvocalizza grossi problemi di addizione o moltiplicazione; un altro era l'applicazione per gli scacchi, in cui l'utente riporterebbe le mosse utilizzando il sistema di numerazione degli scacchi standard.
Quindi, per ogni applicazione, hanno usato una rete neurale per trovare correlazioni tra particolari segnali neuromuscolari e particolari parole. Come la maggior parte delle reti neurali, quello utilizzato dai ricercatori è organizzato in strati di semplici nodi di elaborazione, ognuno dei quali è connesso a più nodi negli strati sopra e sotto. I dati vengono inseriti nel livello inferiore, i cui nodi lo elaborano e li passano al livello successivo, i cui nodi lo elaborano e li passano al livello successivo, e così via. L'output delle rese del livello finale è il risultato di alcune attività di classificazione.
La configurazione di base del sistema dei ricercatori include una rete neurale addestrata a identificare parole subvocalizzate da segnali neuromuscolari, ma può essere personalizzato per un particolare utente attraverso un processo che riqualifica solo gli ultimi due livelli.
Questioni pratiche
Utilizzando l'interfaccia indossabile prototipo, i ricercatori hanno condotto uno studio di usabilità in cui 10 soggetti hanno trascorso circa 15 minuti ciascuno personalizzando l'applicazione aritmetica alla propria neurofisiologia, poi ha impiegato altri 90 minuti ad usarlo per eseguire i calcoli. In quello studio, il sistema aveva un'accuratezza di trascrizione media di circa il 92 percento.
Ma, Kapur dice, le prestazioni del sistema dovrebbero migliorare con più dati di allenamento, che potrebbero essere raccolti durante il suo normale utilizzo. Anche se non ha calcolato i numeri, stima che il sistema meglio addestrato che utilizza per le dimostrazioni abbia un tasso di accuratezza superiore a quello riportato nello studio di usabilità.
Nei lavori in corso, i ricercatori stanno raccogliendo una grande quantità di dati su conversazioni più elaborate, nella speranza di costruire applicazioni con vocabolari molto più estesi. "Siamo nel bel mezzo della raccolta di dati, e i risultati sembrano belli, " dice Kapur. "Penso che un giorno avremo una conversazione completa."
"Penso che stiano svendendo un po' quello che penso sia un vero potenziale per il lavoro, "dice Thad Starner, un professore al College of Computing della Georgia Tech. "Piace, dire, controllare gli aeroplani sulla pista dell'aeroporto di Hartsfield qui ad Atlanta. Hai il rumore del jet tutto intorno a te, indossi queste grandi protezioni per le orecchie:non sarebbe fantastico comunicare con la voce in un ambiente in cui normalmente non saresti in grado di farlo? Puoi immaginare tutte queste situazioni in cui hai un ambiente molto rumoroso, come il ponte di volo di una portaerei, o anche luoghi con molti macchinari, come una centrale elettrica o una macchina da stampa. Questo è un sistema che avrebbe senso, soprattutto perché spesso in questi tipi o situazioni le persone indossano già indumenti protettivi. Ad esempio, se sei un pilota di caccia, o se sei un pompiere, stai già indossando queste maschere."
"L'altra cosa in cui questo è estremamente utile sono le operazioni speciali, " Starner aggiunge. "Ci sono molti posti in cui non c'è un ambiente rumoroso ma un ambiente silenzioso. Molto tempo, le persone delle operazioni speciali hanno gesti delle mani, ma non puoi sempre vederli. Non sarebbe fantastico avere un discorso silenzioso per la comunicazione tra queste persone? L'ultimo sono le persone che hanno disabilità in cui non possono vocalizzare normalmente. Per esempio, Roger Ebert non aveva più la capacità di parlare perché ha perso la mascella a causa del cancro. Potrebbe fare questo tipo di discorso silenzioso e poi avere un sintetizzatore che pronunci le parole?"
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.