Data l'immagine a sinistra, due partecipanti allo studio hanno effettuato la ricostruzione a destra. La gente preferiva la loro ricostruzione all'immagine al centro, una versione altamente compressa dell'originale con una dimensione del file pari alla quantità di dati utilizzati dai partecipanti per effettuare la ricostruzione. Credito:Ashutosh Bhown, Soham Mukherjee e Sean Yang
La tua amica ti manda una foto del cane che sta per adottare ma vedi solo un'abbronzatura, foschia di pixel vagamente a forma di animale. Per avere un'immagine più grande, invia il link al profilo di adozione del cane perché è preoccupata per il suo limite di dati. Un clic e lo schermo si riempie di descrizioni e immagini molto più soddisfacenti della sua futura migliore amica.
L'invio di un collegamento invece di caricare un'immagine enorme è solo un trucco che gli umani usano per trasmettere informazioni senza bruciare i dati. Infatti, questi trucchi potrebbero ispirare una classe completamente nuova di algoritmi di compressione delle immagini, secondo una ricerca di un team di ingegneri della Stanford University e studenti delle scuole superiori.
I ricercatori hanno chiesto alle persone di confrontare le immagini prodotte da un algoritmo di compressione tradizionale che riduce le immagini enormi in sfocature pixellate con quelle create dagli esseri umani in condizioni di dati limitati:comunicazione di solo testo, che potrebbero includere collegamenti a immagini pubbliche. In molti casi, i prodotti della condivisione di immagini a forza umana si sono rivelati più soddisfacenti del lavoro dell'algoritmo. I ricercatori presenteranno il loro lavoro il 28 marzo alla Data Compression Conference 2019.
"Quasi ogni compressore di immagini che abbiamo oggi viene valutato utilizzando metriche che non rappresentano necessariamente ciò che gli umani apprezzano in un'immagine, " ha detto Irena Fischer-Hwang, uno studente laureato in ingegneria elettrica e coautore del documento. "Si scopre che i nostri algoritmi hanno una lunga strada da percorrere e possono imparare molto dal modo in cui gli umani condividono le informazioni".
Il progetto è nato da una collaborazione tra ricercatori guidati da Tsachy Weissman, professore di ingegneria elettrica, e tre studenti delle scuole superiori che hanno internato nel suo laboratorio.
"Onestamente, siamo entrati in questa collaborazione con l'obiettivo di dare agli studenti qualcosa che non distraesse troppo dalla ricerca in corso, " disse Weissman. "Ma volevano fare di più, e quella faccia tosta ha portato a un documento ea una spinta di ricerca completamente nuova per il gruppo. Questo potrebbe benissimo diventare uno dei progetti più entusiasmanti in cui sia mai stato coinvolto".
Un'immagine meno con perdita di dati
Conversione di immagini in un formato compresso, come un JPEG, li rende notevolmente più piccoli, ma perde qualche dettaglio:questa forma di conversione è spesso chiamata "perdita" per questo motivo. L'immagine risultante è di qualità inferiore perché l'algoritmo deve sacrificare i dettagli su colore e luminanza per consumare meno dati. Sebbene gli algoritmi mantengano dettagli sufficienti per la maggior parte dei casi, Gli stagisti di Weissman pensavano di poter fare di meglio.
Nei loro esperimenti, due studenti hanno lavorato insieme in remoto per ricreare immagini utilizzando un software di fotoritocco gratuito e immagini pubbliche da Internet. Una persona della coppia aveva l'immagine di riferimento e ha guidato la seconda persona nella ricostruzione della foto. Entrambe le persone potevano vedere la ricostruzione in corso, ma il descrittore poteva comunicare solo tramite testo mentre ascoltava il loro partner che parlava.
L'eventuale dimensione del file dell'immagine ricostruita era la dimensione compressa dei messaggi di testo inviati dal descrittore perché è ciò che sarebbe richiesto per ricreare quell'immagine. (Il gruppo non includeva informazioni audio.)
Gli studenti hanno quindi confrontato le ricostruzioni umane con le immagini compresse dalla macchina con dimensioni dei file uguali a quelle dei file di testo della ricostruzione. Così, se un team umano creasse un'immagine con solo 2 kilobyte di testo, hanno compresso il file originale alla stessa dimensione. Con l'accesso alle immagini originali, 100 persone al di fuori degli esperimenti hanno valutato la ricostruzione umana meglio della compressione basata su macchine su 10 su 13 immagini.
Facce sfocate OK
Quando le immagini originali corrispondevano strettamente alle immagini pubbliche su Internet, come un incrocio stradale, le ricostruzioni fatte dall'uomo sono andate particolarmente bene. Anche le ricostruzioni che combinavano varie immagini spesso andavano bene, tranne nei casi che presentavano volti umani. I ricercatori non hanno chiesto ai loro giudici di spiegare la loro classifica, ma hanno alcune idee sulle disparità che hanno riscontrato.
"In alcuni scenari, come scene della natura, alla gente non importava se gli alberi erano un po' diversi o se la giraffa era una giraffa diversa. A loro importava di più che l'immagine non fosse sfocata, il che significa che la compressione tradizionale è classificata più in basso, " disse Shubham Chandak, uno studente laureato nel gruppo di Weissman e coautore dell'articolo. "Ma per i volti umani, le persone preferiscono avere la stessa faccia anche se è sfocata".
Questa apparente debolezza nella condivisione di immagini basata sull'uomo migliorerebbe man mano che più persone caricano immagini di se stessi su Internet. I ricercatori stanno anche collaborando con un disegnatore di schizzi della polizia per vedere come la sua esperienza potrebbe fare la differenza. Anche se questo lavoro mostra il valore dell'input umano, i ricercatori avrebbero eventualmente cercato di automatizzare il processo.
"Il machine learning sta lavorando su frammenti e parti di questo, e speriamo di riuscire a farli lavorare insieme presto, " disse Kedar Tatwawadi, uno studente laureato nel gruppo di Weissman e coautore dell'articolo. "Sembra che un compressore pratico che funzioni con questo tipo di ideologia non sia molto lontano".
Chiamando tutti gli studenti
Weissman ha sottolineato il valore del contributo degli studenti delle scuole superiori, anche al di là di questo documento.
"Decine se non centinaia di migliaia di ore di ingegneria umana sono state dedicate alla progettazione di un algoritmo che tre liceali sono venuti e hanno preso a calci nel sedere, " ha detto Weissman. "È umiliante considerare a che punto siamo nella nostra ingegneria".
Grazie al successo di questa collaborazione, Weissman ha creato un programma formale di tirocinio estivo nel suo laboratorio per liceali. Immaginare come un artista o studenti interessati alla psicologia o alle neuroscienze potrebbero contribuire a questo lavoro, è particolarmente desideroso di coinvolgere studenti con interessi e background diversi.