• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I ricercatori nascondono le informazioni in testo semplice

    Qualcuno che usa FontCode fornirebbe un messaggio segreto e un documento di testo del corriere. FontCode converte il messaggio segreto in una stringa di bit (ASCII o Unicode) e quindi in una sequenza di numeri interi. Ogni intero è assegnato a un blocco di cinque lettere nel testo normale in cui le posizioni numerate di ogni lettera si sommano all'intero. Credito:Changxi Zheng/Columbia Engineering

    Gli scienziati informatici della Columbia Engineering hanno inventato FontCode, un nuovo modo per incorporare informazioni nascoste nel testo ordinario modificando impercettibilmente, o perturbante, le forme dei caratteri nel testo. FontCode crea perturbazioni dei caratteri, utilizzarli per codificare un messaggio che può essere successivamente decodificato per recuperare il messaggio. Il metodo funziona con la maggior parte dei caratteri e, a differenza di altri metodi di testo e documento che nascondono informazioni incorporate, funziona con la maggior parte dei tipi di documenti, anche mantenendo le informazioni nascoste quando il documento viene stampato su carta o convertito in un altro tipo di file. Il paper sarà presentato al SIGGRAPH di Vancouver, British Columbia, 12-16 agosto.

    "Mentre ci sono ovvie applicazioni per lo spionaggio, pensiamo che FontCode abbia usi ancora più pratici per le aziende che vogliono prevenire la manomissione dei documenti o proteggere i diritti d'autore, e per rivenditori e artisti che desiderano incorporare codici QR e altri metadati senza alterare l'aspetto o il layout di un documento, "dice Changxi Zheng, professore associato di informatica e autore senior del documento.

    Zheng ha creato FontCode con i suoi studenti Chang Xiao (studente di dottorato) e Cheng Zhang MS'17 (ora studente di dottorato presso UC Irvine) come metodo steganografico di testo in grado di incorporare testo, metadati, un URL, o una firma digitale in un documento di testo o immagine, se è memorizzato digitalmente o stampato su carta. Funziona con famiglie di caratteri comuni, come Times Roman, Helvetica, e Calibrì, ed è compatibile con la maggior parte dei programmi di elaborazione testi, inclusi Word e FrameMaker, così come programmi di modifica delle immagini e disegno, come Photoshop e Illustrator. Poiché ogni lettera può essere turbata, la quantità di informazioni trasmesse segretamente è limitata solo dalla lunghezza del testo normale. Le informazioni vengono codificate utilizzando minuscole perturbazioni dei caratteri, modificando la larghezza del tratto, regolazione dell'altezza di ascendenti e discensori, o stringendo o allentando le curve in grazie e le ciotole di lettere come o, P, e B.

    "Cambiando qualsiasi lettera, segno di punteggiatura, o il simbolo in una forma leggermente diversa consente di modificare il significato del documento, "dice Xiao, l'autore principale del documento. "Queste informazioni nascoste, anche se non visibile agli umani, è leggibile dalla macchina proprio come i codici a barre e i codici QR sono immediatamente leggibili dai computer. Però, a differenza dei codici a barre e dei codici QR, FontCode non altera l'estetica visiva del materiale stampato, e la sua presenza può rimanere segreta."

    I dati nascosti utilizzando FontCode possono essere estremamente difficili da rilevare. Anche se un utente malintenzionato rileva i cambiamenti di carattere tra due testi, altamente improbabile data la sottigliezza delle perturbazioni, semplicemente non è pratico eseguire la scansione di ogni file in entrata e in uscita all'interno di un'azienda.

    Per di più, FontCode non solo incorpora ma può anche crittografare i messaggi. Mentre le perturbazioni sono memorizzate in una posizione numerata in un codebook, le loro posizioni non sono fisse. Le persone che desiderano comunicare attraverso documenti crittografati sarebbero d'accordo su una chiave privata che specifica le posizioni particolari, o ordine, di perturbazioni nel codebook.

    "La crittografia è solo un livello di protezione di backup nel caso in cui un utente malintenzionato possa rilevare l'uso di modifiche ai caratteri per trasmettere informazioni segrete, " dice Zheng. "È molto difficile vedere i cambiamenti, quindi sono davvero difficili da rilevare:questo rende FontCode una tecnica molto potente per ottenere dati oltre le difese esistenti."

    FontCode non è la prima tecnologia a nascondere un messaggio nel testo:esistono programmi per nascondere i messaggi nei file PDF e Word o per ridimensionare gli spazi bianchi per denotare uno 0 o 1, ma, dicono i ricercatori, è il primo ad essere indipendente dal documento e a conservare le informazioni segrete anche quando un documento o un'immagine con testo (PNG, JPG) viene stampato o convertito in un altro tipo di file. Ciò significa che un file FrameMaker o Word può essere convertito in PDF, o un JPEG può essere convertito in PNG, il tutto senza perdere le informazioni segrete.

    Per utilizzare FontCode, forniresti un messaggio segreto e un documento di testo del corriere. FontCode converte il messaggio segreto in una stringa di bit (ASCII o Unicode) e quindi in una sequenza di numeri interi. Ogni intero è assegnato a un blocco di cinque lettere nel testo normale in cui le posizioni numerate del codebook di ogni lettera si sommano all'intero.

    Il recupero dei messaggi nascosti è il processo inverso. Da un file digitale o da una fotografia scattata con uno smartphone, FontCode abbina ogni lettera perturbata alla perturbazione originale nel codebook per ricostruire il messaggio originale.

    La corrispondenza viene eseguita utilizzando le reti neurali convoluzionali (CNN). Riconoscere i caratteri disegnati da vettori (come quelli archiviati come PDF o creati con programmi come Illustrator) è semplice poiché le definizioni di forma e percorso sono leggibili dal computer. Però, è una storia diversa per PNG, IMMAGINE, e altri caratteri rasterizzati (o pixel), dove l'illuminazione cambia, diverse prospettive della fotocamera, oppure rumore o sfocatura possono mascherare una parte della lettera e impedire un facile riconoscimento.

    Mentre le CNN sono addestrate a tenere conto di tali distorsioni, gli errori di riconoscimento continueranno a verificarsi, e una sfida fondamentale per i ricercatori era garantire che un messaggio potesse sempre essere recuperato di fronte a tali errori. La ridondanza è un modo ovvio per recuperare le informazioni perse, ma non funziona bene con il testo poiché lettere e simboli ridondanti sono facili da individuare.

    Anziché, i ricercatori si sono rivolti al teorema del resto cinese di 1700 anni fa, che identifica un numero sconosciuto dal suo resto dopo che è stato diviso per diversi divisori. Il teorema è stato utilizzato per ricostruire informazioni mancanti in altri domini; in FontCode, i ricercatori lo utilizzano per recuperare il messaggio originale anche quando non tutte le lettere vengono riconosciute correttamente.

    "Immagina di avere tre variabili sconosciute, " dice Zheng. "Con tre equazioni lineari, dovresti essere in grado di risolvere per tutti e tre. Se aumenti il ​​numero di equazioni da tre a cinque, puoi risolvere le tre incognite purché conosci tre delle cinque equazioni."

    Utilizzando la teoria del resto cinese, i ricercatori hanno dimostrato di poter recuperare i messaggi anche quando il 25% delle perturbazioni delle lettere non è stato riconosciuto. In teoria il tasso di errore potrebbe superare il 25%.

    Gli autori, che hanno depositato un brevetto con Columbia Technology Ventures, prevede di estendere FontCode ad altre lingue e set di caratteri, compreso il cinese.

    "Siamo entusiasti dell'ampia gamma di applicazioni per FontCode, "dice Zheng, "dal software di gestione dei documenti, a codici QR invisibili, alla protezione dei documenti legali. FontCode potrebbe essere un punto di svolta".

    Lo studio è intitolato "FontCode:incorporare informazioni in documenti di testo utilizzando Glyph Perturbation".


    © Scienza https://it.scienceaq.com