L'architettura di OnHS-LSTM. Credito:Akouaydi et al.
Ricercatori dell'Università di Sfax, in Tunisia, hanno recentemente sviluppato un nuovo metodo per riconoscere caratteri e simboli scritti a mano negli script online. La loro tecnica, presentato in un articolo pre-pubblicato su arXiv, ha già ottenuto notevoli prestazioni su testi scritti sia in alfabeto latino che arabo.
Negli ultimi anni, i ricercatori hanno creato architetture basate su reti neurali in grado di affrontare una varietà di compiti, compresa la classificazione delle immagini, riconoscimento facciale, elaborazione del linguaggio naturale (PNL), e molti altri. I sistemi di riconoscimento della scrittura a mano sono strumenti informatici progettati specificamente per riconoscere caratteri e altri simboli scritti a mano in modo simile agli umani.
Nei loro primi anni di vita, infatti, gli esseri umani sviluppano in modo innato la capacità di comprendere diversi tipi di scrittura identificando caratteri specifici sia individualmente che quando raggruppati. Negli ultimi dieci anni o giù di lì, molti studi hanno cercato di replicare questa capacità nei sistemi informatici, poiché ciò alla fine consentirebbe analisi più avanzate e automatiche dei testi scritti a mano.
"Il nostro documento affronta il problema del riconoscimento di script scritti a mano online basato su un sistema di funzionalità di estrazione e un sistema di approccio profondo per la classificazione delle sequenze, " hanno scritto i ricercatori nel loro articolo. "Abbiamo utilizzato un metodo esistente combinato con nuovi classificatori per ottenere un sistema flessibile".
Nella loro carta, i ricercatori dell'Università di Sfax presentano due sistemi basati su reti neurali profonde:un sistema di segmentazione e riconoscimento della scrittura a mano online che utilizza una rete di memoria a lungo e breve termine (OnHSR-LSTM) e un sistema di riconoscimento della scrittura a mano online composto da un rete di memoria a termine (OnHR-covLSTM).
L'architettura di (a) OnHR-convLSTM, (b) la cella convLSTM. Credito:Akouaydi et al.
Il loro primo modello, soprannominato OnHSR-LSTM, si basa su una teoria che descrive il sistema percettivo umano come mezzo per trasformare il linguaggio da segni grafici in rappresentazioni simboliche. Funziona rilevando proprietà comuni di simboli o caratteri e quindi disponendoli secondo leggi percettive specifiche, ad esempio, basata sulla vicinanza, somiglianza, eccetera.
"Finalmente, it [il modello] tenta di costruire una rappresentazione della forma scritta a mano basata sul presupposto che la percezione della forma è l'identificazione di caratteristiche di base che sono disposte fino a quando non identifichiamo un oggetto, " hanno spiegato i ricercatori nel loro articolo. "Pertanto, la rappresentazione della scrittura è una combinazione di tratti primitivi. La scrittura a mano è una sequenza di codici di base che vengono raggruppati insieme per definire un carattere o una forma."
La prima tecnica proposta dai ricercatori divide essenzialmente uno script scritto a mano in singoli tratti ellittici utilizzando un modello di generazione della scrittura a mano. Successivamente, questi tratti sono classificati in codici primitivi, che vengono utilizzati dall'architettura neurale per riconoscere le parole negli script scritti a mano online.
Il secondo sistema proposto dai ricercatori, OnHR-convLSTM, è un modello generativo che utilizza il segnale online di uno script come input ed è addestrato a prevedere sia i caratteri che le parole. Questa seconda tecnica è particolarmente utile per le attività di apprendimento in sequenza (cioè attività che comportano l'elaborazione e la classificazione di lunghe sequenze di caratteri e simboli).
I ricercatori hanno addestrato e valutato entrambi i loro sistemi utilizzando cinque diversi database contenenti script scritti a mano negli alfabeti arabo e latino. I loro test hanno prodotto risultati notevoli, con entrambi i sistemi che raggiungono tassi di riconoscimento di oltre il 98 percento. interessante, i ricercatori hanno scoperto che le prestazioni di entrambe le tecniche sono paragonabili a quelle tipicamente raggiunte da soggetti umani in compiti simili.
"Ora abbiamo in programma di sviluppare e testare i nostri sistemi di riconoscimento proposti su un database su larga scala e altri script, " hanno scritto i ricercatori.
© 2019 Scienza X Rete