• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Un metodo basato sulla CNN per lo script di formule matematiche e l'identificazione del tipo

    Il sistema basato sulla CNN per lo script di simboli e l'identificazione del tipo. Credito:Khazri &Echi.

    I ricercatori dell'Università di Tunisi hanno recentemente proposto un nuovo sistema per la scrittura di formule matematiche e l'identificazione dei tipi, che si basa su reti neurali convoluzionali (CNN). Il loro metodo, presentato in un articolo pubblicato da Springer, può discriminare automaticamente tra formule stampate/scritte a mano e arabe/latine.

    Negli ultimi anni, i ricercatori hanno cercato di sviluppare sistemi in grado di identificare le forme in cui viene presentato un documento, come la lingua utilizzata e se il testo è stampato a macchina o scritto a mano, al fine di selezionare il sistema di riconoscimento appropriato per ciascun documento. La maggior parte di questi approcci si concentra sull'identificazione di diverse forme di testo, mentre pochissimi sono progettati per analizzare formule matematiche.

    "In tale contesto, presentiamo un nuovo approccio che affronta il problema dell'identificazione del copione, arabo o latino; e il tipo, scritti a mano o stampati a macchina, di formule matematiche, I ricercatori dell'Università di Tunisi hanno scritto nel loro articolo. "Questo lavoro fa parte della nostra ricerca sul riconoscimento offline delle formule matematiche arabe".

    Nel loro studio, i ricercatori hanno presentato un sistema guidato dalla sintassi progettato per riconoscere i simboli e analizzare la loro disposizione. Per riconoscere i simboli, il loro approccio utilizza caratteristiche statistiche e un classificatore di rete Bayes.

    Per analizzare la struttura di una formula, il loro sistema utilizza uno schema di analisi top-down e bottom-up basato sul dominio dell'operatore. In altre parole, il loro sistema svolge un lessico, analisi geometrica e sintattica di una formula, che lo aiuta a identificare la sua scrittura (latino contro arabo) e se è stata scritta a mano o dattiloscritta a macchina.

    "L'analisi delle formule consiste nell'applicare, dall'operatore dominante e dal suo contesto, la regola opportuna per suddividere le formule in sottoformule, che sarà analizzato ricorsivamente allo stesso modo, " hanno spiegato i ricercatori nel loro articolo.

    Utilizzando una CNN, l'approccio ideato dai ricercatori prima estrae e poi classifica i componenti collegati di una formula. I ricercatori hanno addestrato e valutato il loro sistema utilizzando formule in caratteri latini dai database InftyMDB-1 e CROHME, così come formule arabe scansionate da libri di matematica o scritte a mano da cinque diversi scrittori.

    "Il sistema di riconoscimento proposto è stato testato su formule matematiche complesse contenenti moltiplicazioni implicite, pedici e apici, con risultati soddisfacenti, " hanno scritto i ricercatori. "Aggiungendo più funzionalità, testare altri algoritmi di selezione delle funzionalità e scegliere classificatori più veloci dovrebbe migliorare le prestazioni del sistema proposto".

    Globale, le valutazioni effettuate dai ricercatori hanno prodotto risultati molto promettenti, con il loro sistema che raggiunge un tasso di identificazione del 94,6%. Anche il parser che hanno usato per analizzare la struttura delle formule sembra essere molto robusto, in quanto ha raggiunto un impressionante tasso di riconoscimento del 97,63 percento. Nel loro lavoro futuro, i ricercatori intendono migliorare le prestazioni del loro sistema sviluppando ulteriormente i filtri e l'architettura della CNN.

    © 2019 Scienza X Rete




    © Scienza https://it.scienceaq.com