• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Un nuovo modello per recuperare immagini basate su schizzi

    Illustrazione dell'architettura Semi3-Net. Credito:Lei et al.

    Negli ultimi anni, i ricercatori hanno sviluppato tecniche computazionali sempre più avanzate, come algoritmi di deep learning, per completare una serie di compiti. Un'attività che hanno cercato di affrontare è nota come "recupero di immagini basato su schizzi" (SBIR).

    Le attività SBIR comportano il recupero di immagini di un particolare oggetto o concetto visivo in un'ampia raccolta o database basato su schizzi realizzati da utenti umani. Per automatizzare questa attività, i ricercatori hanno cercato di sviluppare strumenti in grado di analizzare schizzi umani e identificare immagini correlate allo schizzo o contenenti lo stesso oggetto.

    Nonostante i promettenti risultati ottenuti da alcuni di questi strumenti, lo sviluppo di tecniche che si comportano costantemente bene sui compiti SBIR si è finora dimostrato impegnativo. Ciò è dovuto principalmente alle forti differenze visive tra schizzi astratti e immagini reali. Ad esempio, gli schizzi fatti dagli umani sono spesso deformati e astratti, che li rende più difficili da relazionarsi con gli oggetti nelle immagini reali.

    Per vincere questa sfida, i ricercatori dell'Università di Tianjin e dell'Università delle poste e telecomunicazioni di Pechino in Cina hanno recentemente sviluppato un'architettura basata su rete neurale che apprende rappresentazioni discriminanti di caratteristiche tra domini per attività di recupero di immagini basate su schizzi (SBIR). La tecnica che hanno creato, presentato in un articolo pre-pubblicato su arXiv, combina una varietà di tecniche computazionali, inclusa la mappatura delle caratteristiche semi-eterogenee, modelli congiunti di inclusione semantica e co-attenzione.

    "L'intuizione chiave sta nel modo in cui coltiviamo le relazioni reciproche e sottili tra gli schizzi, immagini naturali e mappe dei bordi, " hanno scritto i ricercatori nel loro articolo. "La mappatura delle caratteristiche semi-eterogenee è progettata per estrarre le caratteristiche inferiori da ciascun dominio, dove i rami dello schizzo e della mappa dei bordi sono condivisi mentre il ramo dell'immagine naturale è eterogeneo rispetto ad altri rami."

    Il modello progettato dai ricercatori è una rete di inclusione congiunta a tre vie semieterogenea (Semi3-Net). Oltre alla mappatura semi-eterogenea, utilizza una tecnica nota come inclusione semantica congiunta. L'incorporamento semantico consente alla rete di incorporare funzionalità di diversi domini (ad es. da schizzi o fotografie) in uno spazio semantico comune di alto livello. Semi3-Net incorpora anche un modello di co-attenzione, che è progettato per ricalibrare le caratteristiche estratte dai due diversi domini.

    Finalmente, i ricercatori hanno progettato un meccanismo di perdita ibrida in grado di calcolare la correlazione tra schizzi, mappe dei bordi e immagini naturali. Questo meccanismo consente al modello Semi3-Net di apprendere rappresentazioni che sono invarianti tra i due domini (cioè, schizzi e immagini scattate con macchine fotografiche).

    I ricercatori hanno formato e valutato Semi3-Net sui dati di Sketchy e TU-Berlin Extension, due set di dati ampiamente utilizzati negli studi incentrati sui compiti SBIR. Il database Sketchy contiene 75, 471 schizzi e 12, 500 immagini naturali, mentre TU-Berlin Extension contiene 204, 489 immagini naturali e 20, 000 schizzi disegnati a mano.

    Finora, Semi3-Net ha ottenuto ottimi risultati in tutti gli esperimenti condotti dai ricercatori, superando altri modelli all'avanguardia per SBIR. Il team sta ora pianificando di continuare a lavorare sul modello e migliorare ulteriormente le sue prestazioni, magari anche adattandolo per affrontare altri problemi che richiedono la connessione di dati provenienti da domini diversi.

    "Nel futuro, ci concentreremo sull'estensione della rete interdominio proposta al recupero di immagini a grana fine e sull'apprendimento della corrispondenza dei dettagli a grana fine per le coppie schizzo-immagine, " hanno scritto i ricercatori nel loro articolo.

    © 2019 Scienza X Rete




    © Scienza https://it.scienceaq.com