• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Rilevamento rapido di oggetti nei video utilizzando l'imballaggio della regione di interesse

    Campione di frame consecutivi elaborati con il meccanismo di impacchettamento ROI. Credito:Athindran et al.

    Ricercatori del Robert Bosch Center for Data Science and Artificial Intelligence e Center for Computational Brain Research, Istituto Indiano di Tecnologia Madras, e la Purdue University hanno recentemente sviluppato un nuovo metodo per ridurre i requisiti computazionali per il rilevamento di oggetti nei video utilizzando le reti neurali. La loro tecnica, chiamato Pack and Detect (PaD), è stato delineato in un documento pre-pubblicato su arXiv.

    Il rilevamento degli oggetti è un aspetto chiave di molte applicazioni di visione artificiale, come il tracciamento di oggetti, sintesi video, e ricerca video. Mentre i recenti progressi nell'apprendimento automatico hanno portato allo sviluppo di strumenti sempre più accurati per completare questo compito, i metodi esistenti sono ancora computazionalmente molto intensivi. Ad esempio, elaborazione di un video a una risoluzione di 300 x 300 utilizzando la rete di rilevamento oggetti SSD300, con VGG16 come backbone ea 30 fps richiede 1,87 trilioni di operazioni in virgola mobile al secondo (FLOPS).

    I ricercatori hanno osservato che in alcuni casi, però, la maggior parte delle regioni in un fotogramma video sono semplicemente sfondo, con oggetti salienti che occupano solo una piccola frazione dell'area nell'inquadratura. Inoltre, hanno scoperto che esiste una forte correlazione temporale tra frame consecutivi. Hanno sfruttato queste osservazioni e proposto una nuova tecnica per il rilevamento degli oggetti nei video che potrebbe ridurre i requisiti di calcolo per le attività di rilevamento degli oggetti.

    "Siamo stati ispirati dal meccanismo foveale nei sistemi di visione sia biologici che artificiali, "Athindran Ramesh Kumar, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Gli sforzi precedenti relativi ai meccanismi di attenzione foveale nei sistemi di visione artificiale si concentrano su una sola regione dell'immagine o su un oggetto alla volta. Ci siamo chiesti come sarebbe un sistema di visione se potesse concentrarsi su tutte le regioni salienti della scena contemporaneamente. ."

    Il metodo di rilevamento degli oggetti ideato dai ricercatori è quindi ispirato ai sistemi di visione biologica. Però, contrariamente ai tentativi precedenti, il loro sistema racchiude tutte le regioni di interesse insieme in un unico frame, invece di elaborarli in sequenza.

    "L'obiettivo del nostro lavoro era velocizzare il rilevamento degli oggetti nei video, concentrandoci solo sulle regioni salienti dell'inquadratura ed eliminando il disordine sullo sfondo, " Balaraman Ravindran, un altro ricercatore che ha condotto lo studio, ha detto a TechXplore. "Per eliminare il disordine sullo sfondo, abbiamo sfruttato la correlazione temporale tra frame adiacenti in un video. Questa è una proprietà utilizzata dalle tecniche di compressione video per ridurre i requisiti di archiviazione e larghezza di banda; lo usiamo per accelerare il calcolo."

    pad, il metodo di rilevamento degli oggetti proposto da Ravindran e dai suoi colleghi funziona elaborando i frame a intervalli regolari a grandezza naturale. Questi frame sono indicati come "frame di ancoraggio". In tutti gli altri quadri, d'altra parte, lo strumento identifica le regioni di interesse in base alla posizione in cui si trovavano gli oggetti nel frame precedente.

    "Queste regioni di interesse sono disposte insieme come in un collage, che viene utilizzato come ingresso per il rilevatore di oggetti, "Anand Raghunathan, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "I rilevamenti vengono quindi mappati alle posizioni nell'immagine originale. Questo metodo è più veloce perché le immagini del collage sono di dimensioni inferiori rispetto ai fotogrammi completi. Sfruttiamo la flessibilità dei rilevatori di oggetti popolari come SSD300 per elaborare le immagini sia a grandezza naturale e taglie più piccole."

    I ricercatori hanno valutato il loro metodo sul set di dati ImageNet VID e hanno scoperto che ha accelerato i tempi di 1,25 volte, con un calo di precisione inferiore all'1,6%. Inoltre, hanno osservato che il tempo impiegato per elaborare i frame di dimensioni inferiori era quasi tre volte inferiore, con il conteggio FLOP ridotto di quattro volte.

    Inoltre, il loro studio ha evidenziato due aspetti importanti che potrebbero informare lo sviluppo di metodi più veloci e meno intensivi dal punto di vista computazionale per rilevare gli oggetti nei video. Primo, gli oggetti di interesse generalmente occupano solo una piccola frazione di pixel in un frame; secondo, esiste una correlazione tra fotogrammi adiacenti in un video.

    "Il nostro lavoro può aiutare a rendere possibile l'analisi video su dispositivi con risorse limitate ai margini dell'Internet of Things riducendo i requisiti di calcolo, o può migliorare il numero di flussi video che possono essere elaborati da un server nel cloud, " ha detto Athindra.

    Lo studio condotto da questo team di ricercatori è un primo passo verso lo sviluppo di strumenti di rilevamento degli oggetti più efficaci. Ora stanno pianificando ulteriori indagini che potrebbero migliorare ulteriormente il loro metodo.

    Ad esempio, attualmente, PaD seleziona i telai di ancoraggio a intervalli regolari, tuttavia i ricercatori potrebbero sviluppare un meccanismo che identifichi dinamicamente questi fotogrammi chiave. Hanno anche in programma di testare la loro tecnica in hardware con risorse più limitate, come smartphone, dispositivi indossabili ed elettrodomestici intelligenti.

    "Abbiamo creato un algoritmo per dedurre le regioni di interesse e formare un'immagine collage, " Ha detto Ravindran. "Ma un sistema completamente neurale avrebbe reti neurali che generano l'immagine del collage basata sul fotogramma precedente. Questa è una linea più ambiziosa di lavoro futuro".

    © 2018 Tech Xplore




    © Scienza https://it.scienceaq.com