Fig. 1. Confronto di set di dati annotati manualmente e set di dati sintetici generati automaticamente. Il metodo convenzionale richiede che le immagini siano etichettate a mano quando viene prodotto il set di formazione, mentre il nostro sistema proposto può creare automaticamente dati sintetici con annotazioni di istanze utilizzando risorse digitali da un gemello digitale della città. Credito:Journal of Computational Design and Engineering (2022). DOI:10.1093/jcde/qwac086
I motori di gioco sono stati originariamente sviluppati per costruire mondi immaginari per l'intrattenimento. Tuttavia, questi stessi motori possono essere utilizzati per creare copie di ambienti reali, ovvero gemelli digitali. I ricercatori dell'Università di Osaka hanno trovato un modo per utilizzare le immagini generate automaticamente dalle città gemelle digitali per addestrare modelli di deep learning in grado di analizzare in modo efficiente le immagini di città reali e separare accuratamente gli edifici che vi appaiono.
Una rete neurale convoluzionale è una rete neurale di apprendimento profondo progettata per l'elaborazione di matrici strutturate di dati come le immagini. Tali progressi nell'apprendimento profondo hanno cambiato radicalmente il modo in cui vengono eseguiti compiti, come la segmentazione dell'architettura. Tuttavia, un modello accurato di rete neurale convoluzionale profonda (DCNN) richiede un grande volume di dati di addestramento etichettati e l'etichettatura di questi dati può essere un'impresa manuale lenta ed estremamente costosa.
Per creare i dati sintetici del gemello digitale della città, gli investigatori hanno utilizzato un modello 3D della città dalla piattaforma PLATEAU, che contiene modelli 3D della maggior parte delle città giapponesi con un livello di dettaglio estremamente elevato. Hanno caricato questo modello nel motore di gioco Unity e hanno creato una configurazione della telecamera su un'auto virtuale, che girava per la città e acquisiva le immagini dei dati virtuali in varie condizioni di illuminazione e meteorologiche. L'API di Google Maps è stata quindi utilizzata per ottenere immagini reali a livello stradale della stessa area di studio per gli esperimenti.
Fig. 2. Modello di città tridimensionale della nostra area di studio. (a) Esempio di gemello digitale cittadino con la sua controparte con vista stradale nel mondo reale (Wangan-doro Avenue, Tokyo; marzo 2021; latitudine:35,6283, longitudine:139,7782). (b) Veduta aerea del gemello digitale cittadino. Credito:CC BY, 2022 Jiaxin Zhang et al., Generazione automatica di set di dati sintetici da un gemello digitale della città da utilizzare nella segmentazione dell'istanza delle facciate degli edifici, Journal of Computational Design and Engineering
I ricercatori hanno scoperto che i dati del gemello della città digitale portano a risultati migliori rispetto ai dati puramente virtuali senza una controparte nel mondo reale. Inoltre, l'aggiunta di dati sintetici a un set di dati reale migliora l'accuratezza della segmentazione. Tuttavia, cosa più importante, gli investigatori hanno scoperto che quando una certa frazione di dati reali è inclusa nel set di dati sintetici del gemello della città digitale, l'accuratezza della segmentazione del DCNN viene aumentata in modo significativo. In effetti, le sue prestazioni diventano competitive con quelle di un DCNN addestrato su dati reali al 100%.
"Questi risultati rivelano che il nostro set di dati sintetico proposto potrebbe potenzialmente sostituire tutte le immagini reali nel set di addestramento", afferma Tomohiro Fukuda, l'autore corrispondente del documento.
Fig. 3. Risultati qualitativi per diversi tipi e dimensioni di edifici quando Mask R-CNN viene addestrato utilizzando set di dati HSRBFIA (Hybrid Collection of Synthetic and Real-world Building Facade Images and Annotations) con diversi rapporti tra dati sintetici e reali:(a) case basse a Osaka; (b) case di pochi piani a Los Angeles; (c) grattacieli a New York City; (d) facciate complesse a Shanghai. (I rettangoli tratteggiati rossi evidenziano parti delle immagini della vista stradale che erano soggette a guasti durante la segmentazione dell'istanza della facciata.). Credito:CC BY, 2022 Jiaxin Zhang et al., Generazione automatica di set di dati sintetici da un gemello digitale della città da utilizzare nella segmentazione dell'istanza delle facciate degli edifici, Journal of Computational Design and Engineering
La separazione automatica delle singole facciate di edifici che appaiono in un'immagine è utile per la gestione della costruzione e la progettazione architettonica, misurazioni su larga scala per retrofit e analisi energetiche e persino per visualizzare facciate di edifici che sono state demolite. Il sistema è stato testato su più città, dimostrando la trasferibilità del quadro proposto. Il set di dati ibrido di dati reali e sintetici produce risultati di previsione promettenti per la maggior parte degli stili architettonici moderni. Ciò lo rende un approccio promettente per l'addestramento dei DCNN per le attività di segmentazione dell'architettura in futuro, senza la necessità di costose annotazioni manuali dei dati.
Lo studio è pubblicato nel Journal of Computational Design and Engineering . + Esplora ulteriormente