Intel collabora con Novartis sull'uso di reti neurali profonde (DNN) per accelerare lo screening ad alto contenuto, un elemento chiave della prima scoperta di farmaci. Il team di collaborazione ha ridotto il tempo per addestrare i modelli di analisi delle immagini da 11 ore a 31 minuti, un miglioramento di oltre 20 volte.
Lo screening ad alto contenuto dei fenotipi cellulari è uno strumento fondamentale a supporto della scoperta precoce di farmaci. Il termine "alto contenuto" indica il ricco insieme di migliaia di caratteristiche predefinite (come dimensioni, forma, texture) che vengono estratte dalle immagini utilizzando le classiche tecniche di elaborazione delle immagini. Lo screening ad alto contenuto consente l'analisi di immagini microscopiche per studiare gli effetti di migliaia di trattamenti genetici o chimici su diverse colture cellulari.
La promessa del deep learning è che le caratteristiche dell'immagine rilevanti che possono distinguere un trattamento da un altro vengono apprese "automaticamente" dai dati. Applicando l'accelerazione della rete neurale profonda, i biologi e i data scientist di Intel e Novartis sperano di accelerare l'analisi degli schermi di imaging ad alto contenuto. In questo lavoro congiunto, il team si sta concentrando su immagini di microscopia intere invece di utilizzare un processo separato per identificare prima ogni cellula in un'immagine. Le immagini al microscopio intero possono essere molto più grandi di quelle che si trovano tipicamente nei set di dati di deep learning. Per esempio, le immagini utilizzate in questa valutazione sono più di 26 volte più grandi delle immagini tipicamente utilizzate dal noto set di dati ImageNet di animali, oggetti e scene.
Modelli di rete neurale convoluzionale profonda, per l'analisi di immagini al microscopio, in genere funzionano su milioni di pixel per immagine, milioni di parametri nel modello e forse migliaia di immagini di addestramento alla volta. Ciò costituisce un elevato carico computazionale. Anche con capacità di calcolo avanzate sull'infrastruttura informatica esistente, un'esplorazione più approfondita dei modelli DNN può essere proibitiva in termini di tempo.
Per risolvere queste sfide, la collaborazione sta applicando tecniche di accelerazione della rete neurale profonda per elaborare più immagini in un tempo significativamente inferiore, estraendo al contempo maggiori informazioni dalle caratteristiche dell'immagine che il modello alla fine apprende.
Il team di collaborazione con i rappresentanti di Novartis e Intel ha mostrato un miglioramento di oltre 20 volte1 nel tempo necessario per elaborare un set di dati di immagini 10K per la formazione. Utilizzando il set di dati Broad Bioimage Benchmark Collection 021 (BBBC-021), il team ha raggiunto un tempo di elaborazione totale di 31 minuti con una precisione superiore al 99%.
Per questo risultato, il team ha utilizzato otto server basati su CPU, un'interconnessione di tessuto ad alta velocità, e ottimizzato TensorFlow1. Sfruttando il principio fondamentale del parallelismo dei dati nella formazione di deep learning e la capacità di sfruttare appieno i vantaggi del supporto di grandi dimensioni di memoria sulla piattaforma server, il team è stato in grado di scalare fino a più di 120 immagini da 3,9 megapixel al secondo con 32 dipendenti TensorFlow.
Sebbene i metodi di deep learning supervisionati siano essenziali per accelerare la classificazione delle immagini e accelerare i tempi di comprensione, i metodi di deep learning dipendono da grandi set di dati etichettati da esperti per addestrare i modelli. Il tempo e lo sforzo manuale necessari per creare tali set di dati è spesso proibitivo. I metodi di apprendimento profondo non supervisionato, che possono essere applicati a immagini di microscopia non etichettate, mantengono la promessa di rivelare nuove intuizioni per la biologia cellulare e, in definitiva, la scoperta di farmaci. Questo sarà il fulcro dei continui sforzi in futuro.