I modelli di intelligenza artificiale imparano come svolgere tali compiti utilizzando una serie di dati annotati dagli esseri umani, ma il processo di distinzione delle cellule dal loro sfondo, chiamato “segmentazione a cellula singola”, è lungo e laborioso. Di conseguenza, la quantità di dati annotati da utilizzare nei set di addestramento AI è limitata. I ricercatori dell'UC Santa Cruz hanno sviluppato un metodo per risolvere questo problema costruendo un modello AI di generazione di immagini al microscopio per creare immagini realistiche di singole cellule, che vengono poi utilizzate come "dati sintetici" per addestrare un modello AI per eseguire meglio la segmentazione delle singole cellule.
"Le immagini che escono dal nostro modello sono pronte per essere utilizzate per addestrare modelli di segmentazione", ha affermato Shariati. "In un certo senso stiamo facendo la microscopia senza microscopio, nel senso che siamo in grado di generare immagini molto vicine alle immagini reali delle cellule in termini di dettagli morfologici della singola cellula. Il bello è che quando escono del modello, sono già annotate ed etichettate. Le immagini mostrano moltissime somiglianze con le immagini reali, il che ci consente quindi di generare nuovi scenari che non sono stati visti dal nostro modello durante l'addestramento."
Le immagini di singole cellule viste al microscopio possono aiutare gli scienziati a conoscere il comportamento e le dinamiche delle cellule nel tempo, a migliorare il rilevamento delle malattie e a trovare nuovi farmaci. I dettagli subcellulari come la struttura possono aiutare i ricercatori a rispondere a domande importanti, ad esempio se una cellula è cancerosa o meno.
Tuttavia, trovare ed etichettare manualmente i confini delle cellule dal loro sfondo è estremamente difficile, soprattutto nei campioni di tessuto in cui sono presenti molte cellule in un'immagine. I ricercatori potrebbero impiegare diversi giorni per eseguire manualmente la segmentazione cellulare su sole 100 immagini al microscopio.
Il deep learning può accelerare questo processo, ma per addestrare i modelli è necessario un set di dati iniziale di immagini annotate:sono necessarie almeno migliaia di immagini come base per addestrare un modello di deep learning accurato. Anche se i ricercatori riescono a trovare e annotare 1.000 immagini, tali immagini potrebbero non contenere la variazione delle caratteristiche che appaiono nelle diverse condizioni sperimentali.