Panoramica di MMACE. L'input è una molecola da prevedere. Lo spazio chimico è ampliato e raggruppato. I controfattuali vengono selezionati dai cluster per trovare una spiegazione succinta della previsione della molecola di base. Credito:Scienze chimiche (2022). DOI:10.1039/D1SC05259D
Gli scienziati si affidano sempre più a modelli addestrati con l'apprendimento automatico per fornire soluzioni a problemi complessi. Ma come facciamo a sapere che le soluzioni sono affidabili quando i complessi algoritmi utilizzati dai modelli non sono facilmente interrogabili o in grado di spiegare le loro decisioni agli esseri umani?
Tale fiducia è particolarmente cruciale nella scoperta di farmaci, ad esempio, dove l'apprendimento automatico viene utilizzato per selezionare milioni di composti potenzialmente tossici per determinare quali potrebbero essere candidati sicuri per i farmaci.
"Ci sono stati alcuni incidenti di alto profilo nell'informatica in cui un modello poteva prevedere le cose abbastanza bene, ma le previsioni non erano basate su nulla di significativo", afferma Andrew White, professore associato di ingegneria chimica presso l'Università di Rochester, in un'intervista con il mondo della chimica.
White e il suo laboratorio hanno sviluppato un nuovo metodo "controfattuale", descritto in Scienze chimiche , che può essere utilizzato con qualsiasi modello di apprendimento automatico basato su struttura molecolare per comprendere meglio come il modello è arrivato a una conclusione.
I controfattuali possono dire ai ricercatori "il più piccolo cambiamento alle caratteristiche che altererebbe la previsione", afferma l'autore principale Geemi Wellawatte, un Ph.D. studente nel laboratorio di White. "In altre parole, un controfattuale è un esempio il più vicino all'originale, ma con un esito diverso."
I controfattuali possono aiutare i ricercatori a individuare rapidamente il motivo per cui un modello ha effettuato una previsione e se è valida.
Il documento identifica tre esempi di come il nuovo metodo, chiamato MMACE (Molecular Model Agonistic Counterfactual Explanations), può essere utilizzato per spiegare perché:
Il laboratorio ha dovuto superare alcune sfide importanti nello sviluppo di MMACE. Avevano bisogno di un metodo che potesse essere adattato all'ampia gamma di metodi di apprendimento automatico utilizzati in chimica. Inoltre, anche la ricerca della molecola più simile per un dato scenario è stata impegnativa a causa dell'enorme numero di possibili molecole candidate.
Da sinistra:la studentessa di dottorato Geemi Wellawatte, Andrew White, professore associato di ingegneria chimica, e Aditi Seshadri '22 a Wegmans Hall. Il laboratorio di White ha sviluppato un modo per verificare le previsioni dei modelli di apprendimento automatico utilizzati nella scoperta di farmaci utilizzando controfattuali. Credito:Università di Rochester/J. Adam Fenster
Il coautore Aditi Seshadri nel laboratorio di White ha aiutato a risolvere questo problema suggerendo al gruppo di adattare l'algoritmo STONED (Superfast traversal, optimization, novelty, explore, and discovery) sviluppato presso l'Università di Toronto. STONED genera efficientemente molecole simili, il carburante per la generazione controfattuale. Seshadri è un ricercatore universitario nel laboratorio di White ed è stato in grado di aiutare nel progetto tramite un programma di ricerca estivo di Rochester chiamato "Discover".
White afferma che il suo team sta continuando a migliorare MMACE, provando altri database nella ricerca delle molecole più simili, ad esempio, e perfezionando la definizione di somiglianza molecolare. + Esplora ulteriormente