• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Il nuovo approccio AI colma il divario di dati ridotti che può ostacolare gli approcci di deep learning

    La rete di deep learning del PNNL affronta difficili problemi di chimica con l'aiuto di un po' di pre-formazione. Attestazione:Timothy Holland/PNNL

    Gli scienziati hanno sviluppato una rete neurale profonda che aggira un problema che ha vanificato gli sforzi per applicare l'intelligenza artificiale per affrontare la chimica complessa:una carenza di dati chimici etichettati con precisione. Il nuovo metodo offre agli scienziati uno strumento aggiuntivo per applicare il deep learning per esplorare la scoperta di farmaci, nuovi materiali per la produzione, e una serie di altre applicazioni.

    La previsione delle proprietà chimiche e delle reazioni tra milioni e milioni di composti è uno dei compiti più ardui che gli scienziati devono affrontare. Non esiste una fonte di informazioni complete da cui un programma di deep learning possa attingere. Generalmente, una tale carenza di una grande quantità di dati puliti è uno spettacolo per un progetto di deep learning.

    Gli scienziati del Pacific Northwest National Laboratory del Department of Energy hanno scoperto un modo per aggirare il problema. Hanno creato un sistema di pre-formazione, una specie di tutorial accelerato in cui forniscono al programma alcune informazioni di base sulla chimica, dotarlo di imparare dalle sue esperienze, quindi sfida il programma con enormi set di dati.

    Il lavoro è stato presentato al KDD2018, la conferenza sulla scoperta della conoscenza e il data mining, a Londra.

    Gatti, cani, e dati puliti

    Per le reti di deep learning, dati abbondanti e chiari sono stati a lungo la chiave del successo. Nel dialogo gatto contro cane che infiamma le discussioni sui sistemi di intelligenza artificiale, i ricercatori riconoscono l'importanza dei "dati etichettati:una foto di un gatto è contrassegnata come un gatto, un cane è contrassegnato come un cane, e così via. Avere molti, tante foto di cani e gatti, chiaramente contrassegnato come tale, è un buon esempio del tipo di dati che gli scienziati dell'IA amano avere. Le foto forniscono punti di dati chiari che una rete neurale può utilizzare per imparare mentre inizia a differenziare i gatti dai cani.

    Credito:Pacific Northwest National Laboratory

    Ma la chimica è più complessa che separare i gatti dai cani. Centinaia di fattori influenzano la promiscuità di una molecola, e migliaia di interazioni possono avvenire in un lampo di un secondo. I ricercatori di intelligenza artificiale in chimica si trovano spesso di fronte a set di dati piccoli ma approfonditi o set di dati enormi ma incoerenti:pensa a 100 immagini chiare di chihuahua o a 10 milioni di immagini di macchie pelose. Nessuno dei due è ideale o addirittura realizzabile da solo.

    Quindi gli scienziati hanno creato un modo per colmare il divario, combinando il meglio di "dati sottili ma buoni" con "dati grandi ma scarsi".

    Il gruppo, guidato dall'ex scienziato del PNNL Garrett Goh, impiegava una tecnica nota come apprendimento supervisionato basato su regole. Gli scienziati puntano la rete neurale verso un vasto archivio di dati chimici noto come ChEMBL, e generano etichette basate su regole per ciascuna di queste numerose molecole, per esempio calcolando la massa della molecola. La rete neurale elabora i dati grezzi, apprendere i principi della chimica che mettono in relazione la molecola con le impronte chimiche di base. Prendendo la rete neurale addestrata sui dati basati su regole, gli scienziati lo hanno presentato con il piccolo, ma di alta qualità, set di dati contenente le proprietà finali da prevedere.

    Il pre-allenamento ha dato i suoi frutti. Il programma, chiamato ChemNet, raggiunto un livello di conoscenza e precisione quanto più accurato o superiore agli attuali migliori modelli di deep learning disponibili quando si analizzano le molecole per la loro tossicità, il loro livello di attività biochimica correlata all'HIV, e il loro livello di un processo chimico noto come solvatazione. Il programma lo ha fatto con dati molto meno etichettati rispetto ai suoi omologhi e ha ottenuto i risultati con meno calcoli, che si traduce in prestazioni più veloci.


    © Scienza https://it.scienceaq.com