• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Insegnare ai computer per guidare la scienza:il metodo di apprendimento automatico vede foreste e alberi

    Credito:CC0 Dominio Pubblico

    Anche se potrebbe essere l'era dei supercomputer e dei "big data, " senza metodi intelligenti per estrarre tutti quei dati, sono solo tanti detriti digitali. Ora i ricercatori del Lawrence Berkeley National Laboratory (Berkeley Lab) del Dipartimento dell'Energia e dell'UC Berkeley hanno escogitato un nuovo metodo di apprendimento automatico che consente agli scienziati di ricavare informazioni da sistemi di complessità precedentemente intrattabili in tempi record.

    In un articolo pubblicato di recente su Atti dell'Accademia Nazionale delle Scienze ( PNAS ), i ricercatori descrivono una tecnica chiamata "foreste casuali iterative, " che, secondo loro, potrebbe avere un effetto trasformativo su qualsiasi area della scienza o dell'ingegneria con sistemi complessi, compresa la biologia, medicina di precisione, scienza dei materiali, scienza ambientale, e produzione, per dirne alcuni.

    "Prendi una cellula umana, Per esempio. Ci sono 10 170 possibili interazioni molecolari in una singola cellula. Ciò crea notevoli sfide informatiche nella ricerca di relazioni, " ha detto Ben Brown, capo del dipartimento di biologia degli ecosistemi molecolari del Berkeley Lab. "Il nostro metodo consente l'identificazione di interazioni di ordine elevato allo stesso costo computazionale degli effetti principali, anche quando tali interazioni sono locali con effetti marginali deboli".

    Brown e Bin Yu di UC Berkeley sono i principali autori senior di "Foreste casuali iterative per scoprire interazioni di ordine elevato predittive e stabili". I co-primi autori sono Sumanta Basu (ex postdoc congiunto di Brown e Yu e ora assistente professore alla Cornell University) e Karl Kumbier (uno studente di dottorato di Yu nel dipartimento di statistica dell'UC Berkeley). Il documento è il culmine di tre anni di lavoro che gli autori ritengono trasformeranno il modo in cui viene svolta la scienza. "Con il nostro metodo possiamo ottenere informazioni radicalmente più ricche di quelle che siamo mai stati in grado di ottenere da una macchina per l'apprendimento, " disse Bruno.

    Le esigenze dell'apprendimento automatico nella scienza sono diverse da quelle dell'industria, dove l'apprendimento automatico è stato utilizzato per cose come giocare a scacchi, fare auto a guida autonoma, e prevedere il mercato azionario.

    "Il machine learning sviluppato dall'industria è ottimo se vuoi fare trading ad alta frequenza sul mercato azionario, " Brown ha detto. "Non ti interessa il motivo per cui sei in grado di prevedere che il titolo salirà o scenderà. Vuoi solo sapere che puoi fare le previsioni".

    Ma nella scienza, le domande che circondano il motivo per cui un processo si comporta in determinati modi sono fondamentali. Comprendere il "perché" consente agli scienziati di modellare o persino ingegnerizzare i processi per migliorare o raggiungere un risultato desiderato. Di conseguenza, l'apprendimento automatico per la scienza ha bisogno di sbirciare all'interno della scatola nera e capire perché e come i computer hanno raggiunto le conclusioni a cui sono giunti. Un obiettivo a lungo termine è utilizzare questo tipo di informazioni per modellare o progettare sistemi per ottenere i risultati desiderati.

    In sistemi altamente complessi, che si tratti di una singola cella, il corpo umano, o anche un intero ecosistema - ci sono un gran numero di variabili che interagiscono in modi non lineari. Ciò rende difficile, se non impossibile, costruire un modello in grado di determinare causa ed effetto. "Sfortunatamente, in biologia, ti imbatti in interazioni di ordine 30, 40, 60 sempre, "Ha detto Brown. "È completamente intrattabile con gli approcci tradizionali all'apprendimento statistico".

    Il metodo sviluppato dal team guidato da Brown e Yu, foreste casuali iterative (iRF), si basa su un algoritmo chiamato foreste casuali, uno strumento di modellazione predittiva popolare ed efficace, tradurre gli stati interni dello studente scatola nera in una forma interpretabile dall'uomo. Il loro approccio consente ai ricercatori di cercare interazioni complesse disaccoppiando l'ordine, o taglia, di interazioni dal costo computazionale di identificazione.

    "Non c'è differenza nel costo computazionale di rilevare un'interazione di ordine 30 rispetto a un'interazione di ordine due, " ha detto Brown. "E questo è un cambiamento epocale".

    Nel documento PNAS, gli scienziati hanno dimostrato il loro metodo su due problemi di genomica, il ruolo dei potenziatori genici nell'embrione del moscerino della frutta e lo splicing alternativo in una linea cellulare di derivazione umana. In entrambi i casi, l'utilizzo dell'iRF ha confermato i risultati precedenti, scoprendo anche interazioni di ordine superiore precedentemente non identificate per lo studio di follow-up.

    Brown ha affermato che ora stanno utilizzando il loro metodo per progettare sistemi laser phased array e ottimizzare i sistemi di agricoltura sostenibile.

    "Crediamo che questo sia un paradigma diverso per fare scienza, " ha detto Yu, un professore nei dipartimenti di Statistica e Ingegneria Elettrica e Informatica presso l'UC Berkeley. "Facciamo previsione, ma introduciamo la stabilità oltre alla previsione in iRF per apprendere in modo più affidabile la struttura sottostante nei predittori".

    "Questo ci consente di imparare come progettare sistemi per l'ottimizzazione orientata agli obiettivi e simulazioni mirate più accuratamente ed esperimenti di follow-up, " aggiunse Bruno.

    In un commento PNAS sulla tecnica, Danielle Denisko e Michael Hoffman dell'Università di Toronto hanno scritto:"iRF è molto promettente come modo nuovo ed efficace per rilevare le interazioni in una varietà di contesti, e il suo utilizzo ci aiuterà a garantire che nessun ramo o foglia venga mai lasciato intentato".


    © Scienza https://it.scienceaq.com