Dai chatbot intelligenti alle app in grado di scrivere interi articoli, l'intelligenza artificiale (AI) sta diventando una parte sempre più onnipresente delle nostre vite. Michael Schon, ricercatore associato presso la Wageningen University &Research, sta progettando uno strumento di intelligenza artificiale in grado di eseguire confronti di RNA non codificante sui genomi delle piante. Si prevede che lo strumento accelererà e semplificherà il futuro sviluppo di nuove varietà vegetali con maggiore resistenza alla siccità o alle malattie, ad esempio.
Le proteine sono gli elementi costitutivi delle cellule negli organismi. Le istruzioni per produrre queste proteine vengono emesse (codificate) dall'RNA dei geni. Oltre a questi RNA codificanti, alcuni geni possono produrre RNA non codificanti:in altre parole, RNA che non include istruzioni per produrre una proteina.
Questo tipo di RNA svolge un ruolo importante anche nello sviluppo degli organismi, afferma Michael Schon. "Ad esempio, possono attivare i geni o fare il contrario e spegnerli. Ciò influenzerà l'aspetto di una pianta e le sue proprietà. Alcuni importanti RNA non codificanti determinano anche se una pianta raggiunge la maturità."
Parenti all'interno della stessa famiglia
L’RNA non codificante potrebbe anche potenzialmente rivelare il motivo per cui una specie vegetale appartiene a una particolare famiglia pur presentando caratteristiche diverse. In una ricerca precedente, Schon ha identificato RNA non codificanti di Arabidopsis thaliana (thale cress). Questa pianta è utilizzata dagli scienziati vegetali come organismo modello.
"L'Arabidopsis appartiene alla famiglia delle Brassicaceae, insieme a colture importanti come i broccoli, il cavolfiore e il cavolo rapa. Questa famiglia è conosciuta anche come famiglia della senape o delle crucifere. Tuttavia, è difficile confrontare gli RNA non codificanti dell'Arabidopsis con quello di altre piante del genere famiglia della senape perché il lavoro precedente su queste specie si è concentrato principalmente sui geni codificanti proteine."
Annotazione limitata di RNA non codificante
Ciò significa che un confronto tra piante richiede un'annotazione genetica separata per l'RNA non codificante per ciascuna coltura. Attraverso il suo progetto Veni, Schon è alla ricerca di nuovi modi per identificare gli RNA non codificanti utilizzando la conoscenza di specie correlate.
"Sono disponibili più di 200 sequenze genomiche per le piante della famiglia della senape. Ogni genoma è memorizzato come un grande file di testo composto da milioni di lettere che rappresentano le basi di una molecola di DNA (A, C, T e G). Poiché il non -i bit codificanti non sono catalogati (annotati) correttamente in questi genomi, è impossibile confrontare tutti i geni non codificanti sparsi in questa montagna di dati. Abbiamo bisogno di nuove strategie e strumenti per questo, sto cercando di svilupparli."
Una piccola parte di ciascun genoma
Il primo problema è sapere dove cercare nel genoma. Uno degli strumenti che Schon sta sviluppando è qualcosa che chiama GeneSketch. Per trovare le parti corrispondenti di diversi genomi, usa un metodo chiamato Minimizer Sketch.
"L'idea alla base del Minimizer Sketch è che devi guardare solo un piccolo pezzo di DNA, uno schizzo, piuttosto che l'intera sequenza", afferma Schon. "Ciò significa che devi prestare attenzione solo a poche migliaia di caratteri per genoma per eseguire un confronto, anziché a milioni.
Il Minimizer Sketch è stato precedentemente utilizzato per costruire un albero dell'evoluzione dei primati, che include gli esseri umani e i loro parenti più stretti. Si è scoperto che è possibile creare un albero genealogico molto accurato dei nostri antenati partendo da schizzi costituiti da meno dell'1% dell'intero genoma. Uno schizzo minimizzatore quindi è un modo molto efficiente per stimare quanto siano simili pezzi di DNA tra loro, quindi dovrebbe essere utile anche per confrontare i genomi all'interno della famiglia della senape."
Stessa tecnologia di ChatGPT
Dopo aver saputo dove guardare, il passo successivo è capire cosa stai guardando. La tecnologia che Schon intende utilizzare in GeneSketch è la stessa attualmente utilizzata in altri strumenti di intelligenza artificiale, come ChatGPT.
"Si tratta della cosiddetta tecnologia 'trasformatore'", afferma Schon.
"Puoi chiedere a un trasformatore di inserire una parola mancante in una frase, ad esempio. Inizialmente, il trasformatore ti dà una parola a caso perché non ha mai visto parole prima. Ma se lo alleni su milioni di frasi di esempio, impara lentamente indovinare le parole giuste prestando attenzione agli schemi nel testo.
"Dopo l'addestramento, un modello linguistico ampio come ChatGPT diventa molto bravo in determinati compiti, come rispondere a domande o tradurre da una lingua all'altra. Un trasformatore può essere addestrato ad apprendere non solo le lingue umane, ma anche il linguaggio del DNA, che ha le sue propri modelli distinti. Sto lavorando su un modello per rilevare modelli nel DNA di molte specie diverse e tradurre tali modelli in un linguaggio che noi come esseri umani possiamo comprendere."
Il modello deve essere addestrato
Schon addestrerà il trasformatore per GeneSketch a prestare attenzione a come i geni cambiano nelle diverse specie, in particolare i geni non codificanti. Ma si aspetta di dover affrontare alcune sfide lungo il percorso.
"Una questione importante è l'affidabilità. Il trasformatore è una tecnologia relativamente nuova e commette errori. ChatGPT, ad esempio, è stato addestrato su molte fonti di testo diverse, ma se gli chiedi un argomento che non ha mai visto durante l'addestramento, deve inventare qualcosa. Speri che crei qualcosa di ragionevole in base ai modelli che ha visto, ma questa non è mai una garanzia. Ovviamente vuoi evitare risultati senza senso Più addestri un trasformatore, meno cose senza senso produrrà, ma addestrando può costare molto tempo e denaro. È meglio addestrare il modello completamente da zero o basarsi su modelli esistenti? Sto provando entrambi gli approcci."
Potenziale del GeneSketch
Schon spera di avere un prototipo di GeneSketch dopo il primo anno del progetto, iniziato nell'ottobre 2023. Ha intenzione di utilizzarlo per creare annotazioni genetiche per l'intera famiglia della senape.
Lo strumento potrebbe essere utile non solo per il settore della ricerca ma anche per l'industria agricola, afferma Schon. "Potrebbe, ad esempio, fornire ai coltivatori di sementi un modo rapido per comprendere il DNA di una coltura e dei suoi parenti selvatici. Imparando di più su come le colture sono state in grado di sviluppare caratteristiche uniche nel corso dei secoli, i coltivatori potrebbero prendere decisioni più informate per migliorandone le caratteristiche, ad esempio rendendo le colture più resilienti ai cambiamenti climatici. Pertanto, l'impatto potenziale potrebbe essere enorme."