Gli RNA lunghi non codificanti (lncRNA) sono trascritti ubiquitari con ruoli regolatori cruciali in vari processi biologici, tra cui il rimodellamento della cromatina, la regolazione post-trascrizionale e le modifiche epigenetiche. Sebbene le prove accumulate chiariscano i meccanismi attraverso i quali gli lncRNA delle piante modulano la crescita, lo sviluppo delle radici e la dormienza dei semi, la loro identificazione accurata rimane difficile a causa della mancanza di metodi specifici per le piante.
Attualmente, i metodi tradizionali per l’identificazione dell’lncRNA delle piante sono in gran parte sviluppati sulla base di set di dati umani o animali. Di conseguenza, l'accuratezza e l'efficacia di questi metodi nel predire gli lncRNA delle piante non è stata completamente valutata.
Recentemente, un articolo di ricerca intitolato "Plant-LncPipe:una pipeline computazionale che fornisce un miglioramento significativo nell'identificazione dell'lncRNA delle piante" di un gruppo guidato da Jian-Feng Mao dell'Università forestale di Pechino e dell'Università di Umeå è stato pubblicato su Horticulture Research .
Questo studio ha raccolto ampiamente dati di sequenziamento dell'RNA di alta qualità da varie piante e ha utilizzato questi dati specifici delle piante per riqualificare i modelli di tre strumenti di previsione dell'lncRNA tradizionali, vale a dire CPAT, LncFinder e PLEK. Le prestazioni dei modelli riqualificati sono state confrontate e valutate rispetto ad altri popolari strumenti di previsione dell'lncRNA, come CPC2, CNCI, RNAplonc e LncADeep.
I risultati hanno dimostrato che i modelli riqualificati hanno migliorato significativamente le prestazioni di previsione per gli lncRNA delle piante. Tra questi, due modelli riqualificati, LncFinder-plant e CPAT-plant, hanno sovraperformato gli altri su molteplici parametri di valutazione, rendendoli gli strumenti più adatti per l'identificazione dell'lncRNA delle piante.
Questa ricerca ha sviluppato una pipeline computazionale denominata Plant-LncPipe per l'identificazione e l'analisi degli lncRNA delle piante.
Questa pipeline integra due modelli di identificazione ad alte prestazioni, CPAT-plant e LncFinder-plant, consentendo un processo computazionale completo che comprende la preelaborazione dei dati grezzi, l'assemblaggio delle trascrizioni, l'identificazione dell'lncRNA, la classificazione dell'lncRNA e le origini dell'lncRNA. Questa pipeline computazionale può essere ampiamente applicata a varie specie di piante. Plant-LncPipe è disponibile pubblicamente.
Lo studio dimostra che la riqualificazione dei modelli di previsione dell'lncRNA su dati trascrittomici delle piante di alta qualità ha consentito un'acquisizione più accurata delle caratteristiche dell'lncRNA delle piante, migliorando significativamente la precisione e l'affidabilità della previsione. Lo studio ha sottolineato l'importanza della riqualificazione specie-specifica per migliorare l'accuratezza del modello. La riqualificazione dei modelli maturi esistenti ha mantenuto l'esperienza e le metodologie precedentemente accumulate, migliorando ulteriormente l'applicabilità e l'accuratezza del modello.