Struttura del modello proposto. Credito:Zhou et al.
Ogni giorno, milioni di articoli sono pubblicati sui social media e su altre piattaforme, ricevendo una grande quantità di clic e condivisioni dagli utenti che navigano sul web. Molti di questi articoli contengono informazioni utili che, se estratto, potrebbe essere utilizzato per compilare banche dati della conoscenza o per fornire servizi di recupero della conoscenza e di risposta alle domande.
I ricercatori dell'Accademia cinese delle scienze (CAS) hanno sviluppato un modello basato sulla rete neurale convoluzionale (CNN) per estrarre frammenti di informazioni e annotare documenti. Il loro metodo, delineato su un documento pre-pubblicato su arXiv, è risultato essere migliore degli strumenti esistenti, nonostante sia stato addestrato per periodi di tempo più brevi.
Nella loro carta, i ricercatori definiscono il termine "documento informato" come "un documento contenente più frammenti di conoscenza, che descrivono concetti, proprietà delle entità, o le relazioni tra le entità." Finora, la maggior parte delle basi di conoscenza, come YAGO o DBpedia, estrarre la conoscenza basata su Wikipedia, WordNet, nomi geografici, e altre risorse online. Però, rispetto alle piattaforme di social media, queste risorse spesso contengono informazioni limitate e poco flessibili.
"Un'altra base di conoscenza recente, Probase, con 2,7 milioni di concetti, è stato automaticamente imbrigliato dal corpus finora più grande, composto da 326 milioni di frasi ben informate estratte da 1,68 miliardi di pagine web, " hanno scritto i ricercatori nel loro articolo. "Tuttavia, queste frasi vengono estratte solo dagli schemi di Hearst. Per estrarre frammenti più consapevoli per costruire basi di conoscenza più complete, sono necessari metodi basati sulla semantica per integrare quelli precedenti basati su modelli."
Esempio di documento informato. Le frasi blu e rosse sono rispettivamente frammenti informati e inconoscibili. Il documento introduce i 25 consigli per l'acquisto di immobili. Credito:Zhou et al.
Snippet e articoli informati potrebbero anche essere utilizzati per sviluppare servizi di recupero della conoscenza e di risposta alle domande. Questi servizi sarebbero, ad esempio, rispondere alle domande poste dagli utenti che cercano aiuto per un problema particolare. Con queste applicazioni in mente, i ricercatori del CAS hanno deciso di sviluppare un modello basato sulla CNN in grado di analizzare la semantica di un documento, determinare se è informato o meno, ed estrarre frammenti di informazioni consapevoli da esso.
"In particolare, proponiamo SSNN, un modello congiunto basato sulla CNN, comprendere il concetto astratto di documenti in diversi domini in modo collaborativo e giudicare se un documento è informato o meno, " spiegano i ricercatori nel loro articolo. "Più in dettaglio, la struttura di rete di SSNN è 'Condivisione di basso livello, Splitting di alto livello, "in cui i livelli di basso livello sono condivisi per diversi domini mentre i livelli di alto livello oltre la CNN sono addestrati separatamente per percepire le differenze di diversi domini".
Il modello ideato dai ricercatori offre una soluzione end-to-end per annotare documenti che non comporta un'ingegneria delle funzionalità estesa e dispendiosa in termini di tempo. Hanno anche sviluppato funzionalità manuali e addestrato un modello di classificatore SVM per completare l'attività.
Esempio di documento informato. Le frasi blu e rosse sono rispettivamente frammenti informati e inconoscibili. Il documento introduce le capacità di svolta della guida. Credito:Zhou et al.
I ricercatori hanno valutato l'efficacia del loro modello su un set di dati di documenti reali da tre domini di contenuti su WeChat, un messaggio cinese, social media e piattaforma di pagamento mobile sviluppata da Tencent. I loro risultati sono stati molto promettenti, con l'SSNN che si comporta costantemente meglio di altri modelli CNN, risparmiando tempo e consumo di memoria grazie a processi di formazione più brevi ed efficienti.
"Rispetto alla creazione di più CNN specifiche del dominio, questo modello congiunto non solo consente di risparmiare notevolmente tempo di formazione, ma migliora anche visibilmente l'accuratezza della previsione, " hanno scritto i ricercatori nel loro articolo. "La superiorità del modello proposto è dimostrata in un vero set di dati dalle piattaforme pubbliche di Wechat".
In futuro, il modello SSNN proposto in questo studio potrebbe essere utilizzato per costruire banche dati di conoscenza più complete. Potrebbe anche aiutare lo sviluppo di servizi innovativi che rispondano alle domande degli utenti in modo rapido ed esauriente in tempo reale.
© 2018 Tech Xplore