• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Affrontare il ritardo nella segnalazione del cancro in Sudafrica con l'apprendimento automatico

    Waheeda Saib. Credito:IBM

    I registri dei tumori contengono set di dati vitali, tenuti strettamente criptati, contenente informazioni demografiche, storia medica, diagnostica e terapia. Oncologi e funzionari sanitari accedono ai dati per comprendere i casi di cancro diagnosticati e i tassi di incidenza a livello nazionale. L'obiettivo finale è utilizzare questi dati per informare la pianificazione della salute pubblica e i programmi di intervento. Sebbene gli aggiornamenti in tempo reale non siano pratici, i ritardi pluriennali rendono difficile per i funzionari comprendere l'impatto del cancro nel paese e allocare le risorse di conseguenza.

    I rapporti di patologia non strutturati contengono dati specifici del tumore e sono la principale fonte di informazioni raccolte dai registri dei tumori. Gli esperti umani etichettano i rapporti patologici utilizzando i codici della Classificazione internazionale delle malattie per l'oncologia (ICD-O) che abbracciano 42 diversi tipi di cancro. La combinazione di processi manuali e l'entità delle segnalazioni ricevute annualmente porta a un ritardo di quattro anni per il paese. In confronto, c'è un ritardo di quasi due anni negli Stati Uniti.

    Nel 2016, quando abbiamo inaugurato il nostro nuovo laboratorio di ricerca IBM a Johannesburg, abbiamo raccolto questa sfida e riportiamo i nostri primi risultati promettenti all'Health Day alla KDD Data Science Conference di Londra questo mese.

    Il nostro obiettivo fin dall'inizio è stato quello di applicare il deep learning per automatizzare l'etichettatura dei referti sulla patologia del cancro per accelerare il processo di refertazione. Lavorando con il Registro Nazionale dei Tumori in Sud Africa, ne abbiamo usati 2, 201 anonimizzato, rapporti patologici a testo libero e sono orgoglioso di segnalare che il nostro documento dimostra un'accuratezza del 74%, un miglioramento rispetto agli attuali modelli di riferimento. Riteniamo di poter ottenere una precisione del 95% con più dati.

    Abbiamo impiegato la classificazione gerarchica con reti neurali convoluzionali, anche se questa non era la nostra prima scelta. Inizialmente abbiamo iniziato a esplorare modelli di reti neurali convoluzionali binarie e multiclasse, ma i risultati non sono stati promettenti e ho quasi smesso per la frustrazione. Infine, con i consigli e il supporto dei miei colleghi, abbiamo ripulito il testo, perfezionato il processo di progettazione delle caratteristiche e migliorato al 60 percento. Questo risultato è stato un miglioramento, ma sapevamo di aver bisogno del 90-95 percento per renderlo abbastanza affidabile per il mondo reale.

    Dopo ulteriori ricerche ed esplorazioni, abbiamo pensato di ridurre la complessità del problema multiclasse, che ci ha portato a creare un metodo di classificazione gerarchico deep learning all'avanguardia basato sulla struttura gerarchica del sistema di codifica ICD-O oncologico. Così, abbiamo utilizzato un approccio combinato per identificare la gerarchia di classi e convalidarla utilizzando la conoscenza di esperti per ottenere prestazioni migliori rispetto a un modello multiclasse piatto per la classificazione dei referti patologici a testo libero.

    Il nostro lavoro ovviamente non è ancora finito; dobbiamo raggiungere una precisione superiore al 95%, e pensiamo che questo sia possibile con più dati, che sarà fornito dai nostri partner presso il National Cancer Registry. Una volta ottenuto questo, pensiamo che il Sudafrica possa essere il migliore al mondo in termini di segnalazione del cancro, il che è significativo soprattutto perché è stato riferito che il mio paese vedrà un aumento del 78 per cento del cancro entro il 2030.

    Questa storia è stata ripubblicata per gentile concessione di IBM Research. Leggi la storia originale qui.




    © Scienza https://it.scienceaq.com