Come funzionano i metodi di spiegazione per i modelli di apprendimento automatico?

Credito:Pixabay/CC0 di dominio pubblico

Immagina un team di medici che utilizza una rete neurale per rilevare il cancro nelle immagini della mammografia. Anche se questo modello di apprendimento automatico sembra funzionare bene, potrebbe concentrarsi sulle caratteristiche dell'immagine che sono accidentalmente correlate ai tumori, come una filigrana o un timestamp, piuttosto che sui segni reali di tumori.

Per testare questi modelli, i ricercatori utilizzano "metodi di attribuzione delle caratteristiche", tecniche che dovrebbero dire loro quali parti dell'immagine sono le più importanti per la previsione della rete neurale. Ma cosa succede se il metodo di attribuzione manca di caratteristiche importanti per il modello? Dal momento che i ricercatori non sanno quali caratteristiche sono importanti per cominciare, non hanno modo di sapere che il loro metodo di valutazione non è efficace.

Per aiutare a risolvere questo problema, i ricercatori del MIT hanno ideato un processo per modificare i dati originali in modo da essere certi di quali caratteristiche sono effettivamente importanti per il modello. Quindi utilizzano questo set di dati modificato per valutare se i metodi di attribuzione delle funzionalità possono identificare correttamente quelle funzionalità importanti.

Scoprono che anche i metodi più popolari spesso perdono le caratteristiche importanti in un'immagine e alcuni metodi riescono a malapena a funzionare così come una linea di base casuale. Ciò potrebbe avere importanti implicazioni, soprattutto se le reti neurali vengono applicate in situazioni ad alto rischio come le diagnosi mediche. Se la rete non funziona correttamente e anche i tentativi di rilevare tali anomalie non funzionano correttamente, gli esperti umani potrebbero non avere idea di essere fuorviati dal modello difettoso, spiega l'autore principale Yilun Zhou, uno studente laureato in ingegneria elettrica e informatica nel Laboratorio di Informatica e Intelligenza Artificiale (CSAIL).

"Tutti questi metodi sono ampiamente utilizzati, specialmente in alcuni scenari ad alto rischio, come rilevare il cancro dai raggi X o dalle scansioni TC. Ma questi metodi di attribuzione delle caratteristiche potrebbero essere sbagliati in primo luogo. Potrebbero evidenziare qualcosa che non lo fa t corrispondono alla vera caratteristica che il modello sta usando per fare una previsione, cosa che abbiamo riscontrato essere spesso il caso.Se si desidera utilizzare questi metodi di attribuzione della caratteristica per giustificare che un modello funziona correttamente, è meglio assicurarsi che l'attribuzione della caratteristica il metodo stesso funziona correttamente in primo luogo", afferma.

Zhou ha scritto l'articolo con la collega dottoranda EECS Serena Booth, il ricercatore Microsoft Research Marco Tulio Ribeiro e l'autrice senior Julie Shah, professoressa di aeronautica e astronautica del MIT e direttrice dell'Interactive Robotics Group in CSAIL.

Concentrarsi sulle funzionalità

Nella classificazione delle immagini, ogni pixel in un'immagine è una caratteristica che la rete neurale può utilizzare per fare previsioni, quindi ci sono letteralmente milioni di possibili caratteristiche su cui può concentrarsi. Se i ricercatori volessero progettare un algoritmo per aiutare gli aspiranti fotografi a migliorare, ad esempio, potrebbero addestrare un modello per distinguere le foto scattate da fotografi professionisti da quelle scattate da turisti occasionali. Questo modello potrebbe essere utilizzato per valutare quanto le foto amatoriali assomiglino a quelle professionali e persino fornire un feedback specifico sul miglioramento. I ricercatori vorrebbero che questo modello si concentrasse sull'identificazione degli elementi artistici nelle foto professionali durante l'allenamento, come lo spazio colore, la composizione e la postelaborazione. Ma succede che una foto scattata da professionisti contenga probabilmente una filigrana del nome del fotografo, mentre poche foto turistiche ce l'hanno, quindi la modella potrebbe semplicemente prendere la scorciatoia per trovare la filigrana.

"Ovviamente, non vogliamo dire agli aspiranti fotografi che una filigrana è tutto ciò di cui hai bisogno per una carriera di successo, quindi vogliamo assicurarci che il nostro modello si concentri sulle caratteristiche artistiche anziché sulla presenza della filigrana. Si è tentati di utilizzare la funzione metodi di attribuzione per analizzare il nostro modello, ma alla fine non vi è alcuna garanzia che funzionino correttamente, poiché il modello potrebbe utilizzare caratteristiche artistiche, filigrana o qualsiasi altra caratteristica", afferma Zhou.

"Non sappiamo quali siano quelle correlazioni spurie nel set di dati. Potrebbero esserci così tante cose diverse che potrebbero essere completamente impercettibili per una persona, come la risoluzione di un'immagine", aggiunge Booth. "Anche se per noi non è percepibile, una rete neurale può probabilmente estrarre queste funzionalità e usarle per classificarle. Questo è il problema di fondo. Non capiamo molto bene i nostri set di dati, ma è anche impossibile capire i nostri set di dati che bene."

I ricercatori hanno modificato il set di dati per indebolire tutte le correlazioni tra l'immagine originale e le etichette dei dati, il che garantisce che nessuna delle caratteristiche originali sarà più importante.

Quindi, aggiungono una nuova funzionalità all'immagine che è così ovvia che la rete neurale deve concentrarsi su di essa per fare la sua previsione, come rettangoli luminosi di diversi colori per diverse classi di immagini.

"Possiamo affermare con sicurezza che qualsiasi modello che ottiene un'affidabilità davvero elevata deve concentrarsi su quel rettangolo colorato che abbiamo inserito. Quindi possiamo vedere se tutti questi metodi di attribuzione delle caratteristiche si affrettano a evidenziare quella posizione piuttosto che tutto il resto", afferma Zhou.

Risultati "particolarmente allarmanti"

Hanno applicato questa tecnica a diversi metodi di attribuzione delle caratteristiche. Per le classificazioni delle immagini, questi metodi producono quella che è nota come mappa di salienza, che mostra la concentrazione di caratteristiche importanti sparse sull'intera immagine. Ad esempio, se la rete neurale sta classificando immagini di uccelli, la mappa di salienza potrebbe mostrare che l'80 percento delle caratteristiche importanti è concentrato attorno al becco dell'uccello.

Dopo aver rimosso tutte le correlazioni nei dati dell'immagine, hanno manipolato le foto in diversi modi, ad esempio sfocando parti dell'immagine, regolando la luminosità o aggiungendo una filigrana. Se il metodo di attribuzione delle caratteristiche funziona correttamente, quasi il 100 percento delle caratteristiche importanti dovrebbe trovarsi nell'area manipolata dai ricercatori.

I risultati non sono stati incoraggianti. None of the feature-attribution methods got close to the 100 percent goal, most barely reached a random baseline level of 50 percent, and some even performed worse than the baseline in some instances. So, even though the new feature is the only one the model could use to make a prediction, the feature-attribution methods sometimes fail to pick that up.

"None of these methods seem to be very reliable, across all different types of spurious correlations. This is especially alarming because, in natural datasets, we don't know which of those spurious correlations might apply," Zhou says. "It could be all sorts of factors. We thought that we could trust these methods to tell us, but in our experiment, it seems really hard to trust them."

All feature-attribution methods they studied were better at detecting an anomaly than the absence of an anomaly. In other words, these methods could find a watermark more easily than they could identify that an image does not contain a watermark. So, in this case, it would be more difficult for humans to trust a model that gives a negative prediction.

The team's work shows that it is critical to test feature-attribution methods before applying them to a real-world model, especially in high-stakes situations.

"Researchers and practitioners may employ explanation techniques like feature-attribution methods to engender a person's trust in a model, but that trust is not founded unless the explanation technique is first rigorously evaluated," Shah says. "An explanation technique may be used to help calibrate a person's trust in a model, but it is equally important to calibrate a person's trust in the explanations of the model."

Moving forward, the researchers want to use their evaluation procedure to study more subtle or realistic features that could lead to spurious correlations. Another area of work they want to explore is helping humans understand saliency maps so they can make better decisions based on a neural network's predictions.

Perché il tuo telefono 5G riguarda il settore aereo:cosa sappiamo dell'impatto su viaggi, voli e altro

Quando qualcuno dovrebbe fidarsi delle previsioni di un assistente AI?

Elettronica