Gli scienziati normalmente sono felici di trovare regolarità e correlazioni nei loro dati, ma solo se riescono a spiegarli. Altrimenti temono che questi modelli possano semplicemente rivelare qualche difetto nei dati stessi, i cosiddetti artefatti sperimentali.
Questo è ciò di cui si sono preoccupati gli scienziati del gruppo guidato da Nicola Marzari presso l'Istituto federale svizzero di tecnologia di Losanna (EPFL) quando hanno notato uno schema inaspettato in due database di strutture elettroniche ampiamente utilizzati, il database Materials Project (MP) e il Materials Cloud 3-dimensional Database 'sorgente' delle strutture cristalline (MC3Dsource).
Le due raccolte comprendono oltre 80.000 strutture elettroniche di materiali sperimentali e previsti e, in linea di principio, tutti i tipi di strutture dovrebbero essere equamente rappresentati. Tuttavia, gli scienziati hanno notato che circa il 60 per cento delle strutture in entrambi i database hanno celle unitarie primitive (la cella più piccola possibile in una struttura cristallina) composte da un multiplo di 4 atomi. Gli scienziati hanno chiamato questa ricorrenza la "Regola dei quattro" e hanno iniziato a cercare una spiegazione.
"Una prima ragione intuitiva potrebbe derivare dal fatto che quando una cella unitaria convenzionale (una cella più grande di quella primitiva, che rappresenta l'intera simmetria del cristallo) viene trasformata in una cella primitiva, il numero di atomi viene tipicamente ridotto di quattro volte ," afferma Elena Gazzarini, ex ricercatrice INSPIRE Potentials presso il Laboratorio di teoria e simulazione dei materiali (THEOS) presso l'EPFL e ora al CERN di Ginevra.
"La prima domanda che ci siamo posti è stata se il software utilizzato per 'primitivizzare' la cella unitaria lo avesse fatto correttamente, e la risposta è stata sì."
Da un punto di vista chimico, un altro possibile sospetto era il numero di coordinazione del silicio (il numero di atomi che possono legarsi al suo atomo), che è quattro. "Potremmo aspettarci di scoprire che tutti i materiali che seguono questa regola del quattro includono silicio", afferma Gazzarini. "Ma ancora una volta, non l'hanno fatto."
Nemmeno le energie di formazione dei composti potrebbero spiegare la Regola dei Quattro. "I materiali più abbondanti in natura dovrebbero essere quelli energeticamente più favoriti, cioè quelli più stabili, quelli con energia di formazione negativa", spiega Gazzarini. "Ma quello che abbiamo visto con i metodi computazionali classici è che non c'era alcuna correlazione tra la Regola del Quattro e le energie di formazione negativa."
Poiché lo spazio dei materiali coperto dai due database è enorme, spaziando da piccole unità a cellule molto grandi con dozzine di specie chimiche diverse, c'era ancora la possibilità che un'analisi più raffinata alla ricerca di una correlazione tra energie di formazione e proprietà chimiche potesse fornire un spiegazione.
Quindi, il team ha coinvolto Rose Cernosky, un’esperta di apprendimento automatico dell’Università del Wisconsin, che ha sviluppato un algoritmo per raggruppare le strutture in base alle loro proprietà atomiche e osservare le energie di formazione all’interno di classi di materiali che condividono alcune somiglianze chimiche. Ma ancora una volta, questo metodo non fornisce un modo per distinguere i materiali conformi alla Regola dei Quattro da quelli non conformi.
Allo stesso modo, l'abbondanza di multipli di quattro non è nemmeno correlata a strutture altamente simmetriche ma piuttosto a simmetrie basse e disposizioni poco assemblate.
Alla fine, l'articolo risultante in npj Computational Materials è il raro esempio di un articolo scientifico che descrive un risultato negativo:i ricercatori hanno potuto solo descrivere il fenomeno ed escludere diverse possibili cause, senza trovarne una.
Ma i risultati negativi possono essere altrettanto importanti quanto quelli positivi per il progresso scientifico, perché evidenziano problemi difficili, motivo per cui gli scienziati spesso si lamentano del fatto che le riviste dovrebbero pubblicare più studi di questo tipo.
L’incapacità di trovare una spiegazione convincente non ha impedito al gruppo di prevedere, attraverso un algoritmo Random Forest, con una precisione dell’87% se un dato composto seguirà o meno la Regola del Quattro. "Ciò è interessante perché l'algoritmo utilizza solo descrittori di simmetria locale anziché globale, il che suggerisce che potrebbero esserci piccoli gruppi chimici nelle cellule (ancora da trovare) che potrebbero spiegare la Regola dei Quattro", afferma Gazzarini.