- Ingresso:dati RNA-seq a cella singola (matrice di conteggio)
- Controllo qualità (QC):rimuovere cellule e geni di bassa qualità
- Normalizzazione dei dati:normalizza i dati per correggere errori tecnici
2. Clustering
- Eseguire il clustering sui dati normalizzati per identificare i cluster di celle
- È possibile utilizzare diversi metodi di clustering (ad esempio, k-mean, clustering gerarchico, Louvain)
3. Identificazione del gene marcatore
- Per ogni cluster:
- Calcolare l'espressione media di ciascun gene nelle cellule del cluster
- Confrontare l'espressione media dei geni nel cluster con quella di altri cluster
- Identificare i geni che sono altamente espressi nel cluster rispetto ad altri cluster
4. Convalida del gene marcatore
- È possibile applicare criteri aggiuntivi per selezionare i geni marcatori:
- Fold change:considera i geni con un elevato fold change tra il cluster e altri cluster
- Significatività statistica:utilizzare test statistici (ad esempio, t-test, test di Wilcoxon) per valutare la significatività delle differenze di espressione
- Specificità:garantire che i geni marcatori siano espressi selettivamente nel cluster di interesse
5. Interpretazione e visualizzazione
- Analizzare le funzioni e i percorsi associati ai geni marcatori identificati
- Genera mappe di calore, grafici dei vulcani o altre visualizzazioni per presentare i geni marcatori e i loro modelli di espressione
6. Convalida in set di dati indipendenti (facoltativo)
- Per aumentare la fiducia, convalidare i geni marcatori identificati in un set di dati indipendente, se disponibile.