ED VAAM : Analyses transcriptomiques
Organisation des dossiers et principes FAIR.
Les quatres principes FAIR sont :
- Facile à trouver (findable)
- Accessible (accessible)
- Interopérable (interoperable)
- Réutilisable (reusable)
Ils permettent de travailler dans le cadre de la science ouverte et le partage des données. Le respect des principes FAIR dès le début d'un projet assure une bonne organisation dans la construction et le stockage des données et facilite la présentation et la publication des résultats.
Les données seront ainsi organisées dés le début en trois grands groupes, et donc trois dossiers :
- Data
- Results
- Scripts
Data
Ce dossier regroupe l'ensemble des données brutes et données de référence.
Dans le cadre de cette analyse, nous y trouverons :
- les fichiers fq.gz des données de séquençage
- le fichier fasta du transcriptome de référence
- le fichier d'annotation fonctionnelle
- tout autre fichier de données de référence (ex: gff)
Dans le cadre d'une analyse FAIR et dans l'objectif d'une publication, l'ensemble de ces données sera accessible, et donc référencé dans des dépôts publics (data.gouv, ncbi, ...).
L'étude prise ici en exemple est Guillou et al., 2022. Les données sont accessibles sur le portail GEO du NCBI : GSE184508
SRR accession GSM accession Sample name SRR15992263 GSM5590465 R1-Ws_ZME SRR15992269 GSM5590471 R3-Ws_ZME SRR15992277 GSM5590479 R4-Ws_ZME SRR15992265 GSM5590467 R1-proscoop12_ZME SRR15992272 GSM5590474 R3-proscoop12_ZME SRR15992281 GSM5590483 R4-proscoop12_ZME SRR15992267 GSM5590469 R1-proscoop12+SCOOP12_ZME SRR15992274 GSM5590476 R3-proscoop12+SCOOP12_ZME SRR15992283 GSM5590485 R4-proscoop12+SCOOP12_ZME
L'analyse faite sera les comparaisons suivantes :
- PW-Ctrl versus WS-Ctrl : comparaison du mutant et du sauvage
- PW-Sc versus PW-Ctrl : comparaison du mutant + son peptide avec le mutant
- PW-Sc versus WS-Ctrl : comparaison du mutant + son peptide avec le sauvage
Results
Les résultats pourront être organisés en sous dossiers par analyse. Les données sont les produits des analyses. Dans le cadre d'une analyse FAIR, ces données seront reproductibles.
Dans l'objectif d'une publication, ce sont les résultats qui seront présentés et discutés dans la publication.
Scripts
Les scripts seront versionnés via un dépot git sur une forge (ex: gitHub ou gitLab). Ils seront ainsi facile à gérer et partager (principe FAIR).
Pour assurer la reproductiblilité des analyses, un environnement virtuel (ex: conda) permettra de fixer et traçer les versions des logiciels utilisés.
Dans l'objectif d'une publication, le dépot git sera ouvert au public et référencé sur Software Heritage qui attribura un identifiant unique.
Création de l'environnement CONDA
conda create --name transcriptomic_analysis_ed-vaam
conda activate transcriptomic_analysis_ed-vaam
conda install bioconda::sra-tools
conda install anaconda::wget
conda install bioconda::salmon
conda install conda-forge::r-base
conda install bioconda::bioconductor-deseq2
conda env export > environment.yml
TP : Analyse de données transcriptomique
Récupération des scripts
Prérequis : avoir git sur sa machine
git clone https://forgemia.inra.fr/sandra.pelletier/transcriptomic_analysis_ed-vaam.git
cd transcriptomic_analysis_ed-vaam
Environnement conda
Prérequis : avoir conda sur sa machine
conda env create -f environment.yml
conda activate transcriptomic_analysis_ed-vaam
Téléchargement des données
Téléchargement : utilisation du script wget_SRR.sh
mkdir data
cd data
bash ../scripts/wget_SRR.sh
L'une des suites logiques d'une analyse transcriptomique est :
- Alignement des séquences (mapping)
- Analyse différentielle
- analyse statistique
- étude par profil transcriptomique
- bibliographie
Alignement des séquences
Documentation salmon
Index
La première étape consiste à créer un index à partir du transcriptome de référence.
Edition du fichier scripts/mapping_index.sh
- Se positionner dans le dossier de résultats
- Créer un nouveau dossier
mapping
- Se déplacer dans ce dossier mapping
- Exécuter le script qui va créer l'index
mkdir results
cd results
mkdir mapping
cd mapping/
bash ../../scripts/mapping_index.sh
Un dossier index a été créé contenant l'index et des informations sur la construction de cet index. Un fichier duplicate_clusters.tsv
donne la liste des séquences fasta dupliquées.
Quantification
Une fois l'index créé, l'étape suivante est l'alignement et le comptage des reads.
Edition du fichier scripts/mapping_quant.sh
- Rester dans le dossier ./results/mapping/
- Executer le script permettant le comptage des reads
bash ../../scripts/mapping_quant.sh
Analyse différentielle
Après l'alignement et le comptage des reads, l'analyse différentielle ce fait avec DESeq2 sous R. Au préalable, on construira un fichier comparisons.txt
tabulé décrivant les différentes comparaisons envisagées contenant :
- Comparison : le nom de la comparaison
- File : le chemin relatif ou absolu des fichiers
- Name : le nom regroupant les différentes répétitions de l'échantillon
- Group : le type d'échantillon :
Ttmt
ouControl
exemple de fichier comparisons.txt
Comparison File Name Group mutant_vs_sauvage ./path/file_mutant_rep1.sf mutant Ttmt mutant_vs_sauvage ./path/file_mutant_rep2.sf mutant Ttmt mutant_vs_sauvage ./path/file_sauvage_rep1.sf sauvage Control mutant_vs_sauvage ./path/file_sauvage_rep1.sf sauvage Control
Un fichier comparisons.txt
correspondant aux fichiers de séquençage téléchargés est fourni.
cd ..
mkdir deseq2
mv ../comparisons.txt ./deseq2/
cd deseq2
Rscript ../../scripts/deseq2.R comparisons.txt > r.log
AnaDiff
L'outil AnaDiff permet de faire ces analyses avec DESeq2 et edgeR. Il permet également de générer un fichier résumant les analyses ainsi que des fichiers html qui, ouverts sous Excel, donne une mise en forme conditionnelle en couleur.
Le script construit est fourni : scripts/AnaDiff_20210702.R
.
Compilation des résultats et des annotations des gènes
cd ..
mkdir analyse
cd analyse
python3 ../../scripts/fasta_annotation.py
Rscript ../../scripts/analyse.R > r.log
Dans certains cas, les annotations provenant du fichier fasta ne sont pas correctement encodées. Ce problème peut soit empêcher l'ouverture du fichier sous excel ou libre office calc, soit provoquer des erreurs dans la compilation des fichiers et fusionner des cellules (vérifier le nombre de ligne du fichier excel).
Analyse des résultats
La liste des gènes différentiellement exprimés représente le phénotypage moléculaire. Pour le comprendre et l'interpréter, il faut le regarder vis-à-vis du phénotypage physiologique. Cependant, il faut garder à l'esprit qu'il y a souvent un décalage temporel entre ces deux phénotype moléculaire et physiologique. Ce décalage de temps est différent en fonction des organes, des voies métaboliques en place, ...
Les messages importants à retenir lorsqu'on regarde les chiffres sont :
- Les données d'un gènes ne sont exploitable que s'il y a une pvalue significative.
- Il ne faut pas regarder ce qui est au niveau du bruit de fond.
- La répétabilité d'une expérience impact la statistique.