Contexte et objectifs
Une meilleure compréhension de la relation génotype/phénotype semble essentielle aussi bien pour comprendre les maladies humaines (maladies génétiques, cancer, ...) que pour développer une sélection génétique animale de précision permettant de répondre aux défis d’un développement durable de l’élevage. Or la compréhension de ce lien passe par une meilleure compréhension du fonctionnement du génome, qui ne se limite plus aujourd’hui aux gènes codant pour des protéines mais qui doit intégrer des éléments régulateurs nombreux et de natures diverses (Elkon and Agami, Nature Biotechnology, 2017). En effet, si l’expression des gènes codants est un facteur majeur de différence entre types cellulaires, individus ou espèces, elle est en fait contrôlée par les éléments régulateurs. De plus un nombre croissant d’études montrent l’importance des éléments régulateurs de type enhancer, région génomique activant l’expression d’un ou plusieurs gènes par le biais de facteurs de transcription et de repliement de la chromatine les rapprochant physiquement du promoteur du gène (Schlyueva et al, Nature Reviews Genetics, 2014).
Travail à faire
Dans le but d’identifier la meilleure approche bioinformatique de prédiction de relations enhancer/gène dans les génomes animaux, nous proposons ici de réaliser un état de l’art exhaustif des méthodes d’identification de relations enhancer/gènes, de constituer un ensemble de relations enhancer/gène de référence pour pouvoir évaluer ces méthodes et de développer quelques méthodes heuristiques simples de prédiction de telles relations. Si un ensemble de relations enhancer/gène de référence n’existe pas déjà au moment du début de ce stage, nous proposons de le constituer en prenant les relations enhancer/gène définies de manière commune par les 4 types de données suivantes, disponibles sur la même lignée cellulaire humaine (GM12878) : trois données de type conformation 3D de la chromatine que sont capture HiC (Mifsud et al, Nature Genetics, 2015), in situ HiC (Rao et al, Cell, 2014), et ChIA-PET (Heidari et al, Genome Research, 2014), et des données de QTL d’expression (Ward and Kellis, Nucleic Acids Research, 2011).
Pour ce qui est du développement de méthodes heuristiques simples de prédiction, nous proposons d’implémenter les trois méthodes suivantes :
- Corrélation entre signal d’ouverture de la chromatine et expression de gène sur plusieurs tissus ou conditions et à une certaine distance (Sheffield et al, Genome Research, 2013)
- Corrélation entre signal de méthylation et expression de gène sur plusieurs tissus ou conditions et à une certaine distance (Aran et al, Genome Biology, 2013)
- Proximité physique entre région ouverte de la chromatine et promoteur de gène avec conservation du profil phylogénétique entre la région ouverte distante et le promoteur (Lu et al, Nucleic Acids Research, 2013)
Publications du laboratoire
- BADOUIN H, GOUZY J, GRASSA CJ, MURAT F, EVAN STATON S, COTTRET L, LELANDAIS-BRIÈRE C et al. 2017. The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution. Nature 546(7656):148-152.
- RODRÍGUEZ-MARTÍN B, PALUMBO E, MARCO-SOLA S, GRIEBEL T, RIBECA P, ALONSO G, ... & DJEBALI S. 2017. ChimPipe: accurate detection of fusion genes and transcription-induced chimeras from RNA-seq data. BMC genomics 18(1):7.
- TENG M, LOVE MI, DAVIS CA, DJEBALI S , DOBIN A, GRAVELEY BR, ... & SLOAN CA. 2016. A benchmark for RNA-seq quantification pipelines. Genome biology 17(1):74.
- PERVOUCHINE DD, DJEBALI S , BRESCHI A, DAVIS CA, BARJA PP, DOBIN A, ... & FASTUCA M. 2015. Enhanced transcriptome maps from multiple mouse tissues reveal evolutionary constraint in gene expression. Nature communications 6(5903).
- DONG X, GREVEN MC, KUNDAJE A, DJEBALI S , BROWN JB, CHENG C, ... & WENG Z. 2012. Modeling gene expression using chromatin features in various cellular contexts. Genome biology 13(9):R53.