Contexte et objectifs
Les ARNs chimériques sont des ARNs reliant deux gènes différents du génome. Leur présence dans les génomes eucaryotes s’explique par des mécanismes génomiques tels que les réarrangements (translocations, inversion, délétion), ou transcriptionnels tels que le <> de l’ARN polymérase ou le trans-épissage. Ces ARNs peuvent avoir un rôle régulateur dans la cellule, soit en tant qu’ARNs, soit en tant que protéines, s’ils sont traduits. La technique RNA-seq permet aujourd’hui de les détecter plus facilement dans les génomes,
cependant seule une infime fraction d’entre eux a jusqu’ici pu être associée à une fonction. Une façon typique de pointer vers la fonctionnalité d’un élément ou d’une relation entre éléments du génome, est de montrer qu’il/elle a été conservé(e) au cours de l’évolution. Un ARN chimérique commun (conservé?) entre deux espèces est défini comme la double présence d’un ARN chimérique reliant les gènes A et B de la première espèce, et d’un ARN chimérique reliant l’orthologue du gène A et l’orthologue du gène B de la deuxième espèce.
Le projet pilote français de FAANG ( https://www.animalgenome.org/community/FAANG/ ), FR-AgENCODE, a généré des données RNA-seq, HiC et ATAC-seq sur 3 tissus de 4 animaux de 4 espèces d’intérêt agronomique (poulet, porc, vache, chèvre), constituant ainsi une ressource unique pour étudier l’évolution et la conservation des ARNs, de leur expression et de leur régulation, chez les animaux terrestres d’élevage. Nous disposons aussi du programme ChimPipe ( https://github.com/Chimera-tools/ChimPipe ) pour détecter les ARNs chimériques à partir de données RNA-seq, dans les génomes eucaryotes pour lesquels l’on dispose d’un génome et d’une annotation de gènes.
Travail à faire
Nous proposons ici d’utiliser le programme ChimPipe sur les données RNA-seq du projet FR-AgENCODE, pour détecter les ARNs chimériques présents dans les 3 tissus de nos 4 espèces d’intérêt. Etant donné que ChimPipe a été développé sur des données humaines et murines et que ces espèces disposent d’un génome à la fois mieux assemblé et mieux annoté que les espèces d’élevage, il est possible que quelques paramètres doivent être adaptés pour garantir une bonne sensibilité de détection des ARNs chimériques sur ces dernières. Après avoir filtré les ARNs chimériques de chaque espèce de façon appropriée, il s’agira de les mettre en relation en utilisant les listes de gènes orthologues définies par Ensembl ( http://www.ensembl.org/index.html ) , et donc de répertorier les ARNs chimériques communs entre 2, 3 et 4 espèces. Il sera intéressant de faire varier les paramètres et données d’entrée de cette procédure (gènes annotés ou gènes nouveaux, gènes orthologues 1-1 ou multi-multi, gènes orthologues entre 4 ou 2 espèces, etc.), pour voir comment ils influent sur les résultats obtenus.