Inférence de l’histoire démographique des populations de chèvre par deep learning

Job Type: 
Stage Master 2

L’histoire des espèces domestiques animales est fortement liée à celle des populations humaines, de la domestication jusqu’à l’établissement de races d’élevage en passant par la colonisation de nouveaux environnements depuis les aires de répartition des espèces sauvages ancestrales. Reconstruire l’histoire démographique des espèces animales domestiques permet donc de mieux comprendre l’adaptation au milieu et aux pratiques d’élevage et offre une perspective originale sur l’histoire des populations humaines.

L’étude de l’histoire démographique des populations animales a pendant longtemps été le travail d’archéo-zoologues mais depuis quelques années, les données issues de la génomique permettent d’en offrir une nouvelle perspective (e.g. Frantz et al. 2020). Encore plus récemment, des avancées en intelligence artificielle, et plus spécifiquement en apprentissage profond (deep learning) promettent de pouvoir estimer des histoires plus complexes (Schrider & Kern, 2018). Ces nouvelles méthodes offrent, outre une efficacité prédictive avérée, des avantages pratiques tels que l’applicabilité à de larges jeux de données ou la portabilité des modèles entraînés.

Parmi les méthodes récemment disponibles, le logiciel dnadna (Deep Neural Architecture for DNA ; Sanchez et al. 2023) propose un environnement de travail (formatage de données, définition de modèles, etc.) favorisant l’échange de modèles et la reproduction des analyses. Dans le cadre de ce stage de recherche, nous proposons d’appliquer un modèle déjà entrainé et disponible dans l’environnement dnadna pour reconstruire l’histoire démographique de populations de chèvres (Capra hircus). Cette espèce est choisie car nous disposons d’un jeu de données récent et important encore peu exploité : la base de données VarGoats (Denoyelle et al., 2021), une collection récemment constituée de 1,372 génomes de chèvres domestiques et de 8 échantillons d’espèces caprines sauvages. L’objectif du stage sera de caractériser les évènements de contraction et expansion consécutifs à la domestication de l’espèce et à sa structuration en races ou sous-populations sur les différents continents.

Pour travailler sur ce sujet, nous recherchons une personne enthousiaste et intéressée par les questions d’évolution en espèces domestiques, formée aux concepts de base de génétique des populations, familière avec l’environnement de travail Linux et ayant une expérience de programmation (R, Python ou autre).

Références :

  • Denoyelle, L. et al. VarGoats project: a dataset of 1159 whole-genome sequences to dissect Capra hircus global diversity. Genet Sel Evol 53, 86 (2021).
  • Frantz, L.A.F., Bradley, D.G., Larson, G. et al. Animal domestication in the era of ancient genomics. Nat Rev Genet 21, 449–460 (2020).
  • Sanchez, T. et al. dnadna : a deep learning framework for population genetics inference. Bioinformatics 39, btac765 (2023) https://mlgenetics.gitlab.io/dnadna/index.html
  • Schrider, D. R. & Kern, A. D. Supervised Machine Learning for Population Genetics: A New Paradigm. Trends in Genetics 34, 301–312 (2018)
Contact: 

Pierre Faux

email: 
Pierre dot Faux at inra dot fr
Phone: 
0561285121