Inférence de l’histoire démographique des populations de chèvre par deep learning

Job Type: 
Stage Master 2

(English version below)

Sujet de stage

L’histoire des espèces domestiques animales est fortement liée à celle des populations humaines, de la domestication jusqu’à l’établissement de races d’élevage en passant par la colonisation de nouveaux environnements depuis les aires de répartition des espèces sauvages ancestrales. Reconstruire l’histoire démographique des espèces animales domestiques permet donc de mieux comprendre l’adaptation au milieu et aux pratiques d’élevage et offre une perspective originale sur l’histoire des populations humaines. L’étude de l’histoire démographique des populations animales a pendant longtemps été le travail d’archéo-zoologues mais depuis quelques années, les données issues de la génomique permettent d’en offrir une nouvelle perspective (e.g. Frantz et al. 2020). Encore plus récemment, des avancées en intelligence artificielle, et plus spécifiquement en apprentissage profond (deep learning) promettent de pouvoir estimer des histoires plus complexes (Schrider & Kern, 2018). Ces nouvelles méthodes offrent, outre une efficacité prédictive avérée, des avantages pratiques tels que l’applicabilité à de larges jeux de données ou la portabilité des modèles entraînés. Parmi les méthodes récemment disponibles, le logiciel dnadna (Deep Neural Architecture for DNA ; Sanchez et al. 2023) propose un environnement de travail (formatage de données, définition de modèles, etc.) favorisant l’échange de modèles et la reproduction des analyses. Dans le cadre de ce stage de recherche, nous proposons d’appliquer un modèle déjà entrainé et disponible dans l’environnement dnadna pour reconstruire l’histoire démographique de populations de chèvres (Capra hircus). Cette espèce est choisie car nous disposons d’un jeu de données récent et important encore peu exploité : la base de données VarGoats (Denoyelle et al., 2021), une collection récemment constituée de 1,327 génomes de chèvres domestiques et de 45 échantillons d’espèces caprines sauvages. L’objectif du stage sera de caractériser les évènements de contraction et expansion consécutifs à la domestication de l’espèce et à sa structuration en races ou sous-populations sur les différents continents. Pour travailler sur ce sujet, nous recherchons une personne enthousiaste et intéressée par les questions d’évolution en espèces domestiques, formée aux concepts de base de génétique des populations, familière avec l’environnement de travail Linux et sachant coder (R, Python ou autre).

Environnement et encadrement

Le stage se réalisera au sein de l’équipe Chamade (Caractérisation et gestion de la diversité génétique) de l’UMR 1388 GenPhySE (Génétique, Physiologie et Systèmes d’Elevage) située à Castanet-Tolosan (en périphérie toulousaine, 15 minutes en bus de Ramonville St-Agne). Au sein de cette équipe, la personne recrutée sera encadrée par Pierre Faux et Bertrand Servin.

Références :

  • Denoyelle, L. et al. VarGoats project: a dataset of 1159 whole-genome sequences to dissect Capra hircus global diversity. Genet Sel Evol 53, 86 (2021).
  • Frantz, L.A.F., Bradley, D.G., Larson, G. et al. Animal domestication in the era of ancient genomics. Nat Rev Genet 21, 449–460 (2020).
  • Sanchez, T. et al. dnadna : a deep learning framework for population genetics inference. Bioinformatics 39, btac765 (2023) https://mlgenetics.gitlab.io/dnadna/index.html
  • Schrider, D. R. & Kern, A. D. Supervised Machine Learning for Population Genetics: A New Paradigm. Trends in Genetics 34, 301–312 (2018)

========

ENGLISH VERSION

Deep learning for inferring demographic history of goat populations

Topic:

The histories of livestock and human are tightly related, from the original domestication of livestock to the definition of breed standards. Inferring the demographic history of livestock allows to better understand the adaptation to their environment and to breeding practices. It is also informative on the history of human populations from an original perspective. Such questions were, for a long time, mostly addressed by archaeo-zoologists but the recent advent of genomics made analyses possible under a new perspective (e.g. Frantz et al. 2020). Even more recently, some developments in artificially intelligence, specifically in deep learning, showed promising abilities for inferring complex histories (Schrider & Kern, 2018). Besides enhanced predictive power, these novel methods include practical advantages such as applicability to large datasets or portability of the trained models. Among recent methods, the dnadna toolbox (Deep Neural Architecture for DNA; Sanchez et al. 2023) offers a work environment (data formatting, model definition, etc.) oriented towards the promotion of reproducibility of analyses and model sharing. In this internship, we aim at applying an existing model (already trained and made available within the dnadna framework) to goat (Capra hircus) populations data in order to infer their demographic histories. We focus on this livestock species because a large set of caprine sequences was recently made available: the VarGoats database (Denoyelle et al., 2021) includes sequences from 1,327 domestic and 45 wild goats. The aim of this internship will be to characterize the contraction and expansion events that followed domestication and genetic structuration in breeds/subpopulations in various areas. We are looking for someone enthusiastic and interested on evolutionary questions in livestock, trained in population genetics, familiar with Linux command line and with coding skills (in R, Python or other).

References:

  • Denoyelle, L. et al. VarGoats project: a dataset of 1159 whole-genome sequences to dissect Capra hircus global diversity. Genet Sel Evol 53, 86 (2021).
  • Frantz, L.A.F., Bradley, D.G., Larson, G. et al. Animal domestication in the era of ancient genomics. Nat Rev Genet 21, 449–460 (2020).
  • Sanchez, T. et al. dnadna : a deep learning framework for population genetics inference. Bioinformatics 39, btac765 (2023) https://mlgenetics.gitlab.io/dnadna/index.html
  • Schrider, D. R. & Kern, A. D. Supervised Machine Learning for Population Genetics: A New Paradigm. Trends in Genetics 34, 301–312 (2018)
Contact: 

Pierre Faux

email: 
Pierre dot Faux at inra dot fr
Phone: 
0561285121