Complétion du réseau OMIM par apprentissage automatique

La base de données OMIM (Online Mendelian Inheritance in Man) recense les liens connus entre les gènes humains et les différentes maladies génétique. Cette base de données permet de définir un réseau entre gènes dans lequel deux gènes sont connectés lorsqu’ils sont impliqués dans une même maladie. Ce réseau apporte une information très importante pour étudier les différentes maladies et le rôle des différents gènes au sein de ces dernières.

Le but de ce travail est d’évaluer la possibilité de prédire la co-occurence entre gènes dans une même maladie par apprentissage automatique. La première partie du travail consistera à bien comprendre la structure de la base de données OMIM et à collecter le réseau de gènes et les différentes information sur ces gènes qui seront utilisées pour la phase d’apprentissage. Ensuite, différentes méthodes d’inférence de réseau seront sélectionnées et testées par validation croisée sur le réseau collecté.

omim.jpg
(figure taken from “the human disease network”, Goh et al., PNAS 2007)

Bibliographie:

* http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim

* The human disease network Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabási AL. PNAS, 2007 May 22;104(21):8685-90.

* Inferring biological network with output kernel trees P.Geurts, N.Touleimat, M.Dutreix, and F. d’Alché-Buc, BMC Bioinformatics, 2007

Renseignements:

Pierre Geurts, Alexandre Irrthum