TFE 2007-2008

Ci-dessous la liste des travaux de fin d'études que nous proposons. Celle-ci sera complétée dans les prochaines semaines.


Bioinformatique/biomédical

Analyse de spectres de masse protéiques par analyse en composantes indépendantes(attribué à Francois Ghilain)

Apprentissage supervisé et sélection de variables pour la reconstruction de réseaux de régulation génétiques à partir de cinétiques d'expression

Analyse d'expression de gènes en composantes creuses

Analyse d'expression de gènes dans les rythmes cellulaires

Modélisation dynamique du syndrome d'apnées du sommeil en vue du contrôle par régulation du flux nasal

Modélisation du courant IM dans les neurones dopaminergiques (attribué à Guillaume DRION)

Apprentissage automatique / Analyse d'images

Utilisation de noyau en entrée des méthodes d'arbres de décision

Méthode d'ensemble pour l'apprentissage de réseaux bayésiens

Classification automatique d’images à rayons-X (attribué à François Rosière)

Analyse automatique d'images hyperspectrales

Optimisation d'algorithmes d'apprentissage par GPGPU (attribué à Adrien Dessily)

Sélection de variables dans des espaces de haute dimension pour la classification automatique

Théorie des systèmes/contrôle/Traitement du signal

Commande rythmique d'un robot marcheur

Modélisation dynamique du syndrome d'apnées du sommeil en vue du contrôle par régulation du flux nasal

Modélisation du courant IM dans les neurones dopaminergiques




Analyse de spectres de masse protéiques par analyse en composantes indépendantes

Les techniques de spectrométrie de masse modernes permettent la détermination d'un profile protéique à partir de fluides corporels tels que le sang ou la salive. Ce profile protéique peut être utilisé dans beaucoup d'applications médicales, par exemple pour diagnostiquer l'état courant d'un patient ou prédire l'évolution future de sa maladie.

L'analyse en composantes indépendantes (ICA) est une approche capable de réaliser une séparation aveugle de sources, c'est-à-dire la reconstitution des sources à l'origine de signaux mesurés sans connaissance préalable du processus de mélange. A l'heure actuelle, différents algorithmes d'ICA sont disponibles. Un spectre de masse protéique étant obtenu comme la superposition de plusieurs signaux correspondants à différentes protéines, il paraît naturel d'appliquer les techniques d'ICA pour l'analyse de ce type de données.

Le travail de fin d'étude consistera à exploiter les techniques d'ICA pour l'analyse de spectres de masse protéiques dans le contexte du diagnostic médical de diverses maladies. L'ICA sera d'abord exploité comme une méthode de sélection de variables précédant l'application de méthodes d'apprentissage automatique. Ensuite, la pertinence biologique des modes indépendants mis à jour sera évaluée conjointement avec les biologistes. Les données utilisées seront des données réelles correspondant à différentes maladies inflammatoires étudiées par les laboratoires de chimie médicale et de rhumatologie de l'Université de Liège.

Profil souhaité: ingénieur civil (PHYS,INFO,ELEC,MECA). Goût pour les application biomédicales et pour les aspects algorithmiques.

Bibliographie:

  • Proteomic mass spectra classification using decision tree based ensemble methods, Pierre Geurts, Dominique deSeny, Marianne Fillet, Marie-Alice Meuwis, Michel Malaise, Marie-Paule Merville, Louis Wehenkel. Bioinformatics, Volume 21, Number 14, page 3138-3145, 2005.
  • Independent Component Analysis: An Introduction, Stone J.V., Trends in Cognitive Sciences, 6(2), pp59-64, 2002.
  • Elucidating the Altered Transcriptional Programs in Breast Cancer using Independent Component Analysis, Andrew E. Teschendorff , Michel Journee, P.-A. Absil, Rodolphe Sepulchre and Carlos Caldas. Submitted (2007)
  • Metabolite fingerprinting: detecting biological features by independent component analysis M. Scholz, S. Gatzek, A. Sterling, O. Fiehn and J. Selbig BIOINFORMATICS Vol. 20 no. 15 2004, pages 2447-2454

Renseignements/Encadrement : R. Sepulchre, Pierre Geurts


Apprentissage supervisé et sélection de variables pour la reconstruction de réseaux de régulation génétiques à partir de cinétiques d'expression

Comprendre la réponse de la cellule à un signal donné requiert l'élucidation des mécanismes complexes qui gouvernent l'expression génique et donc la synthèse de protéines. Ces mécanismes sont mis en oeuvre par un réseau d'interactions entre les gènes et/ou leurs produits. Identifier ces interactions notamment à partir de mesures expérimentales constitue à l'heure actuelle un problème majeur. Pour résoudre ce problème, l'apprentissage automatique offre un cadre à la fois formel et méthodologique.

Ce travail se focalisera sur la reconstruction de réseaux de régulation génétiques à partir de mesures expérimentales de cinétiques d'expression de gènes. La plupart des méthodes d'analyse de données cinétiques construisent un modèle probabiliste de la dynamique qui fait l'hypothèse markovienne que l'expression d'un gène à l'instant t est fonction de l'expression d'un certain nombre de gènes (régulateurs) à l'instant t-1. Ce problème peut donc être traduit en un problème d'apprentissage supervisé classique où chaque pas de temps constitue un échantillon pour l'apprentissage. On peut le traiter plus naturellement comme un problème de régression (prédiction directe de l'expression) mais également comme un problème de classification (après discrétisation des valeurs d'expression). L'intérêt étant la reconstruction du réseau de régulation, il est nécessaire de combiner cet apprentissage avec une recherche des régulateurs pour chacun des gènes. Dans ce contexte supervisé, cette recherche s'apparente à un problème de sélection de variables.

Ce travail étudiera différentes méthodes d'apprentissage et de sélection de variables pour ce problème. D'abord une revue de la littérature sur la sélection de variables en apprentissage supervisé sera faite, en privilégiant les méthodes à base de noyau et les méthodes d'arbre de décision. Ensuite, on étudiera nombre limité de méthodes, d'abord sur des données simulées, ensuite sur données réelles relatives au cycle cellulaire de la levure.

Renseignements/Encadrement : P. Geurts, L.Wehenkel


Analyse d'expression de gènes en composantes creuses

Les données d'expression de gène fournissent des matrices de grande taille quantifiant l'expression d'un grand nombre de gènes (plusieurs milliers) dans un nombre limité d'échantillons (quelques centaines). L'analyse de ces données vise notamment à extraire un nombre limité de gènes (une dizaine) co-exprimés de manière différenciée au travers des différents échantillons. Ces petits groupes de gènes peuvent aider le biologiste à identifier par exemple des fonctions cellulaires déficientes dans une maladie donnée.

Les méthodes de réduction de données issues du traitement statistique de signaux sont efficaces pour extraire des sous-ensembles de données pertinents sous la forme de modes principaux (PCA) ou de modes statistiquement indépendants (ICA). Elle souffrent cependant d'un manque d'interprétabilité car les modes extraits impliquent génériquement un très grand nombre de gènes avec une pondération continue plutôt que binaire.

Le travail étudiera comment des contraintes de sparsité dans l'algorithme de réduction de données peuvent remédier à ce problème, en augmentant l'interprétabilité des données réduites sans faire exploser la complexité des algorithmes. Il comportera l'étude de quelques algorithmes récents ainsi que leur application à des bases de données actuellement utilisées pour l'étude protéomique des mécanismes du cancer.

  • Elucidating the altered transcriptional programs in breast cancer
    using independent component analysis. A. Teschendorff, M. Journee, P.-A. Absil, R. Sepulchre, C. Caldas. In press.
  • Full regularization path for sparse principal component analysis.
    A. d'Aspremont, F. Bach, L. El Ghaoui.

Renseignements/Encadrement : R. Sepulchre


Analyse d'expression de gènes dans les rythmes cellulaires

L'étude temporelle de l'expression de gènes au sein d'une même cellule peut être très utile pour mieux comprendre les mécanismes de régulation qui gouvernent un processus rythmique tel que la division cellulaire ou le rythme circadien.

Le mémoire comprendra deux parties. Une partie consacrée à une étude bibliographique des modèles dynamiques récemment proposés pour étudier le cycle celllulaire et le rythme circadien; une autre partie consacrée aux méthodes d'identification des gènes participant à ces rythmes sur base des données d'expression disponibles dans la littérature.

Références:

  • Comparison of computational methods for the identification of cell- cycle regulated genes. U. de Lichtenberg et al., Bioinformatics, vol. 21, 7, pp. 1164-1171, 2005.

Renseignements/Encadrement : R. Sepulchre


Utilisation de noyau en entrée des méthodes d'arbres de décision

L'apprentissage supervisé vise à construire automatiquement un modèle d'une relation entrée-sortie à partir uniquement d'observations de cette relation. L'apprentissage trouve des applications dans de nombreux domaines tels que la vision par ordinateur et la bioinformatique.

Parmi les méthodes d'apprentissage les plus populaires figurent les méthodes d'arbres de décision et les méthodes à noyau. Les méthodes d'arbres sont réputées pour leur interprétabilité et leur efficacité. Les méthodes à noyau fournissent des modèles de type boite noire et sont plus gourmandes en temps de calcul mais elles sont généralement plus précises. Un autre avantage important des méthodes à noyau est qu'elles peuvent traiter des entrées complexes. En effet, les entrées sont manipulées par l'algorithme via une mesure de similarité (un noyau) et donc ces méthodes peuvent traiter tout type de données pour lesquelles un telle mesure peut être définie.

Des travaux récents de l'équipe ont montré la possibilité d'utiliser un noyau sur la sortie des méthodes arbre, qui leur permettent de traiter des sorties complexes [1]. En entrée, ces méthodes sont cependant toujours limitées à une représentation classique, vectorielle, des entrées.

Ce travail consistera à proposer et à évaluer différentes stratégies pour exploiter un noyau en entrée des méthodes d'arbre. Trois approches pourraient être envisagées:

1) La première consiste à représenter chaque objet par un vecteur de ses similarités (au sens d'un noyau) aux objets de l'ensemble d'apprentissage et à utiliser cette information comme entrée pour les méthodes d'arbre.

2) Une autre approche consisterait à utiliser l'algorithme d'analyse en composante principale pour passer de la matrice de similarité définie par le noyau à une représentation de type vectoriel.

3) Une troisième approche est d'utiliser des machines à support vectoriel pour définir les tests aux noeuds internes de l'arbre.

Ce travail pourra être scindé en deux travaux de fin d'étude: le premier se focalisant sur les 2 premières approches, le deuxième sur la troisième option. Dans les deux cas, le travail commencera par un recherche bibliographique. Les développements en terme de méthode seront évalués sur différents problèmes de bioinformatique.

Renseignements/Encadrement : P. Geurts, L.Wehenkel

Bibliographie :

  • Kernel Methods for Pattern Analysis. J. Shawe-Taylor, N. Cristianini. Cambridge University Press, 2004.
  • Kernelizing the output of tree-based methods. P. Geurts, L. Wehenkel, Florence d'Alché-Buc. Proceedings of the 23rd International Conference on Machine Learning, page 345-352, 2006
  • Prototype selection for dissimilarity-based classification. E. Pekalska, R.P.W. Duin, and P. Paclik. Pattern Recognition, vol. 39, no. 2, 2006, 189-208.
  • Margin Trees for High-dimensional Classification. Robert Tibshirani, Trevor Hastie, JMLR 8(Mar):637--652, 2007
  • A support vector machine approach to decision trees. K. Bennett and J. Blue. Technical report, Rensselaer Polytechnic Institute, NY, 1997. R.P.I Math Report No. 97-100.

Méthode d'ensemble pour l'apprentissage de réseaux bayésiens

Un réseau bayésien permet de modéliser une distribution de probabilité conjointe sur un ensemble de variables aléatoires. Un réseau est défini par un graphe dirigé représentant les relations d'indépendance entre les variables aléatoires et des modèles paramétriques des distributions conditionnelles de chaque variable étant donné ses parents directs dans le graphe. Par le biais d'un algorithme dit d'inférence, il est possible d'obtenir à partir du réseau la distribution de n'importe quelle combinaison de variables connaissant les valeurs d'autres variables. Les réseaux bayésiens ont de nombreuses applications telles que le diagnostic médical ou l'analyse de défaut.

L'apprentissage automatique de réseaux bayésiens vise à déterminer la structure du graphe et/ou les valeurs de ses paramètres à partir d'un ensemble d'observations des valeurs des variables aléatoires. Ce problème est rendu difficile par le nombre exponentiel de structures qui peuvent être construites sur un ensemble de variables donné. Plusieurs heuristiques ont donc été proposées pour explorer efficacement l'ensemble de ces structures.

Ce travail de fin d'étude visera à étudier la possibilité d'exploiter des méthodes d'ensemble pour l'apprentissage de réseaux bayésiens. L'idée de ces méthodes, très populaires dans le contexte de l'apprentissage supervisé, est de générer plusieurs modèles éventuellement sous-optimaux et d'ensuite agréger leurs prédictions pour obtenir un nouveau modèle meilleur que les modèles individuels. Si les réseaux individuels combinés sont suffisamment simples (e.g. des arbres), l'approche pourrait être avantageuse aussi d'un point de vue précision que d'un point de vue efficacité. La méthode mise au point sera implémentée et comparée aux méthodes existantes sur différents jeux de données.

Références:

  • Learning in Graphical Models, M. Jordan, ed.. MIT Press, Cambridge, MA, 1999.
  • M. Meila, M.I. Jordan, Learning with mixtures of trees, JMLR 1:1-48, 2000.

Renseignements/Encadrement : L.Wehenkel


Classification automatique d’images à rayons-X

Ce sujet est co-encadré par Justus Piater et Raphaël Marée. Voir la page de Justus Piater pour plus d'informations.

x-rays

Renseignements/Encadrement : J. Piater, R. Marée

Bibliographie :


Analyse automatique d'images hyperspectrales

Dans une image hyperspectrale, à chaque pixel sont associées de plusieurs dizaines à plusieurs centaines de valeurs d'intensités qui correspondent à la réponse spectrale du pixel. Les images hyperspectrales peuvent être utilisées en imagerie aérienne, en astronomie, ainsi que dans le domaine biomédical. Leur analyse peut être utile pour la détection de la fumée de feux de forêt ou de traces de polluants, la délimitation de zones urbaines pour la génération de cartes, la classification de tissus biologiques, ...

Le premier objectif de ce travail est de réaliser une étude bibliographique afin de comprendre les principaux problèmes rencontrés dans l'analyse de telles images et afin d'identifier les avantages et inconvénients des méthodes actuellement utilisées. Ensuite, il s'agira d'évaluer sur un ensemble d'images une méthode de classification d'images basées sur des ensembles d'arbres de décision. En fonction des résultats, l'étudiant devra proposer une extension ou développer une nouvelle méthode mieux adaptée.

Renseignements/Encadrement:
R. Marée, Philippe Mack (PEPITe)

Bibliographie:


Optimisation d'algorithmes d'apprentissage par GPGPU

Les nouvelles cartes graphiques sont équipées de processeurs qui peuvent être utilisées à des fins autres que graphiques. Ces processeurs, dont les ressources ne sont pas toujours pleinement utilisées, sont programmables et optimisés pour effectuer certains types d'opérations.

En apprentissage automatique, le volume de données à traiter étant de plus en plus important (en classification d'images, en bioinformatique...), il semble judicieux d'exploiter de tels processeurs en vue d'accélérer les algorithmes utilisés.

Le travail de fin d'étude commencera par une recherche bibliographique et une étude des jeux d'instructions afin d'identifier les types d'opération mathématiques pouvant être réalisées de manière efficace par ces processeurs. En fonction de cette pré-étude, l'étudiant choisira un algorithme d'apprentissage automatique, qu'il implémentera et validera.

Profil souhaité :
Licence en informatique / ingénieur informatique

Renseignements/Encadrement : Vincent Botta, L.Wehenkel

Références :


Sélection de variables dans des espaces de haute dimension pour la classification automatique

En classification automatique, on souhaite induire à partir d'un ensemble d'apprentissage d'objets (représentés par des variables d'entrées et une sortie discrète) un modèle qui permet de prédire à partir des entrées la sortie inconnue de nouveaux objets. Ce type de modèle peut être utile pour réaliser un diagnostic médical (où la sortie est un type de maladie), mettre au point un système de reconnaissance d'images, etc.

Les équipements modernes d'une part, et les techniques de description de données structurées d'autre part, génèrent des milliers de mesures par objet. Par exemple, une image peut être décrite par des milliers de variables (pixels, descripteurs de couleurs, de textures, de contours, ...), un échantillon de sang d'un patient peut être décrit par un profil protéique de dizaines de milliers de variables, les variations des paires de base du génome (SNPs) se dénombrent en centaines de milliers, .... Souvent, seul un sous-ensemble réduit de ces variables sont réellement utiles pour classer les objets.

Le but de ce travail est d'implémenter et d'évaluer plusieurs méthodes de sélection de variables (basées notamment sur les arbres de décision) afin d'améliorer les performances des modèles et d'identifier les variables qui contribuent le plus à la classification. L'évaluation pourra porter sur plusieurs bases de données relatives à la classification automatique d'images, de profils protéiques SELDI, et de SNPs. L'étudiant pourra se baser sur du code existant (en C ou Java).

Bibliographie:

Renseignements/Encadrement: Raphaël Marée,Pierre Geurts, L.Wehenkel


Commande rythmique d'un robot marcheur

La robotique rhytmique étudie les mécanismes de contrôle de tâches telles que la marche ou la jonglerie. Des travaux récents ont mis en évidence qu'un robot bipède pouvait effectuer une marche stable sur un plan incliné sans aucune commande active. Le résultat peut être étudié sur un modèle simple à deux articulations, mais l'étude du modèle montre que le résultat n'est valable que dans une plage très restreinte de paramètres, en particulier en ce qui concerne l'inclinaison du plan de marche. Le mémoire étudiera comment on peut augmenter la plage de validité du résultat avec un contrôle simple exclusivement basé sur la détection des impacts avec le sol. L'analyse se basera sur une analogie avec un résultat semblable récemment démontré pour un modèle simple de robot jongleur.

Références:

Renseignements/Encadrement : R. Sepulchre


Modélisation dynamique du syndrome d'apnées du sommeil en vue du contrôle par régulation du flux nasal

Les apnées du sommeil constituent une pathologie étudiée depuis plusieurs années dans le cadre d'une collaboration entre le département et le laboratoire du sommeil du CHU (Pr. Poirrier).

Un modèle dynamique développé dans le laboratoire établit un lien entre la pression oesopahgienne et la section du pharynx. Le modèle devra être étendu pour inclure une variable de flux nasal, permettant de modéliser l'action d'un appareil d'injection d'air (CPAP).

Le capteur utilisé pour mesurer la pression oesophagienne sera constitué du JAWAC (développé par la société Nomics), qui fournit une mesure indirecte via les mouvements mandibulaires.

L'objectif du mémoire sera de compléter le modèle existant pour pouvoir décrire la régulation des apnées par un appareil CPAP à partir du signal fourni par le JAWAC. Le mémoire impliquera une collaboration avec le laboratoire du sommeil (R. Poirrier), la société Nomics (P. Ansay), et J. Penders (Researcher Human ++, IMEC-NL)

Renseignements/Encadrement : R. Sepulchre


Modélisation du courant IM dans les neurones dopaminergiques

Le travail proposé consiste à optimiser et utiliser un modèle d'un type de neurone du système nerveux central de mammifères, à savoir les neurones dopaminergiques (dont certains dégénèrent dans la maladie de Parkinson). A l'aide de ce modèle, nous testons l'hypothèse qu'un courant potassique appelé IM module la capacité de ces neurones à générer une activité électrique en bouffées de potentiels d'action (ces bouffées sont importantes pour la signalisation effectuée par ces neurones).

Le travail consistera, d'une part, à examiner dans quelle mesure cette modulation existe et quelles sont les conditions pour qu'elle se manifeste (localisation des canaux dans le modèle neuronal, influence des afférences synaptiques,...). Les prédictions du modèle seront confrontées aux observations expérimentales effectuées par ailleurs. D'autre part, nous tenterons de comparer les différents modèles de neurones dopaminergiques qui existent dans la littérature au niveau de leur pouvoir prédictif des observations expérimentales les plus récentes. Le but sera d'établir un modèle qui sera le plus performant possible à ce niveau.

Renseignements/Encadrement : R. Sepulchre, M. Bonjean, V. Seutin (CHU)