Stochastic Methods


Propositions de travaux de fin d'études 2004-2005


Développement d'un outil de recherche dans les bases de données génétiques

Les récentes avancées en biologie moléculaire et en génomique ainsi que les progrès au niveau de l'équipement disponible dans ces domaines ont permis de réaliser le séquençage total ou partiel du génome de plusieurs espèces. En conséquence, les bases de données qui contiennent ces séquences ont connu une croissance exponentielle ces dernières années. Parmi celles-ci, les plus populaires sont Genbank et EMBL. Ces banques de données sont devenues des éléments centraux de la recherche dans ce domaine et il est donc crucial pour les biologistes de disposer d'outils informatiques adéquats leur permettant d'analyser ces données. La bioinformatique est parfois définie comme l'application des technologies informatiques à la gestion et l'analyse de données biologiques.

Dans ce contexte, le but de ce travail de fin d'études sera de mettre au point un outil de recherche dans ces bases de données génétiques. Cet outil sera développé dans le cadre des recherches sur le pancréas menées par le laboratoire de biologie moléculaire et de génétique de l'université de Liège.

Profil souhaité: un ingénieur ou un licencié en informatique ayant un certain intérêt pour les sciences du vivant.

Contact: Pierre Geurts (p.geurts@ulg.ac.be)

Comparaison de différentes mesures d'importance de variables par ensemble d'arbres de décision/régression

Le but de l'apprentissage supervisé est de trouver une fonction d'un certain nombre de variables d'entrée qui estiment au mieux une variable de sortie, cela uniquement à partir d'une base de données d'exemples de paires entrées-sortie. Dans beaucoup d'applications récentes de l'apprentissage, les bases de données à traiter comportent un nombre très important de variables d'entrée (typiquement plusieurs milliers). Citons comme exemples la classification d'images, l'analyse de données textuelles (text mining) ou encore, en médecine, l'analyse de profils d'expressions de gènes obtenus à partir de bio-puces ADN (DNA Microarray). Les méthodes d'apprentissage récentes telles que les méthodes d'ensembles d'arbres de décision et les machines à support vectoriel sont capables de fournir des résultats acceptables (en terme de précision) dans ces conditions extrêmes. Malheureusement, elles ne fournissent pas directement des résultats interprétables qui peuvent aider à la compréhension du problème étudié.

Une technique possible pour retrouver cette interprétabilité est de déterminer à partir du modèle prédictif l'importance (relative) des différentes variables pour la prédiction de la variable de sortie. Il existe plusieurs méthodes permettant de calculer une information de ce type à partir d'un ensemble d'arbres de décision. Le travail de fin d'étude consistera à faire une recherche bibliographique sur ces méthodes et à en implémenter un certain nombre (de préférence dans le logiciel de data mining utilisé dans le service). Les différentes méthodes seront ensuite comparées sur des données artificielles (pour lesquelles l'importance des variables est connue) et également sur des données réelles (principalement médicales).

Profil souhaité: ingénieur ou licencié en informatique

Cours requis: apprentissage inductif appliqué, théorie de l'information et du codage.

Contact: Pierre Geurts (p.geurts@ulg.ac.be)

Apprentissage automatique sur données biomédicales à l'aide de méthodes à base de noyaux

L'apprentissage automatique peut être utilisé pour mettre au point automatiquement des règles d'aide à la décision médicale à partir d'une base de données de patients sur lesquels on a réalisé diverses mesures et dont on connaît l'état de santé par ailleurs. A l'heure actuelle les recherches en médecine visent notamment à exploiter dans ce contexte de nouvelles techniques de mesure, telles que l'analyse spectrale de liquides physiologiques ou les bio-puces à ADN. Ces techniques sont en effet capables de fournir une information très riche sur l'état d'un patient du point de vue protéomique et génomique, dont l'exploitation correcte devrait permettre l'amélioration du diagnostic, du pronostic et des soins apportés au patient. Informatiquement, ces données se présentent sous la forme de vecteurs ou de matrices fournissant les valeurs d'un très grand nombre de variables (typiquement plusieurs dizaines de milliers) pour chaque patient. L'application de l'apprentissage automatique à ce type de données nécessite l'utilisation de méthodes permettant d'exploiter un très grand nombre de variables et d'y trouver l'information recherchée.

L'objectif de ce travail de fin d'études sera d'exploiter des données biomédicales expérimentales à l'aide de méthodes d'apprentissage à base de noyaux, qui comprend notamment la méthode du plus proche voisin et les machines à vecteurs de support. Les données utilisées correspondent à différentes maladies inflammatoires (maladie de Crohn et poly-arthrite) qu'il s'agit de reconnaître le plus fiablement possible à partir de spectres de masses protéomiques obtenus sur des patients sains et malades. Les résultats obtenus seront comparés aux résultats déjà obtenus sur ces problèmes à l'aide d'autres méthodes basées sur des arbres de décision.

Ce travail s'insère dans le cadre du centre interfacultaire GIGA de l'ULg et des recherches qui y sont menées en collaboration entre l'équipe de Méthodes stochastiques du département Montefiore et l'équipe protéomique du laboratoire de chimie médicale (CTCM, centre de thérapie cellulaire et moléculaire).

Profil souhaité: ingénieur informaticien ou électronicien intéressé par les applications biomédicales et l'apprentissage automatique.

Contact: Pierre Geurts (p.geurts@ulg.ac.be)

Classement automatique des poudres

L'industrie des poudres couvre la totalité des secteurs industriels (pharma, alimentaire, sidérurgie,...). Dans ce marché, la société Occhio a développé une technologie d'imagerie particulièrement performante pour l'analyse et le contrôle de la qualité des poudres.

A partir des banques d'images obtenues par les machines d'OCCHIO, ce travail consistera à construire des modèles de classement automatique de poudres et d'en déterminer les limites. Outre le classement "évident" de poudre morphologiquement très différentes, la robustesse de l'approche sera testée pour le contrôle de poudres fortement semblables, de la stabilité d'un mélange de poudres, de l'évolution de la qualité du produit. Ces modèles de classement seront obtenus par apprentissage automatique au moyen des outils développés par la société PEPITe et le Service de Méthodes Stochastiques.

Ce travail de recherche présuppose un intérêt pour l'imagerie, la programmation et l'apprentissage automatique.

Ce TFE pourrait être couplé à un stage en entreprise.

Partenaires industriels: OCCHIO développe des machines industrielles de contrôle de poudre par vision artificielle, et, PEPITe développe des outils logiciels de modélisation à partir de données (Data Mining) pour l'industrie.

Contacts industriels: ph.mack@pepite.be et vincent.chapeau@occhio.be

Contact académique: Raphaël Marée

Références:
"Une méthode générique pour la classification automatique d'images à partir des pixels", Raphaël Marée, Pierre Geurts, Louis Wehenkel, JDS03, Journées de Statistique 2003, 2-6 juin 2003, Session spéciale « Méthodes Statistiques pour l'Image », Lyon, France.
"A Generic Approach for Image Classification Based on Decision Tree Ensembles and Local Sub-Windows", Raphaël Marée, Pierre Geurts, Justus Piater, Louis Wehenkel, ACCV 2004 (Sixth Asian Conference on Computer Vision), 28-30th January 2004, Jeju Island, South Korea.

Application de l'apprentissage automatique au contrôle de réseaux d'énergie électrique

Le contrôle des flux de puissance dans un réseau d'énergie électrique peut être réalisé au moyen de dispositifs basés sur l'électronique de puissance agissant sur les impédances équivalentes des lignes à très haute tension. Ce contrôle permettrait notamment de stabiliser des oscillations de type électromécanique. Dans ce contexte, le but de ce travail de fin d'études est d'appliquer l'apprentissage automatique à la synthèse d'un algorithme de contrôle d'un système de compensation série variable. On investiguera notamment les protocoles d'apprentissage supervisé et par renforcement et on étudiera leur application dans le cadre d'un système de test simple simulé.

Le travail de fin d'études fera apppel à des logiciels de simulation de réseaux d'énergie électrique et d'apprentissage automatique développés dans le cadre des recherches menées à l'Université de Liège.

Profil souhaité: ingénieur informaticien ou électronicien intéressé par les applications de l'apprentissage automatique.

Contact: Louis Wehenkel (L.Wehenkel@ulg.ac.be)