Institut Montefiore - Service de Méthodes Stochastiques

Propositions de travaux de fin d'études 2005-2006

Classification et segmentation d'images par apprentissage automatique (attribué à Mohamed Larbi Aiche et Vincent Botta)
Prédiction de séries temporelles par apprentissage automatique (attribué à Valentin Richir)
Boosting dans le cadre du " Segment and Combine " (attribué à Pierre Brantz)
Apprentissage actif (attribué à Vincent Rondia)
Développement d'un logiciel d'apprentissage automatique de réseaux bayésiens (attribué à Bruno Demarche)
Application et critique de l'analyse discriminante appliquée à un procédé de fabrication en continu (la galvanisation)
Classification automatique du comportement de dispositifs de réglage primaire de la fréquence(attribué à Bertrand Cornélusse)
Analyse de la sécurité de systèmes électriques dans un cadre multi agents
Classification de séquences biologiques à l'aide de méthodes à base de noyaux (attribué à Alaoui Hicham)
Modélisation de la réponse du virus HIV lors de l'arrêt de la trithérapie(attribué à Anne-Cécile Gilles)
Modélisation d'un processus fabrication de nanopoudres par plasma

Classification et segmentation d'images par apprentissage automatique (attribué)

Ce travail se situe dans la continuité des travaux de recherches menés à l'ULg utilisant l'apprentissage automatique pour la synthèse de classificateurs d'images robustes et autonomes. Il s'agit de proposer et d'étudier des extensions de la méthode basée sur l'extraction de sous-fenêtres et la classification au moyen d'ensembles d'arbres de décision aléatoires, notamment dans le but de traiter des problèmes à classes multiples (un image contenant des objets de plusieurs classes différentes) et/ou d'images souffrant d'encombrement (un grand nombre d'objets présents dans les images).

Profil souhaité : ingénieur électronicien, informaticien, ou licencié en informatique

Référence : Thèse de doctorat de Raphaël Marée

Encadrement : Raphaël Marée

Prédiction de séries temporelles par apprentissage automatique (attribué)

Ce travail a pour but d'étudier la prédiction de séries temporelles par apprentissage automatique. Le travail commencera par une revue bibliographique des méthodes classiques (ARMA, chaînes de Markov cachées, etc) et se poursuivra par une implémentation informatique de ces méthodes et une analyse critique des différentes méthodes, en se basant notamment sur un certain nombre de problèmes de test (benchmarks de la littérature). Ces méthodes seront ensuite comparées avec une nouvelle méthode de prédiction de séries temporelles faisant appel à des ensembles d'arbres de régression aléatoires.

Profil souhaité : ingénieur électronicien, informaticien, ou licencié en informatique

Référence : G.E.P. Box and G. Jenkins, Time Series Analysis, Forecasting and Control, 1990, Isbn 0816211043, Holden-Day, Incorporated.

Encadrement : Pierre Geurts

Boosting dans le cadre du " Segment and Combine "

(attribué)

Le boosting conçoit un algorithme d'apprentissage automatique en appliquant un algorithme de base par itérations successives sur la base de données d'apprentissage, et en combinant les modèles ainsi produits. Cette approche a donné lieu à des algorithmes très puissants ainsi qu'à une nouvelle direction de recherche théorique en apprentissage automatique, visant à mieux comprendre les excellentes performances du boosting. Le " segment and combine " est une autre approche générique en apprentissage automatique qui s'applique aux objets complexes telles que textes, images, séries temporelles, et qui construit un classificateur en segmentant les objets en sous-parties (morceaux de texte, parties d'images, sous-séries temporelles) et en combinant la classification de ces parties pour déterminer la classe d'un objet complexe. Le but du travail sera de proposer une approche permettant de combiner le boosting et le " segment and combine ".

Profil souhaité : ingénieur électronicien, informaticien, ou licencié en informatique

Référence : Thèses de doctorat de Pierre Geurts et de Raphaël Marée

Encadrement : Pierre Geurts

Apprentissage actif

(attribué)

L'apprentissage actif consiste à combiner l'extraction de modèles à partir de données issues d'expériences avec un système avec l'expérimentation sur ce système visant à produire de nouvelles données de manière à accélérer l'apprentissage. Le travail effectuera une synthèse bibliographique des différents protocoles et algorithmes d'apprentissage actif présentés dans la littérature, proposera un modèle formel général, investiguera les caractéristiques de ce modèle, et proposera un algorithme générique d'apprentissage actif.

Profil souhaité : ingénieur informaticien, électronicien ou licencié en informatique.

Références : quelques articles sur le sujet

Encadrement : Louis Wehenkel

Développement d'un logiciel d'apprentissage automatique de réseaux bayésiens (attribué)

Les réseaux bayésiens modélisent un système sous la forme d'un graphe paramétré qui représente la distribution conjointe des variables externes (mesurées) et internes (non mesurées) du processus. L'apprentissage automatique de réseaux bayésiens vise à déterminer la structure du graphe et/ou les valeurs de ses paramètres à partir d'un ensemble d'observations effectuées sur le processus. Cela permet de mieux comprendre le processus et fournit un modèle informatique permettant le diagnostic et la prédiction du comportement du processus. Ce travail à pour objectif le développement d'un logiciel interactif de construction et d'apprentissage de réseaux bayésiens intégré dans le logiciel PEPITo développé par l'ULg et la société PEPITe. Ce logiciel comportera notamment une interface graphique permettant la visualisation et l'édition de réseaux bayésiens, ainsi que des algorithmes d'apprentissage automatique permettant de déterminer un jeu optimal de paramètres à partir d'une base de données complète. Ce travail se fera en collaboration avec la société PEPITe.

Profil souhaité : licencié en informatique.

Référence : Réseaux bayésiens, P. Naïm, P.-H. Wuillemin, P. Leray, O. Pourret, A. Becker, 2004, Eyrolles.

Encadrement : Laurent Eschenauer (PEPITe S.A.), Vincent Auvray (ULg)

Application et critique de l'analyse discriminante appliquée à un procédé de fabrication en continu (la galvanisation)

Le travail commencera par une étude bibliographique visant à bien comprendre l'analyse discriminante et ses variantes modernes, dans le but d'en identifier les principales limitations et les conditions d'application (propriétés des données devant être satisfaites). Il se poursuivra par le choix d'une application dans le cadre de la galvanisation, en fonction de la revue théorique. Celle-ci sera réalisée avec le support de l'ingénieur d'ARCELOR responsable du procédé, et se placera dans un contexte où la réponse théorique physique du procédé sera connue. On analysera dans quelle mesure la méthode reproduit correctement cette réponse physique et permet la mise en évidence de certains paramètres cachés.

Profil souhaité : ingénieur électronicien ou mécatronicien.

Encadrement : Philippe Mack (PEPITe S.A.), Louis Wehenkel (ULg)

Classification automatique du comportement de dispositifs de réglage primaire de la fréquence (attribué)

Le travail vise la mise au point d'une méthode de classification de séries temporelles permettant de déterminer la qualité du réglage primaire de la fréquence effectué par les différents générateurs connectés au réseau à très haute tension belge. Ce travail sera effectué en collaboration avec la société ELIA (gestionnaire du réseau de transport belge). Il fera appel à l'apprentissage automatique et au traitement du signal, et devrait déboucher sur la mise au point d'un logiciel qui pourrait être utilisé par ELIA pour automatiser l'analyse des données.

Profil souhaité : ingénieur électricien ou informaticien.

Référence : TFE réalisé par A. Garcia, 2004-2005.

Encadrement : Claude Wera (ELIA), Louis Wehenkel (ULg).

Analyse de la sécurité de systèmes électriques dans un cadre multi agents

L'analyse de la sécurité d'un système synchrone (par exemple le système européen) est effectuée par les gestionnaires de réseaux électriques nationaux (France, Belgique, Hollande, etc) utilisant des informations partielles relatives à l'état du système et analysant l'impact au niveau de leur zone de responsabilité des incidents pouvant se produire dans cette zone. Cela rend difficile la coordination des actions de sauvegarde en cas de risque d'instabilité, et a été cité comme étant à la source de pannes majeures (blackouts en Italie, et aux Etats-Unis en 2003). Le travail développera une méthodologie permettant de mieux coordonner les analyses locales, de manière à réaliser une analyse complète de la sécurité du système global et à permettre à l'ensemble des opérateurs d'avoir une vision cohérente de cette sécurité.

Profil souhaité : ingénieur électricien ou informaticien.

Référence : quelques articles et présentations seront fournis lors de l'attribution

Encadrement : Louis Wehenkel.

Classification de séquences biologiques à l'aide de méthodes à base de noyaux

(attribué)

L'apprentissage automatique a de nombreuses applications en biologie telles que par exemple la détection de gènes dans la séquence d'ADN ou la prédiction de fonctions de protéines. Ces données se présentent sous la forme de séquences (séquences d'ADN, séquences d'acides aminés) qui ne sont pas aisément exploitables dans le formalisme attribut/valeur utilisé par la plupart des méthodes d'apprentissage automatique. Une manière de prendre en compte des données de ce type est d'utiliser des méthodes à base de noyaux. De manière simplifiée, ces méthodes se basent uniquement sur une mesure de similarité (un noyau) entre objets de la base de données et donc peuvent s'appliquer à tout type de données pour lequel un noyau peut être défini. Plusieurs noyaux ont été proposés pour des données de type séquentiel. Le travail consistera d'abord à faire une recherche dans la littérature pour dégager un petit ensemble de noyaux pertinents. Ces différents noyaux seront ensuite implémentés au sein d'un logiciel existant et validés sur plusieurs problèmes de biologie. Cette approche pourra également être comparée avec des méthodes basées sur le " segment and combine " et des méthodes d'ensemble d'arbres de décision développées à l'ULg.

Profil souhaité : ingénieur électricien ou informaticien ou licencié en informatique

Référence : quelques articles, TFE réalisé par A. Cuesta, 2004-2005

Encadrement : Raphaël Marée, Pierre Geurts

Modélisation de la réponse du virus HIV lors de l'arrêt de la trithérapie (attribué)

Il s'agit d'exploiter les données de patients souffrant du SIDA dont le traitement a été interrompu, dans le but de déterminer un modèle prédisant la durée pendant laquelle ce traitement peut être interrompu sans risques pour le patient. Ce travail est effectué dans le cadre de la plateforme bioinformatique du centre GIGA et en collaboration avec le Professeur Michel Moutschen du CHU. Le travail aura pour premier objet de mettre en place une base de données permettant d'organiser les données collectées dans le cadre clinique.

Profil souhaité : licencié en informatique

Contact : Raphaël Marée

Modélisation d'un processus fabrication de nanopoudres par plasma

L'objectif de ce travail est de déterminer les paramètres importants influençant les caractéristiques de fabrication des nanopoudres obtenues à partir d'un procédé par plasma à pression atmosphérique.
Ce travail consistera:

à bien définir dans un premier temps les paramètres et variables à étudier
à élaborer un plan d'expériences
à réaliser ou participer aux essais de fabrications des nanopoudres
de prélever pour chaque essai les paramètres du processus mais également les caractérisations des nanopoudres (mesure TEM, surface spécifique, mesure des phases cristallines par RX, distribution granulométrique, …)
de construire un modèle en se basant sur le logiciel de data mining corrélant les propriétés des nanopoudres aux paramètres du procédé de fabrication.
d'analyser les corrélations existantes entre différents paramètres du procédé
de valider ce modèle avec des essais complémentaires
de proposer un ensembles de règles permettant de prédire les propriétés des nanopoudres en fonction des paramètres du processus.

L'étudiant devra être autonome et s'insérer dans une équipe de chercheurs qui l'aideront à faire ses essais. La partie expérimentale au lieu au CRIF sur pilote de fabrication de nanopoudres ; la partie traitement et analyse des résultats se fera avec les ingénieurs de Pepite, de l'ULg et du CRIF. Le travail est hautement CONFIDENTIEL.

Profil souhaité : ingénieur électronicien ou physicien

Contacts : Louis Wehenkel (ULg), Frédérik Cambier (CRIF)

Stochastic Methods

Propositions de travaux de fin d'études 2005-2006

Classification et segmentation d'images par apprentissage automatique (attribué)

Prédiction de séries temporelles par apprentissage automatique (attribué)

Boosting dans le cadre du " Segment and Combine "

Apprentissage actif

Développement d'un logiciel d'apprentissage automatique de réseaux bayésiens (attribué)

Application et critique de l'analyse discriminante appliquée à un procédé de fabrication en continu (la galvanisation)

Classification automatique du comportement de dispositifs de réglage primaire de la fréquence (attribué)

Analyse de la sécurité de systèmes électriques dans un cadre multi agents

Classification de séquences biologiques à l'aide de méthodes à base de noyaux

Modélisation de la réponse du virus HIV lors de l'arrêt de la trithérapie (attribué)

Modélisation d'un processus fabrication de nanopoudres par plasma