Combinaison de sources de données pour l’amélioration de la prédiction en apprentissage

Combinaison de sources de données pour l’amélioration de la prédiction en apprentissage

Introduction à l’épidémiologie de l’obésité:   vers l’intégration de données hétérogènes

Épidémiologie humaine

 Tout être humain est unique non seulement par son aspect physique mais aussi par son caractère, sa personnalité et ses comportements. L’historique de la santé de chaque personne est de la même manière unique aussi. De fait, certaines personnes sont sensibles aux infections virales telle que la grippe par exemple tandis que d’autres sont plus résistantes. Ce caractère n’est pas facilement prédictible pour chaque individu, néanmoins il est évident que les caractéristiques et le comportement de chacun jouent un rôle dans la causalité et le degré d’affection aux maladies. Si une population d’individus est exposée d’une manière identique à la même cause d’une maladie on s’attend à ce que ces individus soient atteints plus ou moins de la même manière par cette maladie. De ce fait et afin de comprendre l’incidence d’une maladie sur un individu, l’étude de l’effet de cette maladie sur une population bien définie est nécessaire. L’enjeu est la meilleure compréhension de la maladie et une prise en charge plus adaptée aux patients. 

Définition de l’épidémiologie 

L’épidémiologie est l’étude de la répartition et des déterminants des maladies dans les populations.Le terme provient du mot ‘epidemic’ qui lui‐même viendrait du mot ‘epidemeion’, un mot employé par Hippocrate pour décrire une maladie qui ‘visitait les gens’.  Elle vise à la compréhension des causes des maladies et à l’amélioration de leurs traitements et des moyens de les prévenir. 7 L’ensemble des champs couverts par la santé publique repose sur les données épidémiologiques. Il est important de comprendre que les études épidémiologiques comparent les individus atteints aux individus sains sous forme de groupes ou de populations. Il peut en être de même pour l’influence d’un risque auquel une population est exposée qui sera mis en évidence par rapport à une population non exposée (témoin). La distribution de la maladie étudiée est généralement géographique mais    des distributions par âge, sexe, classe sociale, ethnicité sont toujours d’intérêt.   Parfois, la même population géographique est comparée à elle‐même à différents temps pour explorer l’évolution d’une maladie.Les déterminants d’une maladie sont les facteurs provocateurs de la maladie. L’étude de la distribution de la maladie est essentiellement descriptive. L’étude des déterminantsquant à elle,vise l’étiologie de la maladie. L’objectif de l’épidémiologie est d’informer les professionnels de la santé et la population plus généralement, des améliorations de santé qui peuvent être faites par l’intermédiaire des approches descriptives et étiologiques. Les analyses descriptives doivent permettre une meilleure allocation des services de santé. Les analyses étiologiques doivent permettre d’agir sur les causes et réduire les chances de développer telle ou telle maladie. Les données épidémiologiques sont des sources importantes pour la planification et l’évaluation des services de santé.   L’épidémiologie est souvent vue comme une branche de la médecine qui s’intéresse à la population plutôt qu’aux individus.  Alors que  les praticiens hospitaliers s’intéressent à trouver le meilleur conseil ou traitement à donner à chaque patient individuellement, les épidémiologistes s’intéressent plutôt à trouver un conseil destiné à une population afin de réduire l’effet et l’étendu de la maladie. Cependant, comme l’épidémiologie utilise des données d’agrégation de personnes, elle est considérée comme étant une branche appliquée de la statistique. Les avancées dans ce domaine ont été réalisées grâce à l’interaction entre les différentes disciplines de la médecine et les statistiques. Parmi les autres disciplines représentées dans les groupes de recherche en épidémiologie, citons les biochimistes, les généticiens, les sociologues et les informaticiens. D’autres professionnels peuvent intervenir 8 aussi comme les nutritionnistes et les économistes dans le cadre d’études plus ciblées. Une illustration de l’histoire de l’épidémiologie est présentée plus en détail dans le livre de Stolley et Lasky (Stolley and Lasky 1995).   

Études épidémiologiques 

Il existe un nombre croissant de modèles d’étude utilisés en épidémiologie et les étiquettes employées pour les décrire sont nombreuses. Cependant, cinq catégories peuvent être répertoriées :    Séries de cas (Clinique et population): description d’une série de cas comparables, mais sans comparaison avec un groupe témoin ou un autre groupe de cas.  Transversale: description de la fréquence d’une maladie, de ses facteurs de risque ou de ses autres caractéristiques dans une population donnée pendant un laps de temps déterminé. Comparaison des données obtenues en fin d’études à celles du début de l’étude : étude d’une association (et non d’une relation causale) entre une intervention donnée et l’issue clinique  Cas‐témoin : étude d’observation rétrospective dans laquelle les caractéristiques des malades (les cas) sont comparées à celles de sujets indemnes de la maladie (les témoins). Particulièrement adaptée pour les maladies rares ou celles qui présentent une longue période entre l’exposition et l’issue et pour l’étude d’hypothèses préliminaires  Cohorte (prospective and rétrospective) : étude d’observation, le plus souvent prospective, dans laquelle un groupe de sujets exposés (à des facteurs de risque d’une maladie ou à un traitement particulier) est suivi pendant une période déterminée et comparée à un groupe contrôle non exposé. Étude éventuellement rétrospective réalisée sur base des dossiers médicaux, par exemple, pour évaluer les risques auxquels les sujets ont été exposés antérieurement 9  Essai : étude expérimentale, où les patients éligibles, sélectionnés pour une intervention thérapeutique, sont répartis de manière aléatoire en 2 groupes : le premier groupe reçoit le traitement, tandis que le second reçoit en général un placebo. Répartition au hasard ayant pour but d’assurer que les patients répartis dans les 2 groupes de l’essai sont rigoureusement semblables en tous points, excepté en ce qui concerne l’intervention projetée. Réalisation de l’étude en aveugle ou en double aveugle de manière à écarter tout biais éventuel. La confusion entre ces cinq modèles est classique. Elle est accentuée par l’utilisation des différents termes et l’apparition continuelle de nouveaux mots. Afin de mieux comprendre les différents types d’études épidémiologiques, reprenons dans la Table 1 les idées essentielles ainsi que les objectifs de recherches pour chaque type d’étude.Dans le cas où une étude est atypique, ou comprend un mélange d’idées, il est important de comprendre les idées sous‐jacentes à la conception de l’étude épidémiologique, notamment en termes de finalité, de forme, d’analyse, d’interprétation, et la base de la notion de population. Cette compréhension permet de définir les points communs de la conception des études épidémiologiques, l’objectif commun de ces études étant la compréhension de la fréquence, du motif, et des causes de la maladie dans les populations. Ces études épidémiologiques sont toutes ancrées dans le concept de la population, la connaissance de la relation entre la population étudiée et la population source est essentielle pour l’interprétation, la généralisation et la compréhension des données. Avant d’entamer un plan d’étude épidémiologique, il est important de se poser les questions suivantes : où et quand l’étude a été faite ? À quelle population appartient le groupe étudié ?   Quelles sont les caractéristiques de l’étude ? Est‐ce que les conclusions sont généralisables à toute la population locale et est‐ce qu’elles restent vraies dans d’autres populations ?

Table des matières

Remerciements
Résumé
Table des matières
Liste des tableaux
Liste des figures
Introduction
Structure du mémoire
Chapitre 1 Introduction à l’épidémiologie de l’obésité: vers l’intégration de données hétérogènes
1.1 Épidémiologie humaine
1.1.1 Définition de l’épidémiologie
1.1.2 Études épidémiologiques
1.1.3 L’épidémiologie génétique
1.2 L’obésité : une épidémie des temps modernes
1.2.1 L’obésité dans le monde
1.2.2 L’obésité en Europe
1.2.3 L’obésité en France
1.2.4 Le tissu adipeux : rôle central dans l’homéostasie énergétique
1.3 Sources de données et enjeux
Chapitre 2 Des données biologiques aux données transcriptomiques
2.1 De l’ADN à l’homme
2.2 La biologie à haut‐débit
2.2.1 La génomique
2.2.2 La transcriptomique
2.2.3 La protéomique
2.2.4 L’intéractomique
2.3 Les puces à ADN
2.3.1 Le principe des puces à ADN
2.3.2 Les puces à ADNc
2.3.3 Les puces à oligonucléotides
2.3.4 Transformation et gestion des données issues des puces à ADN
2.4 Exploitation des données biologiques
2.4.1 Gene Ontology
2.4.2 KEGG
2.4.3 Données du National Center for Biotechnology Information (NCBI)
2.5 Données utilisées dans le cadre de nos analyses
2.5.1 Données obésité
2.5.2 Données cancer
Chapitre 3 Aspects méthodologiques de la fouille de données biomédicales
3.1 Concept de l’apprentissage automatique
3.2 Application des approches d’apprentissage non supervisé aux puces à ADN
3.2.1 Classification hiérarchique
3.2.2 La classification par les nuées dynamiques (K moyennes)
3.2.3 Les cartes auto‐organisatrices
3.3 Application des approches d’apprentissage supervisé aux puces à ADN
3.3.1 K plus proches voisins
3.3.2 Les méthodes d’analyse discriminante
3.3.3 Les forêts aléatoires
3.3.4 Les machines à vecteurs de supports (SVM)
3.4 Estimation des performances d’un modèle
Chapitre 4 Prédiction de la perte de poids chez les patients obèses
4.1 Le cadre du projet NUGENOB
4.1.1 Introduction
4.1.2 Sélection des sujets pour l’analyse prédictive
4.1.3 Données Leucémie
4.1.4 Analyse prédictive à partir des données biopuces
4.1.5 Discussion
4.2 Le cadre du projet DIOGENES
4.2.1 Présentation du projet Diogenes
4.2.2 Sélection des sujets pour l’analyse prédictive
4.2.3 Analyse prédictive à partir des données biopuces
4.2.4 Discussion
4.3 Bilan des résultats transcriptomiques : Nugenob Versus Diogenes
4.4 Le cadre de la chirurgie de l’obésité
4.4.1 La chirurgie comme traitement de l’obésité massive
4.4.2 Prédiction de la perte de poids suite à un Bypass
4.4.3 Prédiction de l’évolution des paramètres bioclinique suite à un Bypass
4.5 Conclusion
Chapitre 5 Améliorer la prédiction à partir de la combinaison de données cliniques et transcriptomiques
5.1 Combinaison de données pour l’apprentissage à partir des données biomédicales
5.1.1 Terminologie employée pour la combinaison de données
5.1.2 Les différentes stratégies de combinaisons
5.1.3 Classification à partir de la combinaison de données dans le domaine biomédical avec les machines à vecteurs de support
5.1.4 Notre contribution à la combinaison: 2KC‐SVM153
5.1.5 Résultats
5.1.6 Discussion
5.2 Combinaison de modèle d’apprentissage à partir des données biopuces
5.2.1 Classeur avec abstention
5.2.2 Modèles d’apprentissage abstinent avec délégation
5.2.3 Modèle d’apprentissage avec Abstention/délégation pour l’apprentissage à partir de sources multiples
5.2.4 Résultats
5.2.5 Discussion
Conclusion
Bibliographie

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *