Apprentissage supervisé – Classification – Prédiction
Chaque recherche utilisateur retourne une liste de résultats correspondants aux paramètres d’entrée : jour de départ, jour de retour, ville de départ et ville d’arrivée. Chaque résultat possède une liste d’attributs propre à son vol et au site proposant le vol : horaires de départ et de retour, compagnie aérienne, aéroport de départ et d’arrivée, site marchand etc. L’information que nous souhaitons fournir aux usagers de liligo.com est une prédiction d’évolution de prix par ligne de résultats, c’est-à-dire pour un trajet vendu par un site marchand. Les seules informations que nous possédons sur les vols sont celles que nous venons de décrire, c’est pourquoi nous voulons pouvoir associer à ces vols une prédiction uniquement grâce à leurs attributs. La base d’apprentissage des niveaux de gris est à présent segmentée en groupes de vols similaires représentés par un comportement type (moyenne des niveaux de gris du groupe) ou par un ensemble de paramètres (α ) suivant l’algorithme de segmentation utilisé. Nous voulons maintenant attribuer aux résultats de la recherche le comportement le plus probable parmi ces groupes en se basant sur la répartition des attributs des vols d’apprentissage.le plus vraisemblable. Pour cela nous avons utilisé plusieurs algorithmes usuels qui sont les arbres de classification CART [5] et C4.5 [41], Adaboost [19] qui utilise CART comme classifieur faible dans son étape de boosting et les Forêts d’arbres décisionnels [9] (Random Forest) qui utilisent aussi CART comme classifieur faible dans son étape bagging. Avec CART et C4.5, nous pourrons observer la segmentation de l’espace des attributs et les règles de prédiction de comportement. Adaboost va exécuter itérativement CART sur la base d’apprentissage pondérée différemment à chaque itération. La pondération donne plus de poids aux vols mal classés afin d’améliorer la prédiction des vols dit “difficiles” à prédire correctement. Les forêts aléatoires, dont le principe est de multiplier les arbres de décision CART et d’agréger leurs résultats par vote, améliorent les résultats tout en fournissant un classement des attributs les plus influents dans la classification. Nous utiliserons ensuite ce classement pour ne conserver que les attributs les plus pertinents, technique nommée feature selection. Nous décrivons aussi une extension de l’algorithme Esperance-Maximisation qui prend en compte les attributs et combine l’étape de segmentation à l’étape de classification.
Nous attribuons donc à chaque résultat de la recherche utilisateur son identifiant de clusterle plus probable auquel est associé un centroïde représentant son comportement global. Dans le Chapitre 2, nous avons montré qu’il était possible de simuler une courbe de prix à partir d’une image pixélisé pour reconstituer un série de prix similaire à l’originale. Il est donc possible de simuler un ensemble de séries appartenant potentiellement à un groupe en utilisant le centroïde du cluster en question. En moyennant un nombre prédéfini de courbes simulées, nous sommes capable d’estimer l’évolution d’un vol assigné à ce groupe. Par exemple, si nous sommes à 20 jours de la date de départ et que le premier résultat de la recherche est associé au groupe nu- méro 2, nous pouvons simuler des courbes issues du deuxième cluster, se placer à -20 jours pour chacune d’elles et observer l’évolution de celles-ci. Il est possible d’extraire de ces simulationsautant d’informations qu’une série de rendements peut fournir : la hausse ou la baisse du prix à n jours, le rendement de cette variation mais aussi l’existence d’un baisse pendant plus de 24h dans un intervalle de m jours ou la probabilité d’une forte hausse ou d’une faible baisse. Cette flexibilité est très importante car elle se répercute directement sur la flexibilité du service final.
Dans un second temps, nous explicitons ce que nous avons nommé la prédiction “directe” : une prédiction basée sur l’apprentissage direct de l’évolution de prix à l’instant t et non plus d’un comportement global. Cette prédiction peut-être binaire (hausse ou baisse du prix dans 7 jours), par cadran (forte hausse, faible baisse etc.) ou continue (pourcentage d’évolution). L’étiquette E que nous tentons d’apprendre n’est donc plus le groupe le plus probable attribué aux vols mais la prédiction à l’instant t, impliquant la création d’un modèle par nombre de jours avant la date de départ. Nous nous passons ainsi de la création de comportements types et de la simulation de courbes. Nous étudierons les avantages et les inconvénients de cette approche.