Inuence du nombre de données échantillonnées, pour un simplexe de dimension

Télécharger le fichier original (Mémoire de fin d’études)

Introduction

L’analyse exploratoire de données est un ensemble de méthodes qui ont été développées
pour traiter des données an de rendre leur interprétation plus aisée pour l’être humain.
Un premier exemple consiste à résumer des données en grandes dimensions, donc non visualisables,
en dimension 2 ou 3. L’utilisateur est alors capable de visualiser les données
et de les interpréter. Une des dicultés réside dans le fait qu’il faut perdre le moins d’information
possible lors de cette réduction de dimension. Une autre qu’il faut retrouver
une information qui n’est pas directement mentionnée dans les données mais qui peut y
gurer de façon implicite. Un problème illustre ce cas de gure : il faut retrouver l’existence
de deux populations diérentes dans les données. Imaginons un jeu de données qui
contiendrait comme seules informations la taille et le poids d’un ensemble de chiens (constitu
é de cockers et d’épagneuls) comme on peut le voir sur la gure 1.1. À aucun moment
l’information explicite de la classe à laquelle appartient un chien n’est donnée. Pourtant,
en traçant ces données en deux dimensions comme des points dans R2, il apparait deux
groupes distinctement séparés, au sens où l’on pourrait tracer une droite pour les séparer,
ce qui montre qu’il y a bien deux groupes de points, que l’on peut supposer correspondre
à deux races de chiens diérentes dans cet échantillon.
Bien entendu on peut faire ce genre de déduction parce qu’on a utilisé deux variables
pertinentes, i.e. explicatives de la classe, et uniquement ces deux variables pour l’analyse.
Mais ces variables peuvent très bien être les seules pertinentes parmi toutes les variables
proposées par le jeu de données : la couleur des yeux ou du pelage, le nom du chien, voire
le nom de son maître, sont toutes des variables qui peuvent se retrouver dans le jeu de
données, mais qui n’apportent aucune information discriminante en ce qui concerne la race
des chiens de l’échantillon.
Cet exemple représente l’idée de l’analyse exploratoire de données : trouver de l’information
dans un jeu de données qui peut compter un grand nombre de variables, mais dont
seulement certaines sont explicatives mais non identiées. Si le nombre de ces variables
pertinentes se limite à deux ou trois, il sera aisé de visualiser les données pour réaliser la
classication. A partir de 4 ou plus, il faudra attaquer le problème sous un autre angle.
Les spécialistes de la visualisation de données tentent de projeter les données en dimension
2, en essayant d’être le plus dèle possible aux données originales. Par exemple
en cherchant la projection en 2D qui préservera au mieux les similarités : deux données
proches dans RD sont représentées proches dans R2 et réciproquement pour les données
éloignées. On peut approcher cette question par l’extraction automatique des caractéristiques
des données dans leur espace d’origine, quitte à ce que cette information soit moins
détaillée que lors d’une visualisation, comme une estimation de la moyenne, de la variance
des données ou le nombre de groupes.
C’est cette deuxième approche que nous étudierons dans cette thèse. Nous nous intéresserons
en particulier à l’extraction automatique de caractéristiques de nature topologique
d’un échantillon de la population étudiée.

Les origines du problème

Quand un phénomène peut être reproduit en conditions expérimentales, permettant
de contrôler les variables dont dépend le phénomène, on peut alors proposer un modèle
physique. L’équation des gaz parfaits, PV = nRT ne contient que 4 variables et 1 constante
universelle. Cette relation a donc pu être mise en évidence par des scientiques grâce à
des expériences qui sont aujourd’hui reproduites au lycée. Redécouvrir cette équation est
aujourd’hui chose aisée, puisqu’on sait quel résultat atteindre. Les chercheurs eux, ont
dû conduire plusieurs expériences pour éliminer certaines variables qui n’avaient aucune
inuence sur le modèle. Ensuite, il a fallu aussi démontrer que les relations entre les variables
pertinentes étaient linéaires, alors qu’elles auraient pu être quadratiques, logarithmiques
ou d’une toute autre nature encore.
Exclure les variables non pertinentes, trouver et expliciter les relations entre les variables
d’intérêt, c’est ce à quoi sont confrontés les chercheurs. Certaines disciplines ont
un certain contrôle sur l’environnement de leurs expériences. Cependant, dans le cas d’un
phénomène réel impossible à reproduire expérimentalement, décrit par un grand nombre de
variables dont on ne sait pas lesquelles sont pertinentes, l’expert peut utiliser des méthodes
d’analyse exploratoire. Les plus simples et les plus anciennes vont chercher des relations
de linéarité entre les diérentes grandeurs, puisque c’est la relation la plus simple que l’on
puisse imaginer entre deux variables. Il faut de plus intégrer des modèles de bruits puisque
l’environnement est moins contrôlé et éventuellement prendre en compte des relations quadratiques
ou d’ordre supérieur si le modèle linéaire ne sut pas à expliquer la relation entre
les variables. Si le nombre de variables est raisonnable, il est encore possible d’obtenir de
bons résultats avec ces méthodes. On quitte toutefois le monde de la physique, où l’expert
« comprend » le phénomène en question justement parce qu’il est spécialiste du domaine,
pour entrer dans le monde du statisticien qui met en évidence des corrélations et autres
grandeurs statistiques.

Le statisticien au service de l’expert

Un milliard de smartphones ont été vendus en 2013 (Rousseau, 2014). Ces appareils
possèdent tous une puce GPS, un appareil photo numérique et des accéléromètres. L’historique
de chaque utilisateur d’Internet est sauvegardé à chacun de ses passages sur un
site web. Le stockage de données étant de moins en moins cher, toute cette information,
les logs, est sauvegardée. La quantité d’information destinée à être analysée est amenée
à croître de plus en plus vite. Retrouver une information donnée et précise est déjà un
véritable challenge pour le scientique dans un tel contexte.
Dans le cas des gaz parfaits, le nombre de paramètres est restreint : un gaz a peu
de caractéristiques. Certains phénomènes sont beaucoup plus complexes, encore plus s’ils
correspondent au comportement humain. Du fait de cette multiplication exponentielle des
capteurs, il est fait dans l’ensemble de cette thèse l’hypothèse que l’espace d’observation E
est plus grand que l’espace ~E qui serait nécessaire pour décrire parfaitement le phénomène.
Toujours dans le cadre ces travaux, E sera supposé euclidien. Les relations linéaires, simples
et classiques ne susent plus, la représentation d’un phénomène n’est que rarement une
ligne droite, mais une généralisation du concept d’espace linéaire qui permet d’appréhender
des formes plus générales. Dans le cadre statistique, l’observation du système fournit un
échantillon. C’est tout le but de cette thèse de faire ressortir les diérentes caractéristiques
de l’espace correspondant à un phénomène observé au travers de cet échantillon.
Le statisticien au service de l’expert La plupart des analystes qui traitent des données sont des spécialistes de leur métier
(géophysicien, biologiste, chimiste, etc.). Les données ne sont qu’un moyen pour eux de
comprendre un phénomène essentiel de leur discipline, tel l’économiste qui va regarder
l’évolution des PIB au cours du temps et vouloir le mettre en regard avec le taux de
mortalité infantile d’un pays, le géophysicien qui va analyser des localisations de séismes
ou le spécialiste e-commerce qui compare le prix du panier moyen avec l’heure d’achat ou
l’âge de l’internaute. Ces personnes sont formées à leur domaine de compétence. Ils peuvent
avoir des compétences en statistique mais sont avant tout experts dans leur domaine de
prédilection.
A l’inverse, le statisticien sait comment traiter toutes ces données, mais ne sait pas
forcément en tirer les conclusions : il peut mettre en évidence que le PIB et le taux de mortalit
é sont corrélés comme on le voit sur la gure 1.3, mais il ne sait pas l’expliquer. Quelles
autres variables intermédiaires pourraient l’expliquer ? L’économiste saura interpréter cela
comme un meilleur accès aux hôpitaux par exemple. Dans le domaine de la géophysique, le
statisticien peut mettre en évidence que les séismes proviennent d’une région précise, mais
seul le géophysicien peut dire s’il s’agit d’un point chaud ou de la rencontre de deux plaques
tectoniques. Ce savoir ne fait pas forcément partie des connaissances du statisticien. Il lui
faut donc fournir des outils au non-expert pour que ce dernier puisse tirer lui-même les
conclusions pertinentes.

Table des matières

1.1 Données simulées « chiens »
1.2 Données simulées « chiens » classées
1.3 PIB vs Taux de mortalité infantile
1.4 Proximité et topologie
1.5 Topologie du tore
2.1 Triangulation de Delaunay
2.2 Diagramme de persistance d’une sphère
3.1 Exemple de triangle génératif
3.2 Echantillonnage aléatoire d’un triangle équilatéral
3.3 Les quatre premiers nombres triangulaires, n = 1; 2; 3; 4, r = 2
3.4 Apprentissage correct de la topologie générée
3.5 Apprentissage correct de la topologie d’une enveloppe convexe
3.6 Le critère BIC en fonction du nombre de sommets choisis dans le modèle GSC
3.7 Le critère AIC en fonction du nombre de sommets choisis dans le modèle
GSC
4.1 Extraction des nombres de Betti d’une sphère unité
4.2 Extraction des nombres de Betti d’un tore
4.3 Extraction des nombres de Betti d’une bouteille de Klein
4.4 Les 60 objets de la base COIL-100 analysés
4.5 Nombres d’observation d’une suite de nombre de Betti pour 60 images de la
base COIL-100
4.6 Image 25 de la base COIL-100
4.7 Projection des images de l’objet 25 de la base COIL-100 par ACP
4.8 L’objet 12 de la base de données COIL-100
4.9 Projection de l’image 5 de la base COIL-100
4.10 Projection de la structure apprise par le CSG en dimension 71
1 Inuence de la dimension du simplexe, pour des données de taille 100, pour
retrouver l’enveloppe d’un simplexe avec le CSG dont on a xé manuellement
les sommets sur ceux du simplexe généré creux ou plein
2 Inuence de la dimension du simplexe, pour des données de taille 100, pour
retrouver l’intérieur d’un simplexe
3 Inuence du nombre de données échantillonnées, pour un simplexe de dimension
2, pour retrouver l’enveloppe d’un simplexe

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *