Caractéristiques des principales méthodes d’imputation

Imputation de données manquantes

L’imputation de données manquantes consiste à combler les « trous » dans des bases de données incomplètes par des valeurs substituées et identifiées comme des « données imputées ». La manière de combler un manque de données diffère selon la méthode d’imputation utilisée. Les premières méthodes d’imputation à avoir été utilisées sont basées sur des fondamentaux de mathématiques, c’est notamment le cas des méthodes de complétion par combinaison linéaire. La plus utilisée d’entre elles étant la méthode d’imputation par la moyenne qui se contente d’effectuer une moyenne sur les données observées (Wikistat.fr, 2015). Ces méthodes ont par la suite évolué vers des méthodes plus complexes analysant la distribution des données pour imputer.

Les méthodes d’imputation ont déjà fait leurs preuves dans plusieurs domaines. C’est notamment le cas en biologie (Celton et al., 2010; Gromski et al., 2014; Liao et al., 2014) et en médecine (Bousquet, 2012; Waljee et al., 2013; Dávila, 2015). Or, l’environnement est un domaine interdisciplinaire qui intègre les sciences de l’information, physiques et biologiques. Étant donné les similitudes qu’il existe entre les problématiques soulevées par ces domaines, il est possible que l’efficacité des méthodes d’imputation soit transposable aux sciences environnementales .

Catégories de méthodes d’imputation

L’’utilisation de méthodes d’imputation pour résoudre le problème de données manquantes est un travail qui suscite l’intérêt depuis plusieurs dizaines d’années. Les bases de cette discipline ont été établies par les travaux de Little et Rubin (1987), tout particulièrement dans le domaine des analyses statistiques. Suite à leurs travaux, de nombreuses études sont venues approfondir les connaissances en termes d’imputation de données jusqu’à ce que dans les années 90, les puissances de calcul de plus en plus accessibles ont permis l’arrivée des algorithmes d’apprentissage automatique. Ces méthodes ont révolutionné l’exploration de données, notamment grâce à leur capacité à traiter les problèmes de plus grandes dimensions (Bzdok, Altman et Krzywinski, 2018).

L’apprentissage automatique est un domaine issu de l’informatique et de l’intelligence artificielle. Contrairement aux méthodes statistiques usuelles telles que la méthode d’imputation par la moyenne, les méthodes d’apprentissage automatique obtiennent de l’information à partir de données sans avoir recours à une programmation explicite. Elles ont donc besoin de moins d’intervention humaine. Afin de générer un modèle d’imputation, ces méthodes recherchent des schémas de données généralisables.

Suite à l’arrivée des algorithmes d’apprentissage automatique, de nombreuses méthodes d’imputation de données manquantes ont émergé (plus de 50 recensées dans la littérature). Parmi les différentes manières d’imputer récemment proposées, deux caractéristiques fondamentales différencient les méthodes d’imputation : les méthodes à imputation unique et à imputation multiple (Gómez-Carracedo et al., 2014), et les méthodes paramétriques et non paramétriques.

Méthodes à imputation unique et à imputation multiple

Méthodes à imputation unique : la plupart des méthodes d’imputation existantes entrent dans cette catégorie. Le principe de l’imputation unique vise à imputer une donnée manquante une seule fois; une seule valeur lui est donc associée. Cependant, les données imputées sont considérées comme étant les données qui auraient été observées si la base de données avait été complète, ce qui n’est jamais certain. Par conséquent, ces méthodes ne prennent pas en compte l’incertitude des données imputées (Zhang, 2016).

Méthodes à imputation multiple : ces méthodes effectuent plusieurs imputations pour reconstruire les données. À chaque donnée manquante est associé plusieurs valeurs, et toutes ces valeurs sont possiblement le résultat cherché (Buuren et Groothuis-Oudshoorn, 2011; Buuren et Oudshoorn, 1999). En d’autres termes, ces algorithmes génèrent plusieurs versions différentes de la base de données imputée. Une fois les imputations multiples terminées, une analyse est menée sur chaque base de données imputée et suite à cette analyse, les résultats sont combinés pour obtenir une base de données complète. Ce principe d’imputation prend en compte l’incertitude qui existe sur la valeur à imputer à chaque imputation et réduit donc le biais qui en découle.

Méthodes de type paramétrique et non paramétrique

Les méthodes paramétriques imputent les données manquantes en faisant des suppositions sur la distribution des variables à partir des données observables. Cette distribution dépend du réglage d’un ensemble de paramètres fixes. Ce type de fonctionnement peut induire un biais car les suppositions faites sur la distribution des données ne sont pas nécessairement vérifiées. Par exemple, certaines de ces méthodes définissent les variables quantitatives par l’intermédiaire de termes linéaires et sans interactions, des termes non linéaires déterminants peuvent donc être omis. C’est notamment le cas de la régression linéaire. À l’inverse, les méthodes non paramétriques ne sont pas régies par des lois de probabilités paramétriques et ne font donc pas de supposition sur la distribution des données (Seaman, Bartlett et White, 2012; Shah et al., 2014). La nature paramétrique ou non d’une méthode n’est pas liée au nombre d’imputations nécessaire à la reconstruction des données.

Conditions d’application

Parce que l’algorithme des méthodes d’imputation diffèrent dans leur manière d’imputer des données, leurs conditions d’application également. En effet, selon l’approche d’imputation utilisée, les caractéristiques de la base de données à imputer peuvent rendre impossible l’imputation des données. Deux critères identifiés à partir de la littérature sont susceptibles d’avoir un impact sur la capacité des méthodes à imputer : la structure de la base de données et le type de manque de données rencontré.

Table des matières

INTRODUCTION
CHAPITRE 1 ÉTAT DES CONNAISSANCES
1.1 Imputation de données manquantes
1.1.1 Catégories de méthodes d’imputation
1.1.1.1 Méthodes à imputation unique et à imputation multiple
1.1.1.2 Méthodes de type paramétrique et non paramétrique
1.1.2 Conditions d’application
1.1.2.1 Caractéristiques structurelles des bases de données
1.1.2.2 Type de manque de données
1.1.3 Études de performance
1.2 Caractéristiques des principales méthodes d’imputation
1.2.1 KNN
1.2.2 MICE
1.2.3 MissForest
1.2.3.1 Arbres de décision
1.2.3.2 Bagging
1.2.3.3 Algorithme de missForest
1.2.3.4 Estimateur de l’erreur d’imputation
CHAPITRE 2 MÉTHODOLOGIE
2.1 Analyse de la performance des méthodes d’imputation
2.1.1 Description des bases de données
2.1.1.1 Données qualitatives
2.1.1.2 Données quantitatives
2.1.1.3 Données mixtes
2.1.2 Génération de données manquantes
2.1.3 Méthodes d’imputation
2.1.4 Évaluation de la performance des méthodes
2.1.4.1 Erreurs d’imputation réelles
2.1.4.2 Erreurs d’imputation estimées
2.1.4.3 Caractérisation de la structure des bases de données
2.2 Cas d’application : Stations d’épuration du Québec
CHAPITRE 3 RÉSULTATS
3.1 Performances comparées des trois méthodes d’imputation
3.1.1 Bases de données qualitatives
3.1.2 Bases de données quantitatives
3.1.3 Bases de données mixtes
3.1.4 Synthèse de l’étude comparative
3.2 Évaluation de la précision de l’estimateur de l’erreur d’imputation fourni par la méthode missForest
3.3 Imputation de données manquantes appliquée à la base de données des stations d’épuration du Québec
CHAPITRE 4 DISCUSSION
4.1 Portées des résultats
4.2 Perspectives et recommandations
4.2.1 Effet seuil pour des mégadonnées
4.2.2 Impact du type de manque de données sur la qualité d’une imputation
CONCLUSION