Un estimateur (presque) optimal dans le cas mal spécifié

Un estimateur (presque) optimal dans le cas mal spécifié

Dans le Chapitre 7, nous introduisons une procédure générale pour l’estimation de densité (conditionnelle ou non), qui satisfait une borne générale d’excès de risque, valide dans le cas général mal spécifié. Dans cette section, nous décrivons brièvement cette procédure, ainsi que sa borne d’excès de risque, et des cas particuliers simples dans le cas non conditionnel. Dans les sections suivantes, nous étudierons cette procédure appliquée à deux modèles conditionnels classiques, à savoir le modèle linéaire Gaussien ainsi que le modèle logistique. La procédure que nous introduisons, appelée Sample Minmax Predictor (SMP), est enfait valide pour l’apprentissage supervisé avec une fonction de perte générale. Elle apparaît naturellement comme la procédure minimisant une nouvelle borne d’excès de risque générale pour l’apprentissage supervisé. Nous reprenons les notations de la Section 1.1.2 ; en particulier,Le SMP admet également une variante régularisée, avec une borne d’excès de risque cor- respondante (voir l’énoncé exact du Théorème 7.1 du Chapitre 7). Dans le cas de la perte logarithmique, le SMP (1.90) et sa borne d’excès de risque (1.91) admettent une expression explicite.Notons que le SMP est en général un prédicteur impropre, tout comme les prédicteurs obtenus par (conversion online-to-batch de) mélange bayésien ou NML. Nous verrons que cet estimateur contourne les limitations inhérentes aux estimateurs propres (comme les approches fondées sur la conversion online-to-batch), et permet d’obtenir des bornes en d=n + o(1=n) (contrairement à ces dernières).

L’expression (1.93) du SMP fait apparaître une intégrale comme constante de renormali- sation. Pour les exemples que nous allons considérer, cette constante se calcule explicitement. Cependant, notons que, contrairement aux approches Bayésiennes où l’intégrale de la con- stante de renormalisation porte sur le paramètre 2 , celle-ci porte sur la réponse y 2 Y. Dans de nombreux exemples d’estimation de densité conditionnelle, l’espace des paramètres est bien plus complexe que celui des sorties Y. C’est notamment le cas pour le problème de la régression logistique, dont nous discuterons en Section 1.4.7, où Y = f1; 1g tandis que, le problème est doncéquivalent à celui des moindres carrés mentionné à la Section 1.3 et étudié dans le Chapitre 6. Cependant, le problème est de nature différente, puisqu’il s’agit d’effectuer une prédiction probabiliste de la réponse, c’est-à-dire d’estimer la loi conditionnelle de Y sachant X et non son espérance conditionnelle (Exemple 1.5). La possibilité d’utiliser des estimateurs impropres d=(2n) (par le Théorème 1.8 de la Section 1.3.2 sur la régression linéaire). Cela tient au fait que le SMP quantifie mieux l’incertitude sur la valeur de Y sachant X que tout estimateur propre ; le SMP exploite aussi implicitement la “courbure” (mélangeabilité) globale de la perte logarithmique, qui peut être nettement supérieure à celle de la perte restreinte au modèle.

Il est possible de montrer que la première borne de (1.94) vaut précisément le double de l’excès de risque minimax dans le cas bien spécifié (voir la Section 8.1 ainsi que la fin de cette section). Ainsi, la performance du SMP dans le cas mal spécifié est proche de la performance optimale atteignable même dans le cas bien spécifié, quelle que soit la loi des variables X. Cela montre notamment que l’excès de risque minimax dans le cas mal spécifié vaut au plus deux fois celui du cas bien spécifié. =2 pour un certain > 0. Cet estimateur satisfait une borne d’excès de risque non uniforme sur la classe F , dépendant de la norme kk du paramètre de comparaison. Cette procédure est utile dans le cas où des bornes uniformes satisfaisantes ne sont pas possibles, c’est-à-dire lorsque (1) la loi PAinsi, même dans le cas bien spécifié où P appartient à la classe F , les estimateurs propres (restreints à F ) sont sous-optimaux lorsque la dimension d est relativement élevée (de l’ordre de n). Ceci contraste avec le cadre asymptotique classique (évoqué en Section 1.4.2), où d est fixé et n ! 1, pour lequel l’EMV est asymptotiquement optimal. Intuitivement, le prédicteur admet un meilleur risque que l’EMV car il quantifie mieux l’incertitude sur la loi P (et donc sur ses réalisations futures) que l’EMV.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *