DECOUVERTE DES ESTIMATEURS LS ET LAD
HISTORIQUE DE L’ESTIMATION LAD (1757-1955)
Parmi les estimateurs robustes, les estimateurs LAD ont probablement l’histoire la plus ancienne. En effet, Ronchetti (1987) mentionne qu’on en retrouve des traces dans l’oeuvre de Galilée (1632), intitulée « Dialogo dei massimi sistemi », Le problème était alors de déterminer la distance de la terre à une étoile récemment découverte à cette époque. C’est cependant à Boscovich (1757) que l’on reconnaît généralement l’introduction du critère d’estimation LAD (Harter,1974 ; Ronchetti, 1987, Dielman,1992). L’un des problèmes qui excita le plus, la curiosité des hommes de science du XVIIIème siècle fut celui de la détermination de l’ellipticité de la terre. C’est dans ce contexte, près d’un demisiècle avant l’annonce par (Legendre,1805) du principe des moindres carrés et vingt ans avant la naissance de Gauss en 1777, que Roger Joseph Boscovich (1757) proposa une procédure pour déterminer les paramètres du modèle de régression linéaire simple 0 1 , 1, …, i i i y x i n = + + = β β ε Pour obtenir la droite 0 1 y x = + β β ɵ ɵ décrivant au mieux les observations, il proposa le critère de l’estimation LAD : Min 0 1 1 n i i i y x = ∑ − − β β En imposant que la droite estimée passe par le centroïde des données( x y; ), en ajoutant la condition : ( 0 1 ) 1 0 n i i i y x β β = ∑ − − = Boscovich justifia cette approche de la manière suivante. Le critère de l’estimation LAD comme étant nécessaire pour que la solution soit aussi proche que possible des observations, et la condition supplémentaire pour que les erreurs positives et négatives soient de probabilité égales. En effet cette condition signifie que la somme des erreurs positives et négatives doit être la même. De plus, elle peut se mettre sous la forme : y x − − = β β 0 1 0 (1) d’où 34 0 1 β β = − y x (2) Et le problème se réduit alors à minimiser : ( ) ( ) 1 1 n i y y x x i i β = ∑ − − − Par conséquent, la détermination de la « droite de Boscovich » satisfaisant les deux critères revient à déterminer la pente β 1 de l’équation (2), puis à évaluer l’ordonnée à l’origine β 0 par l’équation (1). Ce n’est cependant que trois ans plus tard, en 1760, que Boscovich donna une procédure géométrique permettant de résoudre l’équation (2). Cette procédure est décrite en détails dans un article d’Eisenhart (1961). Sept ans avant de s’intéresser aux estimateurs LAD , Laplace (1786) proposa une procédure permettant d’estimer les paramètres d’un modèle de régression linéaire simple en se basant sur le critère L∞ .En d’autres termes, il proposa une solution pour trouver ( β β 0 1 , ) qui minimise : 0 1 m a x m a x 1 1 y x e i i i i n i n − − = β β ≤ ≤ ≤ ≤ Dans une publication ultérieure, Laplace (1793) proposa une procédure qu’il qualifie luimême de plus simple. Cette procédure, basée sur les deux critères qu’avait proposé Boscovich en 1757, a l’avantage d’être analytique alors que celle proposée par Boscovich était géométrique. L’intérêt de cette procédure analytique réside dans la facilité à obtenir les paramètres 0 1 β β et lorsque le nombre d’observations augmente. Cette solution analytique de Laplace est élégante et mérite d’être rappelée ici. En adoptant les notations suivantes Y y y et X x x i i i i = − = − Le problème revient à trouver la valeur de ß qui minimise la fonction 1 ( ) n i i i f y X = β β = − ∑ (3) Notons que les valeurs Xi peuvent être supposées non nulles (X I ≠ 0) puisque ( ) i i i f y y X β β = + − ∑ ∑ , la première somme étant prise pour 35 les Xi nuls et la seconde somme pour les Xi non nuls. Le minimum de la fonction f étant atteint pour la même valeur de β que celle rendant la seconde somme minimale. La fonction (3) peut s’écrire : ( ) ( ) ( ) avec – 1 n f f f Y X i i i i i β β β β = = ∑ = Chaque fonction est continue, linéaire par morceaux et convexe. Elle est formée de deux droites avec un minimum en ;0 y i x i . Sa pente est donnée par ( ) s i s i y i X i x i f y i X i x i β β β − 〈 = + 〉 Pour étudier la pente de f ( ) β , il s’agit d’ordonner en ordre croissant les rapports Y i X i de manière à ce que : 1 2 . . . . . . . 1 2 Y Y Y n X X X n ≤ ≤ ≤ Ceci peut toujours être fait en renumérotant les observations. Ces rapports Y k X k seront désignés par ( ) , 1, … k β k n = Pour ( ) 1 β β < , chacune des fonctions f i (β ) a une pente de X i − et par conséquent la pente de la fonction (I.3) est donnée par : ( ) 1 n f X i i ′ β = − ∑ = En chaque point k k Y X la pente de f (ß) augmente de 2 , 1,….., X k n k = . f (ß) étant continue, linéaire par morceaux et convexe, elle atteint son minimum lorsque sa pente change de signe, c’est-à-dire pour ( ) r β tel que : 1 n 1 1 i=1 1 2 0 et 2 0 n r r i i k X X X X i K i K − = = = − + ∑ ∑ ∑ ∑ 〈 − + ≥ Dans le cas où : 1 1 2 0 n r i i k X X = = −∑ ∑+ = f ( ) i β 36 La solution n’est pas unique; dans ce cas, pour toute valeur β telle que : ( ) ( ) , ( ) 1 f x r r β β β β ≤ ≤ + soit minimale. Notons encore que Y r X r β = est appelée médiane pondérée des Y i X i , avec poids X i . Ainsi, dans le cas où la droite LAD doit satisfaire le second critère de Boscovich, elle passe par le centroïde des données et par l’une des observations au moins. C’est à Gauss (1809) que l’on doit une étape importante de la caractérisation des estimateurs LAD. Contrairement à Boscovich, il étudia la méthode consistant à minimiser la somme des erreurs en valeur absolue sans la restriction que leur somme soit nulle (appliquant uniquement le critère 1). A cette époque, Gauss ne semblait d’ailleurs pas savoir que cette restriction avait été introduite par Boscovich, puisqu’il l’attribue à Laplace. D’autre part, Gauss s’intéressa à l’estimation LAD dans un modèle de régression linéaire multiple, en cherchant le vecteur de paramètres ( ) ,…., 1 p β β qui minimise : 1 1 1 1 …. n n i i ip p i i i y x β x e β = = ∑ ∑ − − = ɵ Il mentionna que cette méthode fournit nécessairement p résidus nuls et qu’elle n’utilise les autres (n p − ) résidus que dans la détermination du choix des p résidus nuls. De plus, il mentionne que la solution obtenue par cette méthode n’est pas modifiée si la valeur des yi est augmentée ou diminuée sans que les résidus changent de signe. Gauss remarqua également que la méthode consistant à minimiser 1 1 m inim ise avec la restriction que 0 n n i i i i e e = = ∑ ∑ = fournit nécessairement (p – 1) résidus nuls. Dans le cas de la régression linéaire simple (p = 2) traitée par Laplace avec la restriction que la somme des résidus soit nulle, on obtient effectivement une droite passant par l’une des observations, c’est-à-dire qu’un des résidus est nul. Bloomfield et Steiger (1983) prouvent ce résultat et indiquent qu’il pourrait bien être l’un des premiers en programmation linéaire, mais pas assez profond pour que Gauss le démontre. Avec l’annonce par Legendre (1805) de la méthode des moindres carrés et son développement par Gauss (1809, 1823, 1828) et Laplace (1812) basé sur la théorie des probabilités, la méthode d’estimation LAD joua un rôle secondaire durant la plus grande partie du XIXème siècle. Ce n’est qu’en 1887 que cette méthode refait surface grâce au travail d’Edgeworth. 37 En effet, Edgeworth supprima la restriction faite par Boscovich que la somme des résidus .
DECOUVERTE DE L’ESTIMATION LS
La découverte de l’estimation LS (méthode des moindres carrés) mérite d’être rappelée ici puisqu’elle fut à l’origine de l’une des plus grandes disputes dans l’histoire de la statistique. Adrien Marie Legendre (1805) publia le premier la méthode des moindres carrés. Il donna une explication claire de la méthode en donnant les équations normales et en fournissant un exemple numérique. Selon Stigler (1981), Robert Adrain, un américain, publia la méthode vers la fin de l’année 1808 ou au début de l’année 1809. Selon Stigler (1977, 1978), il se pourrait que Robert Adrain 39 ait « découvert » cette méthode dans l’ouvrage de Legendre (1805). Cependant, quatre ans après la publication de Legendre, Gauss (1809) a le courage de réclamer la paternité de la méthode des moindres carrés, en prétendant l’avoir utilisée depuis 1795. La revendication de Gauss déclencha l’une des plus grandes disputes scientifiques dont les détails sont présentés et résumés dans un article de Plackett (1972). Bien que le doute subsiste, plusieurs faits troublants semblent indiquer que Gauss a effectivement utilisé la méthode des moindres carrés avant 1805. En particulier, Gauss prétend qu’il a parlé de cette méthode à certains astronomes (Olbers, Lindenau et von Zach) avant 1805. De plus, dans une lettre de Gauss datant de 1799, il est fait mention de « ma méthode », sans qu’un nom y soit donné. Il semble difficile de ne pas le croire, vu l’extraordinaire compétence reconnue à Gauss comme mathématicien. Il reste cependant une question très importante : quelle importance attachait Gauss à cette découverte ? La réponse pourrait être que Gauss, bien que jugeant cette méthode utile, n’a pas réussi à communiquer son importance à ses contemporains avant 1809. En effet, dans sa publication de 1809, Gauss est allé bien plus loin que Legendre dans ses développements autant conceptuels que techniques. C’est dans cet article qu’il lie la méthode des moindres carrés à la loi normale (Gaussienne) des erreurs. Il propose également un algorithme pour le calcul des estimateurs. Son travail a d’ailleurs été discuté par plusieurs auteurs comme Seal (1967), Eisenhart (1968), Goldstine (1977), Sprott (1978) et Sheynin (1979). Gauss a certainement été le plus grand mathématicien de cette époque, mais c’est Legendre qui a cristallisé l’idée de la méthode des moindres carrés sous une forme compréhensible par ses contemporains.