Modèles pour la prédiction de données temporelles
Introduction à la prédiction de séries temporelles
Prédiction dans le cas d’une loi jointe connue Supposons dans un premier temps la loi jointe p(x, y) connue. Dans un contexte bayésien, la construction de l’estimateur f(.) est déterminée par le choix d’une fonction de coût L(., .) dont le but est de quantifier l’erreur entre la prédiction f(x) = ˆy et la variable cachée y. Le choix de cette fonction de coût dépend de la nature du problème de prédiction. Par exemple, si l’on cherche à prédire la position d’un objet dans l’espace, une fonction de coût basée sur une distance euclidienne semble naturel.
Une fois cette fonction de coût choisie, le risque bayésien est défini comme l’espérance du coût entre f(x) = ˆy et y : R(f) = E [L(f(x), y)] = Z x,y L(f(x), y)p(x, y)dxdy. (2.1) Ainsi, le problème de construction d’un estimateur devient celui de la minimisation du risque bayésien f ? = argmin f R(f). (2.2) On peut montrer que l’estimateur f ? peut être construit à partir de la loi a posteriori p(y|x) = p(x,y) p(x) (également appelée loi prédictive dans le cadre de la prédiction). En effet, l’équation (2.2) se réécrit en f ? = argmin f Z x p(x) Z y L(f(x), y)p(y|x)dy dx. (2.3) Minimiser (2.2) revient à minimiser R y L(f(x), y)p(y|x)dy par rapport à f(x) à x fixé. La minimisation d’une intégrale double est alors devenue celle d’une intégrale simple.
En particulier, pour certaines fonctions de coût classiques L(., .) (erreur quadratique, erreur en valeur absolue, erreur « tout ou rien », etc.), l’estimateur obtenu f ? correspond à une caractéristique (moyenne, médiane, mode) de p(y|x). Exemple 2 Nous cherchons dans cet exemple à prédire la position y d’un objet après en avoir observé une position x (variables réelles unidimensionnelles).
Pour cela, nous choisissons la fonction de coût L : (y, y0 ) 7→ (y − y 0 ) 2 qui correspond simplement à la distance euclidienne entre deux positions. Le meilleur estimateur correspondant à cette fonction de coût est l’estimateur qui minimise la quantité E [L(f(x), y)] = E h (ˆy − y) 2 i = Z x p(x) Z y (ˆy − y) 2 p(y|x)dy dx. Minimiser le risque bayésien ci-dessus revient, pour tout x fixé, à minimiser par rapport à 40 yˆ la fonction Z y (ˆy − y) 2 p(y|x)dy = Var(y|x) + (ˆy − E[y|x])2 . Cette fonction est minimale lorsque yˆ = E[y|x]. Autrement dit, le meilleur estimateur selon le coût quadratique est la moyenne de la loi prédictive p(y|x).
Prédiction lorsque la loi jointe n’est pas connue
En pratique, une difficulté réside dans le fait que la loi jointe n’est en réalité pas connue. Pour résoudre ce problème, il est possible d’approcher le risque bayésien (2.1) de deux façons : soit en cherchant à modéliser la loi jointe p(x, y) par une loi paramétrique pθ(x, y), soit en approchant l’intégrale (2.1) à partir de réalisations. La première approche consiste donc à construire un modèle de la loi p. Pour cela, on se restreint à une famille paramétrée de lois (pθ) θ∈Θ, où le paramètre θ peut être multidimensionnel (par exemple, il peut décrire la moyenne et la variance d’une loi normale).
À partir d’un jeu fini de données indépendantes E = n (xi , yi) i.i.d. ∼ p(x, y) o i∈[[1,n]] (2.4) issues de la loi inconnue p(x, y), la qualité de pθ peut être quantifiée par la fonction de vraisemblance [Borovkov, 1987, Wasserman, 2013] : L(.; E) : θ 7→ Yn i=1 pθ(xi , yi). (2.5) La fonction de vraisemblance répond intuitivement à la question suivante : est-ce que la loi pθ aurait pu raisonnablement générer l’ensemble des paires (xi , yi) ? L’approximation de la loi jointe se résume alors à déterminer le paramètre θ qui maximise la vraisemblance. Toutefois, le choix de la famille paramétrique est crucial : il faut que pθ puisse correctement modéliser les données récoltées tout en permettant le calcul des quantités clés pour l’apprentissage et l’estimation.
Deux problèmes sont associés à la fonction de vraisemblance : son calcul (voir équation (2.5)) et sa maximisation. Notamment, pouvoir calculer la vraisemblance n’implique pas né41 cessairement que l’on puisse la maximiser. En général, la maximisation de la vraisemblance n’est pas faisable directement et cela doit être fait de manière approchée. Par exemple, dans le cas de modèles probabilistes à variables latentes (c’est-à-dire des variables non observées visant à enrichir le modèle pθ(x, y)), la maximiser requiert l’utilisation d’approximations telles que l’algorithme Expectation Maximization (voir section 2.2.2).
La seconde approche ne fait pas d’hypothèses sur la loi jointe p(x, y). À la place, on commence par déduire l’estimateur empirique du critère (2.1) à partir du même jeu d’entraînement E (voir équation (2.4)) [Bishop, 2006, Hastie et al., 2009]. Le problème de construction d’un estimateur devient celui de la minimisation du risque empirique : f ? n = argmin f 1 n Xn i=1 L(f(xi), yi). (2.6) Cependant, puisque le jeu d’entraînement est fini, si aucune contrainte n’est posée alors n’importe quelle fonction interpolant les points (xi , yi) répond au problème d’optimisation (2.6). Dans un tel cas, le modèle a surappris et est incapable de généraliser à de nouvelles observations.
Pour pallier ce problème, on choisit une famille de fonctions (fθ)θ∈Θ. Le problème posé par (2.6) se réécrit enfin en un problème d’estimation de paramètre : θ ? n = argmin θ 1 n Xn i=1 L(fθ(xi), yi), (2.7) et on choisit l’estimateur f(x) = fθ ? n (x) (la notation θ ? n reflète le fait que l’estimateur dépend du jeu d’entraînement E (de taille n). Comme précédemment, le choix de la famille résulte d’un compromis : une famille trop simple ne permettra pas d’obtenir des prédictions pertinentes et réalistes tandis qu’une famille trop complexe et trop flexible présente un risque de surapprentissage. Enfin, le choix de la famille doit permettre l’apprentissage, c’est-à-dire la résolution de l’équation (2.7).
Parmi les familles de fonctions classiquement utilisées, on trouve les fonctions appartenant à un espace de Hilbert à noyau reproduisant [Manton and Amblard, 2015, Paulsen and Raghupathi, 2016] et les fonctions définies par un réseau de neurones [Jain et al., 1996, Marilly et al., 2002, LeCun et al., 2015]. Le problème d’optimisation (2.7) pour ces familles de fonctions donne des algorithmes d’apprentissage bien connus tels que la méthode des moindres carrés (linéaire ou par noyau) [Bishop, 2006], les Support Vector Machines (SVM) [Burges, 1998, Hu et al., 2003, Vapnik, 2013] ou les algorithmes d’apprentissage profond, [Bishop, 2006, Goodfellow et al., 2016] pour la régression ou la classification.