Contribution à la statistique spatiale et fonctionnelle
Contributions
Dans cette thèse, nous nous intéressons principalement à l’estimation non-paramétrique de la fonction de régression en nous appuyant sur des données géostatistiques échantillonnées de manière déterministe. Dans le Chapitre 3, nous abordons le cas de la régression spatiale basée sur la méthode des k-plus proches voisins (la co-variable X est de dimension finie). Dans le Chapitre 4, nous étudions la régression spatiale fonctionnelle (X est de dimension infinie). Les méthodes de régressions proposées dans ces Chapitres ont été étendues au cadre de la prédiction et de discrimination. Le Chapitre 5 est consacré à l’application des méthodes de prédiction et classification supervisée pour analyser la distribution spatiale la ressource démersale côtière du Sénégal.
Contribution à la régression et à la prédiction spatiale
La méthode de régression basée sur les k-plus proches voisins du Chapitre 3 généralise, dans le cadre spatial, les méthodes classiques des k-plus proches voisins [87]. Elle est une alternative à la méthode de régression proposée par [98] qui s’appuie sur deux noyaux dont l’un contrôle la proximité entre les sites et l’autre contrôle la distance entre les observations. L’approche est particulièrement innovante et adaptée surtout quand le support des données présente une structure spatiale hétérogène. En effet, elle utilise une fenêtre de lissage aléatoire adaptée à une éventuelle hétérogénéité au niveau des réalisations de la variable explicative spatiale observée. Un des objectifs dans le Chapitre 3 est de construire un prédicteur qui s’adapte quand le processus est local stationnaire et que la structure spatiale présente une certaine hétérogénéité. La classification supervisée est étudiée dans le Chapitre 3. Cette dernière est un cas particulier de la prédiction et correspond au cas où le processus spatial © Yi , i ∈ NN ª prend ses valeurs dans un ensemble discret. La méthode de régression du Chapitre 4, généralise , dans le cadre fonctionnel, celle proposée par [98]. L’extension se fait, entre autres, sous l’hypothèse de stationnarité locale et nous établissons la convergence ponctuelle et celle uniforme. [330] propose la même méthode mais elle établit seulement la convergence ponctuelle sous la condition de stricte stationnarité. Un prédicteur spatial et fonctionnel est construit à partir de la régression du Chapitre 4. Ce prédicteur devient une nouvelle méthode de classification supervisée dans le cas où le processus spatial © Yi , i ∈ NN ª prend ses valeurs dans un ensemble discret.
Contributions en recherche halieutique
Les approches développées dans cette thèse sont innovantes et très adaptées dans beaucoup de situations surtout quand le support d’étude produit des données spatialement hétérogènes. En particulier, lorsque nous modélisons des phénomènes éventuellement continus dans le temps et/ou dans l’espace, des méthodes appropriées permettant de capturer le maximum d’informations s’avèrent nécessaires. Des exemples étudiés dans ce travail sont les phénomènes mesurés par les données d’océanographie halieutiques issues des campagnes scientifiques du CRODT qui ciblent la ressource démersale côtière. Ces données sont décrites, respectivement, dans les Chapitres 1 et 5. Nous avons évoqué dans le Chapitre 1 l’interaction entre la ressource côtière et son milieu marin. Les propriétés physiques des fonds et les conditions environnementales de l’écosystème marin gouvernent le comportement des espèces démersales côtières. Elles sont caractérisées par l’hétérogénéité dans le temps et dans l’espace. Elles agissent sur la distribution spatiale de ces poissons. Ces derniers sont à la recherche d’habitat favorable à leur survie. Cela fait que la ressource halieutique n’est pas uniformément distribuée dans son aire géographique. Des migrations saisonnières vers des zones propices sont notées durant la durée de vie des espèces. Elles concernent des déplacements verticaux et horizontaux suivant les différentes phases de maturation des poissons. Les méthodes paramétriques classiques telles que le Krigeage et le co-krigeage, (voir [91; 299]), sont habituellement appliquées pour l’évaluation de stock et la prédiction d’abondance ou de biomasses des poissons. D’autres méthodes multivariées telles que la fonction K de Ripley [162; 191; 222; 297] et les méthodes Species Distribution Modeling (SDM)/Joint Species Distribution Modeling (JSDM) basées sur les modèles GLM et GAM [236; 282; 372] ont également été utilisées en biologie marine. Cependant, ces méthodes classiques reposent souvent sur des hypothèses assez restrictives comme la distribution gaussienne et de covariance paramétrique. Il faut noter également que lorsque l’échantillon d’intérêt est un ensemble de données volumineuses, les techniques classiques de réduction des dimensions sont des approches courantes. En général, pour résoudre le problème de dimension, plusieurs méthodes de régressions multivariées utilisant un grand nombre de prédicteurs considèrent la dimension comme un paramètre de nuisance. En outre, ces méthodes ne capturent pas les informations supplémentaires provenant du processus qui génère les données. La modélisation non-paramétrique spatiale et fonctionnelle peut constituer une alternative, aux modèles mathématiques multivariés, pour le traitement et l’analyse des données spatiales massives de grande dimension. Cette modélisation fait intervenir un domaine de recherche récent combinant les branches bien développées de la statistique fonctionnelle et celle spatiale montrant la capacité d’analyser les données complexes. Ainsi, des approches de prédiction et de classification non-paramétriques spatiales et fonctionnelles sont, parallèlement, étudiées (voir les Chapitres 3 et 4). Ces approches sont appliquées dans le Chapitre 5 sur des données d’océanographies halieutiques du Sénégal. Ainsi nous utilisons les procédures de classification des Chapitres 3 et 4 pour prédire la distribution spatiale des poissons démersaux côtiers. Les méthodes de prédiction permettent d’évaluer les quantités de biomasses/abondances sur des sites où les poissons sont présents et les conditions environnementales connues.
Résumé
Dans ce Chapitre, nous proposons une méthode de régression non-paramétrique, d’un processus spatial réel, basée sur l’approche des k-plus proches voisins. La spécificité de l’estimateur proposé est d’incorporer la structure spatiale par la mesure de la proximité entre les sites d’observations et la prise en compte d’une certaine hétérogénéité éventuelle. Le modèle de régression proposé est le support de base d’un prédicteur spatial et une règle de classification supervisée, en particulier. Les résultats de convergence presque complète ou presque sûre de l’estimateur et du prédicteur sont obtenus. Les résultats numériques sur des données simulées illustrent la performance de la méthodologie proposée. La variété des domaines dans lesquels les données spatiales/spatio-temporelles apparaissent, naturellement, montre l’importance de la statistique spatiale. Ces types de données sont retrouvés dans les sciences de l’environnement, celles du sol, la géophysique, l’océanographie, l’économétrie, l’épidémiologie, la foresterie, le traitement d’images et bien d’autres domaines dans lesquels les données d’intérêt sont collectées dans l’espace. La diversité de ces champs d’applications de la modélisation spatiale fait intervenir différents processus spatiaux. Ces derniers ne vérifient pas, tous, certaines hypothèses nécessaires pour l’élaboration des modèles mathématiques multivariés paramétriques comme la régression, la prédiction ou la discrimination. Cela fait soulever des problèmes complexes, en statistique spatiale ou spatiotemporelle, dont certains ne sont pas clairement définis encore moins complètement résolus. La résolution de cette complexité pose des défis qui constituent la base des recherches actuelles en mathématique spatiale. Parmi les hypothèses pratiques et classiques, qui influencent les techniques disponibles utilisées dans ces modèles multivariés spatiaux, il y a celles qui supposent l’indépendance des observations, la linéarité et la normalité. La littérature sur la modélisation des données spatiales/spatio-temporelles est abondante (voir par exemple la monographie de [90]). Elle repose, en grande partie, sur ces modèles linéaires paramétriques. Les variables spatiales se caractérisent, principalement, par la dépendance spatiale. En outre, certains processus spatiaux ne vérifient pas l’hypothèse de normalité et celle de la linéarité. Les modèles linéaires appliqués aux données spatiales capturent uniquement les relations linéaires globales entre observations. Rappelons que, dans de nombreuses situations, la dépendance spatiale n’est pas linéaire. C’est par exemple, le cas classique où l’on traite la modélisation spatiale des événements extrêmes ou l’étude du comportement de la ressource halieutique face aux effets du changement climatique, etc. Un modèle qui prend en compte les aspects qui spécifient et caractérisent les différents types de données spatiales générées par divers champs d’applications est nécessaire (voir dans le Chapitre 2, les différents types de données spatiales). Dans certains champs d’applications de la modélisation spatiale, se pose la situation selon laquelle il est important d’étudier la relation explicative entre deux variables dans le but de prédire, principalement, l’une d’elles à des endroits où les observations ne sont pas disponibles. Par exemple, en biologie marine, il est souvent utile de prendre en compte l’influence des paramètres environnementaux ou écologiques sur la variabilité de la biomasse des poissons et leur distribution spatio-temporelle. La réponse à tous ces problématiques complexes fait appel aux modélisations non-paramétriques comme méthodes alternatives aux celles paramétriques et linéaires; quand les approches classiques ne donnent pas de résultats satisfaisants. La littérature sur les techniques d’estimation non-paramétriques, qui intègrent une dépendance spatiale non linéaire, n’est pas très abondante par rapport à celle qui traite la dépendance linéaire. Pour un aperçu des résultats et des applications tenant compte des données spatialement dépendantes pour la densité, l’estimation de régression, la prédiction et la classification, nous nous référons aux travaux suivants [1; 41; 64; 84; 100; 105; 135; 184; 186; 235; 257; 258; 330; 339; 351]. Parmi les méthodes non-paramétriques, nous mettons l’accent, dans ce Chapitre, sur la méthode des kvoisins les plus proches (k-NN). L’estimateur á noyau k-NN (voir [42]) a un avantage significatif sur l’estimation á noyau proposé par [98]. Sa spécificité réside dans le fait qu’il est flexible à une hétérogénéité éventuellement observée sur les variables. Cela lui permet de prendre en compte la structure locale des données. Il utilise dans le choix d’un nombre approprié de voisins, un paramètre aléatoire adapté à la structure de dépendance spatiale. Un autre avantage de la méthode k-NN est la mise en œuvre facile des paramètres de lissage. En effet, dans la méthode á noyau proposé par [98], le paramètre de lissage est un réel fixé, alors que dans la méthode k-NN, les paramètres de lissage appartiennent à un ensemble discret. L’utilisation de la méthode k-NN est récente pour les données spatiales. [227] a proposé un estimateur de régression des données spatiales basé sur la méthode k-NN. Il a établi les résultats asymptotiques d’un estimateur k-NN appliqué à des données multivariées. L’objectif, dans ce Chapitre, est de développer des outils, de prédiction et de classification supervisée, appliqués à un processus spatial réels. Ils sont basés sur l’estimation non-paramétrique de la régression spatiale k-NN. La dépendance spatiale non linéaire entre les sites d’observations est mesurée par le critère des coefficients de mélange fort [341]. La construction de l’estimateur de régression repose sur l’utilisation de deux noyaux, l’un contrôle la distance entre les observations à l’aide d’une fenêtre aléatoire et l’autre contrôle la structure de dépendance spatiale. Cette idée a été présentée dans les travaux de [98; 257; 330]. Le reste du Chapitre 3 est organisé comme suit. Dans la section 3.2, nous introduisons le modèle de régression qui est le support de base du prédicteur. La section 3.3 est dédiée à la convergence presque complète 1 du prédicteur alors que la section 3.4 applique le modèle de régression à une règle de classification supervisée et adapte les résultats asymptotiques du prédicteur. La section 3.5 donne une application à des données simulées pour mettre en évidence les performances de la méthode proposée. La section 3.6 est consacrée à la conclusion. Enfin, les preuves des principaux résultats asymptotiques sont reportés à l’annexe A. 3.2 Modèle et construction du prédicteur Soit © Zi = (Xi ,Yi) ∈ Rd ×R , i ∈ NN,d ≥ 1 ª , un processus spatial défini sur un espace probabilisé (Ω,A ,P), N ∈ N ∗ . Nous supposons que ce processus est observé sur l’ensemble discret In = © i = (i1,…,iN), 1 ≤ ik ≤ nk , k = 1,…,Nª , n = (n1,…,nN) ∈ NN, et nb = n1 × … × nN, on a n → ∞ si min{nk } → +∞, pour une certaine C > 0, nk /ni ≤ C, ∀ 1 ≤ k,i ≤ N. Nous notons par k.k la norme euclidienne définie dans RN ou dans Rd et I(·) désigne la fonction indicatrice. Nous supposons que la régression de © Yi , i ∈ NN ª sur © Xi , i ∈ NN ª est définie par le modèle suivant : Yi = r (Xi)+εi , i ∈ NN , (2.1) où r (·) = E(Yi |Xi = ·), (2.2) r est supposé être indépendant de i, le bruit © εi , i ∈ NN ª est un processus centré vérifiant le critère de dépendance α-mélange (voir la section 3.3 pour une description de cette condition). Il est indépendant de © Xi , i ∈ NN ª . Nous nous intéressons à la prédiction du processus spatial © Yi ,i ∈ NN ª dans des sites où les observations de ce processus ne sont pas disponibles, soit en particulier i0 ∈ In ; en se basant sur les informations Xi0 et les observations © (Xi ,Yi)i∈On ª . Supposons que (Xi0 ,Yi0 ) est de même loi que le couple (X,Y). L’espace On ⊂ In est l’ensemble spatial sur lequel le processus © (Xi ,Yi)i∈On ª est observé, avec i0 ∉ On et Card(On) tend vers ∞ quand n → ∞. Nous supposons qu’un nombre suffisant d’observations © (Xi ,Yi)i∈On ª a la même distribution de probabilité que celle du couple (X,Y). Nous supposons également que © Yi , i ∈ NN ª est intégrable, (X,Y) et que © (Xi ,Yi)i∈On ª admettent des fonctions densités inconnues par rapport à la mesure de Lebesgue. Soient f et 1. Soit (zn)n∈N une séquence de variables aléatoires à valeur réelle. zn converge presque complètement (p.c.) vers zéro si, et seulement si, ∀ε > 0, P∞ n=1 P(|zn| > ε) < ∞. De plus, nous disons que la vitesse de convergence presque complète de zn vers zéro est d’ordre un (avec un → 0) et nous écrivons zn = Op.c.(un) si, et seulement si, ∃ε > 0 est telle que P∞ n=1 P(|zn| > εun) < ∞. Ce type de convergence implique à la fois la convergence presque sûre et la convergence en probabilité. les fonctions densités, respectives, de X et (X,Y). La méthode de prédiction s’appuie sur l’estimateur de la fonction de régression k-NN suivant : rkNN(x) = gn(x) fn(x) ,si fn(x) 6= 0 1 nb X i∈Ini6=i0 Yi , sinon, (2.3) avec gn(x) = 1 nbh N n,i0 Hd n,x X i∈In,i6=i0 K1 µ x −Xi Hn,x ¶ K2 µ h −1 n,i0 ° ° ° ° i0 −i n ° ° ° ° ¶ Yi . fn(x) = 1 nbh N n,s0Hd n,x X i∈In,i6=i0 K1 µ x −Xi Hn,x ¶ K2 µ h −1 n,i0 ° ° ° ° i0 −i n ° ° ° ° ¶ . Le prédicteur de Yi0 est construit comme suit : Ybi0 = P i∈On YiK1 µ Xi0 −Xi Hn,Xi0 ¶ K2 ³ h −1 n,i0 ° ° ° i0−i n ° ° ° ´ P i∈On K1 µ Xi0 −Xi Hn,Xi0 ¶ K2 ³ h −1 n,i0 ° ° ° i0−i n ° ° ° ´ , (2.4) si le dénominateur n’est pas nul, sinon le prédicteur est égal à la moyenne empirique. Ici, K1 et K2 sont deux noyaux de Rd et R à valeur dans R+ respectivement, i n = µ i1 n1 ,··· , iN nN ¶ , hn,i0 = min h ∈ R ∗ + : X i∈On I(° ° ° ° ° i−i0 n ° ° ° ° ° 0, t ∈ R ∗ +,C > 0, a constant, (3.2) i.e. ϕ(t) tend vers zéro avec une vitesse polynomiale. Les résultats asymptotiques, établis dans ce qui suit, ne concernent que le cas polynomial. Des résultats similaires peuvent être obtenus, facilement, pour le cas exponentiel (ϕ(t) tend vers zéro avec une vitesse exponentielle voir par exemple [129] pour plus de détails.). Avant de donner les principaux résultats, nous donnons les d’hypothèses sur lesquelles nous nous appuyons pour les établir. Tout au long de ce Chapitre, nous fixons un sous-ensemble compact D dans Rd . Lorsqu’aucune confusion n’est possible, nous désignerons par C, une constante générique strictement positive.
Dédicaces |