Conséquences de la non prise en compte de la détectabilité des espèces dans les analyses ACP et AFC

Conséquences de la non prise en compte de la
détectabilité des espèces dans les analyses ACP et AFC

Des données issues de simulations

Pour pouvoir répondre aux questions présentées à la fin du chapitre précédent, il me faudrait connaître l’abondance réelle de plusieurs espèces sur plusieurs sites et également la PdD de ces différentes espèces sur ces sites. La question portant sur les effets ou non de la variabilité de la PdD sur les résultats des analyses, je devrais alors être en mesure de comparer les conséquences de différentes formes de variabilité sur ceux-ci. La maîtrise des facteurs conditionnant les valeurs d’abondances et les valeurs de la PdD est donc un pré-requis que seules des données simulées peuvent m’apporter. Les conditions d’emplois des méthodes ACP et AFC étant différentes, les données devront également remplir ces conditions. Je tenterai donc de traiter les questions posées à l’aide de données créées avec le logiciel R version 3.2.4 (R Core team 2016). Pour ce faire, je me suis appuyé sur les librairies: ade4 (Chessel, Dufour et Thioulouse 2004), stats (R Core team 2016), grDevices (R Core team 2016) et scatterplot3d (Ligges et Mächler 2003).

Matériels et Méthode

La démarche générale utilisée pour déterminer si la PdD a des conséquences sur les résultats des ACP et AFC, schématisée ci-contre par la figure 1, est la suivante : je simule, sur plusieurs sites, les abondances de 20 espèces différentes ; 20 espèces étant un compromis entre d’une part un ordre de grandeur cohérant avec celui de tableaux d’abondances que l’on peut trouver dans certaines études (une tableau floristique de 60 placettes et de 30 espèces pour Forey (2003), 20 stations d’échantillonnage et 51 espèces pour Duperrieux (1983)), et d’autre part la facilité d’interprétation des résultats. Ces abondances sont issues de la loi de Poisson (cf. Partie 2.2.2), communément utilisée pour modéliser la distribution des abondances des organismes (Royle 2004). De là, je forme le tableau des abondances par site et par espèce (les sites en ligne et les espèces en colonne). Ces abondances sont celles qui seraient mesurées en cas de PdD égale à un. C’est-à-dire qu’il n’y a aucune sous-estimation des abondances. Ce tableau est nommé « matrice d’abondances brutes », avec !! » l’abondance de l’espèce j sur le site i. J’applique une AFC ou une ACP sur cette matrice d’abondances brutes. J’appelle les résultats de l’ACP ou de l’AFC sur cette matrice respectivement « ACPnd » et « AFCnd » (« nd » pour « non dégradée »). Dans un deuxième temps, je déduis de la matrice d’abondances brutes un autre tableau d’abondances, appelé « matrice d’abondances dégradées». Cette matrice d’abondances dégradées est une des matrices des abondances qui serait « possiblement » obtenue dans le cas de PdD inférieures à un. J’utilise le terme « possiblement » car les abondances de cette matrice sont obtenues à l’aide de lois binomiales, donc avec une part aléatoire analogue à celle de la PdD. Je me placerai toujours dans le cas où tous les individus d’une même espèce et sur un même site ont la même PdD. Cette dernière ne dépendant que de l’espèce et du site sera notée !! ». Je nomme !! » ! l’abondance de l’espèce j sur le site i dans la matrice d’abondances dégradées. Chaque valeur !! » ! est obtenue à partir de la loi binomiale ayant pour caractéristiques un nombre de tirages égal à l’abondance !! » et une probabilité !! ». Je détaillerai dans la partie

La méthode d’obtention des valeurs de la PdD

Une ACP ou une AFC est alors appliquée sur la matrice d’abondances dégradées. J’appelle les résultats de l’ACP ou de l’AFC sur cette matrice respectivement « ACPd » et « AFCd » (« d » pour « dégradée »). Enfin, je compare les ACPd aux ACPnd et les AFCd aux AFCnd. Pour certaines comparaisons j’ai besoin d’outils statistiques. Je présenterai ces comparaisons et outils statistiques qui m’informent sur les effets de la PdD sur les analyses AFC ou ACP dans la partie 2.2.4. Étant donnée la part aléatoire dans l’obtention des matrices d’abondances dégradées, mais également dans celle des matrices d’abondances brutes du fait de l’utilisation de lois de Poisson, il me faut, pour mettre en évidence une tendance et non un cas particulier, réitérer plusieurs fois une simulation avec des paramètres de même valeur. Je choisis un nombre de répétitions égal à 1000. Pour des raisons de simplicité, on appelle SIMULATION un ensemble de 1000 simulations dont les paramètres des populations (abondance attendue sur chaque site pour chaque espèce) et des PdD sont les mêmes. Ces paramètres sont décrits dans la suite du document. Chaque SIMULATION est numérotée et ces numéros seront utilisés lors de la présentation des résultats. On retrouve en annexe A, les 7 tableaux listant les SIMULATIONs et les valeurs des paramètres pour chacune d’entre elles (tableau de A.5 à A.11). Les conditions d’emplois des méthodes ACP et AFC étant différentes, j’insisterai au sein de chacune des parties suivantes sur les précautions que j’ai prises pour les respecter.

Définition des gradients et des sites

Les sites où sont mesurées les abondances sont définis à l’aide de deux variables indépendantes. Ces deux variables forment deux gradients hypothétiques d’habitat (par exemple l’altitude ou l’exposition au soleil), !! et !!, sur lesquels les sites sont répartis. Pour les valeurs de !! je me suis inspiré d’un gradient altitudinal et pour les valeurs de !! d’un gradient d’orientation mesuré en degrés, mais sans tenir compte de l’aspect circulaire des degrés, c’est-à-dire qu’ici 0 et 360 ne sont pas égaux mais se placent chacun à une extrémité du gradient (hypothétique). Les valeurs prises par la variable !! sur l’ensemble des sites sont comprises dans l’intervalle [0, 1000] pour les simulations qui concernent les AFC, ce qui permet de simuler un gradient long, et dans l’intervalle [500, 1000] pour les simulations destinées aux ACP, afin de simuler un gradient court. Les valeurs prises par la variable !! sur l’ensemble des sites sont comprises dans l’intervalle [0, 360] (gradient long) pour les simulations qui concernent les AFC et dans l’intervalle [90, 270] (gradient court) pour les simulations destinées aux ACP. Le nombre de sites et leur répartition sur ces deux gradients sont identiques entre toutes les simulations qui concernent un même type d’analyse (AFC ou ACP), mais diffèrent entre les simulations faites pour les ACP et celles faites pour les AFC. Pour les ACP j’ai simulé les données sur 50 sites notés de 1 à 50. Il importe en effet pour les ACP d’avoir bien plus de sites que d’espèces (Prodon et Jacquet 2014). C’est pourquoi j’ai mis un rapport de 2.5 entre le nombre de sites et le nombre d’espèces. Pour les AFC, ayant doublé la portion de gradient que couvrent les sites par rapport au ACP, et pour conserver une même pression d’échantillonnage, j’ai donc simulé les données sur 100 sites notés de 1 à 100. Les valeurs de !! et !!, fixées pour chacun des sites sont présentées en annexe A dans les tableaux A.2 et A.4. Dans les deux cas, avec ces valeurs, on a une simulation d’un échantillonnage régulier, comme le montre, la figure 2. Par commodité, on note les valeurs des variables !! et !! sur le site i, respectivement !!! et !!!.

Simulation des abondances brutes (non dégradées)

En préalable à la simulation des abondances brutes des 20 espèces sur chacun des sites, que l’on numérote de 1 à 20, je commence par fixer les valeurs, sur les gradients !! et !! d’un unique optimum pour chacune des espèces. Ce point simule l’optimum écologique de l’espèce par rapport aux deux variables !! et !!. Je note les valeurs des variables !! et !! à l’optimum de l’espèce j, respectivement !!! et !!!. Figure 2 : coordonnées des sites et des optimums des 20 espèces en fonction des variables d’habitat !! et !!, (a) dans le cas des simulations des ACP, (b) dans le cas des simulations des AFC. Chaque site i (triangle noir) est caractérisé par le couple de valeurs (!! », !! ») ; et l’optimum d’une espèce j (cercle rouge) est donnée par le couple de valeurs (!! », !!!). J’ai ainsi une image de la proximité entre sites et optimum des espèces. La figure 2 (a) montre que, pour les populations dont les données d’abondances sont soumises à une ACP, les valeurs des optimums sont choisies de manière à ce que l’optimum de chaque espèce soit à l’extérieur de la portion de gradient que couvrent les sites sur les gradients !! et !!. Les optimums des 10 premières espèces ont des valeurs !!! inférieures aux valeurs !!! des sites, et les optimums des 10 dernières espèces ont des valeurs de !!! supérieures aux valeurs !!!. De plus les optimums des 10 espèces impaires ont des valeurs !!! inférieures aux valeurs !!! des sites, et les optimums des 10 espèces paires des valeurs de !!! supérieures aux valeurs !!!. Ainsi, sur cet intervalle de gradient, toutes les abondances moyennes des populations seront juste croissantes ou décroissantes (si elles ne sont pas constantes), ce pour quoi l’ACP est adaptée (cf. chapitre 1). Précisément les abondances des 10 premières espèces et des 10 dernières sont, respectivement, décroissantes et croissantes en fonction de !! sur la portion de gradient que couvrent les sites. Et les abondances des 10 espèces impaires et des 10 paires sont, respectivement, décroissantes et croissantes en fonction de !! sur la portion de gradient que couvrent les sites. La figure 2 (b) montre que pour les populations dont les données d’abondances sont soumises à une AFC, les optimums des espèces sont placés dans la portion de gradient que couvrent les sites sur les gradients !! et !!. Ainsi je peux simuler une réponse unimodale de l’abondance des espèces le long des gradients. De plus, les 10 premières espèces et les 10 dernières ont respectivement des valeurs !!! inférieures et supérieures à 500 (centre de la portion de gradient que couvrent les sites sur le gradient !!) ; et les espèces paires et impaires ont respectivement des valeurs !!! inférieures et supérieures à 180 (centre de la portion de gradient que couvrent les sites sur le gradients !!). Les valeurs des coordonnées des optimums des 20 espèces dans les cas des ACP et des AFC sont respectivement données dans les tableaux A.1 et A.3 de l’annexe A. ● légende les sites les optimums des espèces (b) pour les AFC Figure 3 : schéma illustrant la simulation de l’abondance d’une espèce j sur un site i. Nmax. j : abondance moyenne maximale de l’espèce j issue d’une loi uniforme nij : abondance de l’espèce j sur le site i, tirée dans une loi de poisson de moyenne Nij Nij : abondance moyenne de l’espèce j sur le site i Site i de coordonnées (gi1,gi2) Optimum de l’espèce j de coordonnées (g1j,g2j) écart type issu d’une loi uniforme ν1j écart type issue d’une loi uniforme ν2j loi multinormale de moyenne et d’écarts types et Nmax. abondances 2g 1g Pour une espèce j Une fois ces paramètres fixés pour les sites et les espèces, je peux simuler les abondances des espèces sur chacun des sites. La figure 3 page précédente résume l’ensemble des critères pris en compte pour déterminer l’abondance d’une espèce sur un site, et rappelle les appellations des paramètres. Je commence par déterminer pour chaque espèce son abondance moyenne à son optimum. Ce sera donc l’abondance moyenne la plus élevée de l’espèce. À chaque simulation, ces 20 valeurs (une pour chaque espèce), que je note !! »#. ! pour l’espèce j, sont tirées de manière indépendante et aléatoire dans une même loi uniforme définie par ses deux valeurs extrêmes !! »# = 5 et !! »# = 50 (valeurs fixes pour toutes les simulations et communes à toutes les espèces). Ainsi, à chaque simulation, la communauté d’espèces simulée contient un nombre aléatoire d’espèces rares, communes et abondantes. Puis, à chaque espèce j et à chaque simulation, j’associe une loi multi-normale définie sur les variables !! et !! et ayant son mode aux valeurs (!!!, !!!) de l’optimum de l’espèce. Les deux écarts types de la loi, que l’on note !!! et !!! , respectivement sur la variable !! et sur la variable !!, sont tirés à chaque simulation aléatoirement, chacun dans une loi uniforme. Ces deux lois uniformes sont définies par leurs valeurs minimum et maximum respectives : !!! »#, !!! »#, et !!! »#, !!! »#. Ces quatre dernières valeurs sont communes à toutes les espèces et fixes pour une SIMULATION. On peut alors calculer, à chaque simulation, la valeur moyenne d’abondance de l’espèce j sur le site i que l’on note !! » à l’aide de la formule suivante : !! » = !! »#. ! ∗ ! !! ! !!!!!!! !!! ! ! !!!!!!! !!! ! Cette formule permet d’obtenir les valeurs moyennes d’abondance pour chacune des 20 espèces, variant entre les sites en fonction de deux variables caractéristiques des sites, avec une forme de loi multi-normale. À partir des quatre paramètres !!! »#, !!! »#, !!! »# et !!! »#, on définit quatre types de profils de moyenne d’abondance vis à vis des variables d’habitat !! et !!. Lors d’une simulation on impose à toutes les espèces le même type de profils. Ces profils, qu’illustre la figure 4 page suivante, sont : Profil 1 : Pour chaque espèce, la moyenne d’abondance ne varie pas ni en fonction de !! ni de !!. Pour obtenir ce profil on fixe, aussi bien pour les ACP que pour les AFC, !!! »# = !!! »# = 100000 et !!! »# = !!! »# = 50000. Ces SIMULATIONs sont numérotées de 1001 à 1309. Profil 2 : Toutes les espèces ont une moyenne d’abondance qui varie uniquement en fonction de !!. L’indépendance des abondances vis-à-vis de !! est obtenue en posant !!! »# = !!! »# = 50000. Les valeurs de !!! »# et de !!! »# doivent permettre d’avoir à chaque simulation, et pour me rapprocher de la réalité de terrain, des espèces avec des valences écologiques allant de larges (les espèces généralistes) à faibles (les espèces spécialistes). Cependant, il me faut tenir compte de trois éléments : (1) les optimums des espèces sont à l’extérieur de la portion de gradient que couvrent les sites pour les ACP et à l’intérieur pour les AFC ; (2) les portions de gradients couvertes entre ACP et AFC sont différentes ; (3) Enfin et surtout, la PdD lors de la création de la matrice d’abondances dégradées ne provoque pas, pour aucune espèce et quelle que soit la valeur de PdD simulée, des abondances nulles sur tous les sites. Toutes ces considérations m’amènent à poser les valeurs suivantes : pour les ACP !!! »# = 250 et !!! »# = 1000 , et pour les AFC !!! »# = 200 et !!! »# = 1000. Ces SIMULATIONs sont numérotées de 2001 à 2309.

Table des matières

Remerciements
Table des matières
Liste des symboles et des abréviations
Table des figures
Introduction
Chapitre 1 : La détectabilité, un enjeu majeur dans les études écologiques
1.1 Approche globale de la détectabilité
1.1.1 Définition de la détectabilité
1.1.2 Une probabilité variable
1.1.3 Impact de la PdD dans les études écologiques
1.1.4 Quelques solutions au problème de la PdD dans les mesures d’abondances
1.2 Présentation de deux analyses factorielles pour lesquelles les conséquences de la PdD sont encore inconnues
1.2.1 Présentation de l’ACP, de l’AFC
1.2.2 Utilisation et limites intrinsèques de l’ACP en écologie
1.2.3 Utilisation et limites intrinsèques de l’AFC en écologie
1.3 Une question légitime
Chapitre 2 : Matériels et méthode
2.1 Des données issues de simulations
2.2 Matériels et Méthode
2.2.1 Définition des gradients et des sites
2.2.2 Simulation des abondances brutes (non dégradées)
2.2.3 Simulation des PdD et des abondances dégradées
2.2.4 Des indicateurs de changements entre ACP ou AFC
Chapitre 3 : Présentation des résultats
3.1 Préambule à la présentation
3.2 Les résultats pour les ACP
3.2.1 Les SIMULATIONs sans gradient de détection
3.2.2 Les SIMULATIONs avec un gradient de détection linéaire
3.2.3 Les SIMULATIONs avec gradient de détection quadratique
3.3 Les résultats des AFC
3.3.1 Les SIMULATIONs sans gradient de détection
3.3.2 Les SIMULATIONs avec gradient de détection linéaires
3.3.3 Les SIMULATIONs avec gradient de détection quadratique « centré ».
3.3.4 Les SIMULATIONs avec gradients de détection quadratiques « décalés»
Chapitre 4 : Analyse des résultats et discussion
4.1 Avant propos
4.2 Analyse des résultats des effets de la probabilité de détection dans les ACP
4.2.1 Les SIMULATIONS sans gradient de PdD
4.2.2 Les SIMULATIONs avec des gradients de détection linéaires
4.2.3 Les SIMULATIONs avec des gradients de détection quadratiques
4.2.4 Bilan pour les ACP
4.3 Analyse des résultats des effets de la probabilité de détection dans les AFC
4.3.1 Les SIMULATIONs sans gradient de PdD
4.3.2 Les SIMULATIONs avec des gradients de détection linéaires
4.3.3 Les simulations avec des gradients de détection quadratiques « centrés »
4.3.4 Les simulations avec des gradients de détection quadratiques « décalés »
4.4 Discussion
4.4.1 Sur les résultats
4.4.2 Sur la méthode
4.4.3 Sur des solutions potentielles
Conclusion
Bibliographie
Annexes AI
Annexes B