INFERENCE BAYESIENNE DANS DES MODELES D’ASSURANCE

INFERENCE BAYESIENNE DANS DES MODELES
D’ASSURANCE

Les modèles usuels en assurance

Nombre de sinistres

Nous présentons dans cette partie quelques lois usuelles utilisées pour modéliser le nombre de sinistres. ([33]) La distribution de Poisson La loi de Poisson de paramètre λ est la loi d’une variable aléatoire discrète réelle X, prenant toutes les valeurs entières non négatives, avec les probabilités : P r(X = k) = Pk = exp(−λ)λ k k! k ∈ [0, +∞[ X∞ k=0 Pk = 1 La loi de Poisson dépend d’un seul paramètre λ. On la note P(λ). La loi de Poisson est la loi des événements rares ou loi des petites probabilités : loi du nombre de fois o`u un événement de probabilité très faible se produit au cours d’un très grand nombre d’expériences identiques et indépendantes. Moments La loi de Poisson est la seule loi discrète possédant la propriété, E(X)=Var(X). E(X) = V ar(X) = λ

Propriétés et domaine d’application

La loi de Poisson est la loi discrète d’une variable aléatoire représentant un nombre d’événements. Elle est utilisée pour décrire : — la réalisation d’événements peu probables, dans une succession d’épreuves très nombreuses, au moins 50, — le nombre des sinistres, le nombre d’accidents dans un atelier, le nombre de défauts sur un appareil, Elle a des applications dans le domaine des files d’attente et d’assurances. La distribution binomiale négative La loi binomiale négative est une distribution de probabilité discrète. Elle décrit la situation suivante : une expérience consiste en une série de tirages indépendants, donnant un succès avec probabilité p (constante durant toute l’expérience) et un échec avec une probabilité complémentaire. Cette expérience se poursuit jusqu’à l’obtention d’un nombre donné n de succès. La variable aléatoire représentant le nombre d’échecs (avant l’obtention du nombre donné r de succès) suit alors une loi binomiale négative. Ses paramètres sont r, le nombre de succès attendus, et p, la probabilité d’un succès. Définition 1.3.1 On dit qu’une variable aléatoire X suit la loi binomiale négative (ou loi de Polya) de paramètres r et p, ce que l’on note X ∼ BN(r, p) si : — X(Ω) = N. — P(X = k) = C k k+r−1P r (1 − p) k . o`u : r ≥ 0 et 0 ≤ p ≤ 1. Moments X admet alors une espérance et une variance donnés par E(X) = r(1 − p) p , V ar(X) = r(1 − p) p 2 . 1.3 Les modèles usuels en assurance 25 Propriétés et domaine d’application La loi binomiale négative est la distribution du nombre d’échecs avant le r-ième succès dans des épreuves de Bernoulli, de probabilité de succès p. C’est un modèle que l’on retrouve souvent en biologie, pour caractériser les résultats de comptage de bactéries par exemple,et en assurance pour modéliser les nombres des sinistres.

Montant de sinistres

Nous présentons dans cette partie les lois usuelles utilisées pour modéliser le coˆut d’un sinistre. La distribution de Pareto C’est une loi qui est utilisée notamment dans la modélisation de la distribution des revenus d’une population ou en théorie des assurances. Sa densité est définie pour x > x0 > 0 , x0 pouvant s’interpréter comme le revenu minimum, en fonction d’un paramètre θ > 0 : f(x; γ, θ) = θγθ x θ+1 γ, θ > 0, F(x; γ, θ) = 1 − ( γ x ) θ Moments E(x) = θγ θ − 1 pour θ > 1 V (x) = γ 2 θ (θ − 1)2 (θ − 2) pour θ > 2 Propriétés et domaine d’application La distribution de Pareto est Heavy tailed (queue lourde), ce qui signifie que : limx→∞ P(X > x + y|X > x) = 1 pour y > 0 Par exemple, si X est le temps de vie d’un composant, plus il a vécu (X > x) plus il a de chances de vivre longtemps : le système rajeunit.

Les modèles usuels en assurance

La distribution de Pareto est largement appliquée dans différents domaines tels que l’assurance, la réassurance, la physique, l’hydrologie, la géologie et l’astronomie. La Loi log-normale Définition 1.3.2 Soit Y une variable aléatoire suivant la loi N (m, σ). La variable aléatoire X définie par X = e Y suit, par définition, une loi log-normale. Cette loi est aussi appelée loi de Galton ou loi de Gibrat. La densité de la loi de la variable X se déduit de celle de la variable Y par le changement de variable x → e y : f(x) = 1 xσ√ 2π e − (ln x−m) 2 2σ2 x ≥ 0 f(x) = 0 sinon Le facteur 1/x dans l’expression de la densité est un facteur de pondération. Moments L’espérance et la variance de la loi log-normale sont : E(X) = exp(m + σ 2 2 ) V ar(X) = [exp(σ 2 ) − 1]exp(2m + σ 2 ) Propriétés et domaine d’application La loi log-normale représente la loi d’une grandeur résultant de l’influence d’un grand nombre de facteurs aléatoires et indépendants agissant sous forme multiplicative. Elle est fréquemment utilisée en fiabilité et en assurance car la variable aléatoire X est positive et grˆace au paramètre de forme s, elle peut avoir des représentations très variées. Le produit de n variables aléatoires indépendantes suivant une loi log-normale suit une loi log-normale.

L’analyse de survie

L’analyse de la survie est une branche des statistiques qui cherche à modéliser le temps restant avant la mort pour des organismes biologiques (l’espérance de vie) ou le temps restant avant l’échec ou la panne dans les systèmes artificiels, ce que l’on représente graphiquement sous la forme d’une courbe de survie. On parle aussi d’analyse de la fiabilité en ingénierie, d’analyse de la durée en économie ou d’analyse de l’histoire d’événements en sociologie. La représentation des données de survie se fait souvent sous la forme graphique d’une courbe de survie. Plus généralement, l’analyse de survie implique la modélisation du facteur temps dans la probabilité d’occurrence des événements, notamment grˆace à des concepts tels que le taux de défaillance instantané ou la loi de fiabilité d’un système. L’analyse de survie a été généralisée à la modélisation d’événements non pas uniques mais récurrents dans le temps, comme peuvent l’ˆetre par exemple les rechutes en cas de maladie, voire à des systèmes plus complexes encore soumis à des risques multiples qui peuvent dépendre les uns des autres, etc. L’analyse de survie repose souvent sur des séries temporelles de données longitudinales. Dans les cas o`u les événements d’intérˆet ne se sont pas produits avant la fin de la période d’observation (e.g., la maladie n’est pas apparue chez un malade) on parle de censure de la série de données. Pour cela, dans ce chapitre nous avons fait un rappel sur l’analyse de survie et les plans d’experiences avec quelques modèles usuels.

Les différents plans d’expériences

Dans les cours de statistique, on suppose toujours que les données que l’on analyse ont été complètement et parfaitement observées. Or, en pratique, Dans le domaine des durées de survie, il est fréquent que les données soient manquantes, incomplètes ou erronées à cause de deux phénomènes distincts : la censure et la troncature.

Les données censurées

Une durée de vie aléatoire X est dite censurée par une variable aléatoire de censure C si on observe parfois C au lieu de X. L’information donnée par C sur X est : X > C s’il y a censure droite X < C s’il y a censure gauche Pour l’individu i ; considérons – son temps de survie Xi ; – son temps de censure Ci ; – la durée réellement observée Ti. Censure à gauche La censure à gauche correspond au cas o`u l’individu a déjà subi l’évènement avant que l’individu soit observé. On sait uniquement la date de l’évènement inférieure à une certaine date connue. Pour chaque individu,on peut associer un couple des variables aléatoire (T, δ) : T = X ∨ C = max(X, C), δ = 1X≥C. Exemple de censure gauche : Un ethnologue étudie la durée d’apprentissage d’une tˆache. Cette durée est une variable aléatoire X et C est l’ˆage de l’enfant. Pour les enfants qui savent déjà accomplir la tˆache, C censure X à gauche car pour eux X est inconnu mais inférieur à C : X < C. 2.1 Les différents plans d’expériences 29 Censure à droite La durée de vie est dite censurée à droite si l’individu n’a pas subi l’événement à sa dernière observation. En présence de censure à droite, les durées de vie ne sont pas toutes observées ; pour certaines d’entre elles, on sait seulement qu’elles sont supérieures à une certaine valeur connue. Exemple de censure droite : Un exemple classique de censure droite est celui o`u l’étude porte sur la durée de survie X de patients atteints d’une certaine maladie. Pour les patients perdus de vue au bout du temps C alors qu’ils étaient encore vivants, C censure X à droite puisque, pour eux, X est inconnue mais supérieure à C : X > C. Figure 2.1 – Les différents types d’observations La censure de type I Soit C une valeur fixée, au lieu d’observer les variables X1, …, Xn qui nous intéressent, on n’observe Xi uniquement lorsque Xi ≤ C ; sinon on sait uniquement que Xi > C. On utilise la notation suivante : T i = Xi ∧ C = min(Xi ; C). 2.1 Les différents plans d’expériences 30 Ce mécanisme de censure est fréquemment rencontré dans les applications industrielles. Par exemple, on peut tester la durée de vie de n objet identiques (ampoules) sur un intervalle d’observation fixé [0; µ] : En biologie, on peut tester l’efficacité d’une molécule sur un lot de souris (les souris vivantes au bout d’un temps µ sont sacrifiées). La censure de type II Elle est présente quand on décide d’observer les durées de survie des n patients jusqu’à ce que k d’entre eux soient décédés et d’arrˆeter l’étude à ce moment là. Soient X(i) et T(i) les statistiques d’ordre des variables Xi et Ti : La date de censure est donc X(k) et on observe les variables suivantes T(1) = X(1) . . . T(k) = X(k) T(k+1) = X(k) . . . T(n) = X(k) La censure de type III (ou censure aléatoire de type I) Soient C1, …, Cn des variables aléatoires i.i.d. On observe les variables Ti = Xi ∧ Ci . L’information disponible peut ˆetre résumée par : – la durée réellement observée Ti ; – un indicateur δt = II{Xi≤Ci} – δi = 1 si l’événement est observé (d’o`u Ti = Xi). On observe les vraies durées ou les durées complètes. – δi = 0 si l’individu est censuré (d’o`u Ti = Ci ). On observe des durées incomplètes (censurées).

Données progressivement censurées de type II

Les données progressivement censurées sont un mécanisme assez populaire récemment dans la collecte de données de survie. Supposons que n unités sont placés pour un test 2.1 Les différents plans d’expériences 31 de survie et que m (m < n) unités ont entièrement observés (jusqu’à la panne). Le processus d’observations est le suivant : après la première panne, R1 des (n-1) survivants sont retirés du plan d’expérience. Après la deuxième panne, R2 des (n-2-R1) survivants sont retirés du plan, ainsi de suite à la mieme étape Rm = n − m − R1 − R2 − … − Rm−1 survivants sont retirés du plan d’expérience. (Pour plus de détails voir [26],[25],[24]). Ce schéma de censures progressives à droite est noté (R1, R2, …, Rm). Donc, X = (X1,m,n, X2,m,n, …, Xm,m,n) est un échantillon progressivement censuré de type II. Il est clair, que ce schéma englobe les données complètes (R1 = R2 = … = Rm = 0 et n=m) et les données censurées de type II (R1 = R2 = … = Rm−1 = 0 et Rm = n − m). La fonction de densité des données progressivement censurées de type II est donnée par fX1:m:n,X2:m:n,…,Xm:m:n (x1, x2, …, xm) = C Ym i=1 f(xi)[1 − F(xi)]Ri , (2.1)

Table des matières

Introduction
1 L’assurance
1.1 Préliminaires et Notations
1.1.1 Définition juridique de l’assurance
1.1.2 Définition technique de l’assurance
1.1.3 Le contrat d’assurance
1.1.4 Les parties du contrat
1.1.5 L’assurance non vie
1.1.6 l’assurance vie
1.1.7 La réassurance
1.1.8 La coassurance
1.1.9 Théorie de la crédibilité
1.2 Méthodes de tarification
1.2.1 La prime pure
1.2.2 La prime commerciale
1.2.3 Les différents types de primes pures
1.3 Les modèles usuels en assurance
1.3.1 Nombre de sinistres
1.3.2 Montant de sinistres
2 L’analyse de survie
2.1 Les différents plans d’expériences
2.1.1 Les données censurées
2.1.2 Données progressivement censurées de type II
2.1.3 Les données tronquées
2.2 Notions de fiabilité
2.2.1 La durée de vie
2.2.2 La fonction de répartition F(t)
2.2.3 La densité de probabilité f(t)
2.2.4 La fonction de survie R(t)
2.2.5 La fonction de hasard h(t)
2.2.6 Le taux de hasard cumulé H(t)
2.2.7 Moyenne et variance de la durée de survie
2.3 Les modèles usuels dans l’analyse de survie
2.3.1 Le modèle exponentiel
2.3.2 Le modèle de Weibull
2.3.3 Le modèle de Rayleigh
2.3.4 Le modèle de la loi gamma
3 Les méthodes d’estimations
3.1 La méthode des moments
3.2 La méthode du maximum de vraisemblance
3.3 La méthode Bayésienne
3.3.1 Le principe Bayésien
3.3.2 Lois a priori
3.3.3 La distribution de la loi a posteriori
3.3.4 Le risque a posteriori
3.3.5 Les propriétés de l’estimateur de Bayes
3.3.6 Les fonctions de perte
3.4 Les méthodes de Monte Carlo
3.4.1 Les méthodes MCMC
3.4.2 L’algorithme de Metropolis-Hastings
3.4.3 L’algorithme de Gibbs
4 Le modèle de Rayleigh Pareto
4.1 Introduction
4.2 Le modèle
4.3 Inférences statistiques en présence de données complètes
4.3.1 Estimation par la méthode du maximum de vraisemblance
4.3.2 Estimation par la méthode Bayésienne 62
4.4 La prime Bayésienne sous la fonction de perte quadratique
4.4.1 Simulation
4.5 Inférences statistiques en présence de données progressivement censurées
4.5.1 Estimation par la méthode du maximum de vraisemblance
4.5.2 Estimation par la méthode Bayésienne
4.5.3 Simulation
4.5.4 Comparaison des deux méthodes pour les estimateurs des paramètres
4.6 Application avec des données réelles
Conclusion et Perspectives
Bibliographie