Les outils de mesures de sinistralité et des classes de risque

Analyse des données

Dans cette section nous allons présenter quelques statistiques des variables numériques qui caractérisent les classes de risque et le cout des sinistres. Le fichier contient à peu près autant d’hommes que des femmes. Comme nous l’avons détaillé dans le paragraphe précèdent pour la variable type du conducteur de l’assuré, dans 30% de cas l’assuré n’est pas le conducteur principal.
Le tableau suivant nous donne les statistiques de ces variables numériques ;
On remarque que les coûts augmentent en moyenne de façon logarithmique avec la puissance du véhicule et ils diminuent de façon parabolique (concave) avec l’ancienneté du véhicule. La dispersion de ces coûts suit les mêmes monotonies. Les hommes conduisent très souvent par rapport aux femmes les véhicules puissants et les véhicules de marque étrangère .
La droite de Henry (voir le graphique de la figure 3.1) permet d’étudier la forme asymétrique de la distribution des coûts des sinistres. Voyons ce graphe QQ-plot.

QQ-plot des données

Un graphique QQ-plot est un outil convenable pour examiner si la distribution d’une variable dans un échantillon provient d’une distribution théorique spécifique. Il donne les quantiles de la distribution empirique en fonction des quantiles de la distribution théorique envisagée. Si l’échantillon provient bien de cette distribution théorique, alors la forme du graphique QQ-plot sera linéaire.

APPLICATION

Dans la théorie des valeurs extrêmes, le QQ-plot est basé sur la distribution exponentielle. Ce graphique est l’ensemble des points tel que est la fonction inverse de la distribution exponentielle. Le graphique QQ-plot permet d’obtenir la forme de la queue de la distribution. Trois cas de figure sont possibles :
– Les données suivent la loi exponentielle : la distribution présente une queue très légère, les points du graphique présentent une forme linéaire.
– Les données suivent une distribution à queue épaisse « fat-tailed distribution » : le graphique QQ-plot est concave, cela est dû à la présence d’un grand nombre de valeurs extrêmes au niveau de la queue de la distribution.
– Les données suivent une distribution à queue légère « short-tailed distribution » : le graphique QQ-plot a une forme convexe. Le nombre de valeurs extrêmes est faible.
Voici deux graphiques QQ-plot représentant le montant des sinistres pour l’ensemble des observations.

Classes de risque

Dans la constitution des classes de risque, où l’information doit être disponible et fiable, un équilibre doit être trouvé entre la granularité et la robustesse (GrunRehomme et al. 2007). Si la granularité (ou la segmentation) est trop grossière, certes la robustesse temporelle des indicateurs de sinistralité est assurée, mais la mutualisation est trop large et un concurrent peut très bien attirer les bons risques de cette classe en proposant une cotisation plus faible grâce à une segmentation plus fine. A l’inverse une granularité trop fine ne permet pas d’avoir cette robustesse. Au sein d’une mutualisation des risques, il existe une volatilité résiduelle. Et donc pourdes raisons de confidentialité, toutes les variables de construction des classes ne sont pas utilisées et la description précise des classes n’est pas donnée. La connaissance des classes et des primes pures associées permettrait à un concurrent de connaître les ratios sinistres/cotisations de cet assureur, puisqu’il est toujours possible de se renseigner sur le montant de la cotisation. Nous pouvons citer trois facteurs principaux qui expliquentune variance importante du montant des sinistres dans uneclasse de risque :
– La présence d’une ou de quelques valeurs extrêmes.
– La présence d’une petite sous population plus risquée, d’une niche dans ce segment qu’il est nécessaire de suivre avec attention, pour éventuellement envisager une segmentation plus fine.
– Un manque d’homogénéité structurelle de la classe qui peut provenir de variables non retenues ou non observables.
Le tableau suivant présente la hiérarchie des classes de risque basée sur la prime pure, ainsi que quelques caractéristiques statistiques de la distribution du montant des sinistres (quantile à 90%, écart-type). On constate que globalement le neuvième décile et l’écart-type de la distribution des coûts des sinistres augmentent avec laprime pure.

Perception de la présence des valeurs extrêmes dans les classes de risque

Comme nous l’avons évoqué dans le paragraphe précédent, une mauvaise construction de la classe (manque structurel d’homogénéité), une petite sous population différente ou la présence de valeurs extrêmes (sinistres graves pour la classe) dans une classe provoquent une forte variabilité des coûts dans une classe. Pour cela nous allons répondre à la question suivante : Parmi ces coûts très élevés quelles sont les valeurs que nous pouvons qualifier d’extrêmes ? Pour répondre à cette problématique nous avons recours aux trois méthodes présentés précédemment (cf. 2.3) pour déterminer dans chaque classe un seuil audelà duquel une valeur sera considérée comme extrême.

Choix du seuil

Le but de notre travail se base sur le choix de ce seuil. Ce choix nous conduit face à l’un des deux problèmes : la présence d’un biais ou d’une variance importante.
En effet, en prenant un seuil faible, l’augmentation du nombre des observations (excès) nous donne une estimation plus précise, mais ce choix nous ramène aussi à déclarer abusivement des observations comme extrêmes, et introduire un biais dans l’estimation de la prime pure en la sous-évaluant.
Le choix du seuil par la méthode d’approximation GPD présente l’avantage de fournir une prévision d’un sinistre extrême pour une probabilité d’occurrence donnée (très faible). Dans cette étude nous essayons d’estimer un quantile extrême avec une probabilité de 99,9% d’être une valeur extrême (un sinistre grave) pour la distribution du coût des sinistres avec un niveau de confiance de 95%. Ce quantile choisi de façon empirique, est alors estimé ponctuellement puis par intervalle de confiance.
Les paramètres sont estimés par la méthode de maximum de vraisemblance.
Le tableau suivant donne la valeur 17 785 correspondant à la perte maximale pour la compagnie d’assurance en cas d’une apparition soudaine d’un sinistre grave avec une probabilité de 0,1% pour l’ensemble des données.

APPLICATION

En comparant le nombre de valeurs extrêmes estimé par chacune des trois méthodes précédentes avec le graphique boxplot de la Figure 3.4, on constate les faits suivants :
– La méthode record propose une méthode maximale (nombre élevé de valeurs extrêmes) dans les classes de risque où la sinistralité est faible ou moyenne par rapport à l’ensemble du portefeuille, c’est à dire dans les classes où le seuil est relativement bas pour l’ensemble du portefeuille (classes de 1 à 7).
– La méthode FME prend moins en compte les ruptures dans la queue de la distribution.
– La méthode GPD offre une méthode de détection des valeurs extrêmes minimale (avec peu de valeurs extrêmes).
– Les trois méthodes donnent des résultats proches sauf dans les cas où la queue de la distribution est constituée de petits groupes de points isolés.
– Pas de corrélation significative entre les trois méthodes (on note simplement un coefficient de corrélation linéaire r = 0, 44 entre les méthodes FME et GPD).
La méthode des valeurs record présente deux inconvénients pour notre problématique :
– Le seuil correspond à une valeur de l’échantillon (et non à une valeur estimée comme dans les deux autres méthodes), ainsi la distance comprise entre la première observation atypique et la dernière observation non retenue comme atypique n’intervient pas. Les valeurs seront différentes au cours d’un autre exercice.
– Le seuil retenu ne prend pas en compte la forme géométrique de la queue de la distribution. Il est trop lié à la taille de la classe.
Par conséquent, cette dernière méthode ne sera pas retenue dans la combinaison convexe de la nouvelle méthode.
Rappelons que dans le graphique boxplot, les « moustaches» sont généralement déterminées sur 1,5 fois l’intervalle interquartile 5 . Ce choix du coefficient 1,5 donnerait 99,3% des observations à l’intérieur de la boîte et des moustaches si la distribution était normale. Or la distribution des coûts, comme d’ailleurs de nombreuses distributions économiques (salaires, chiffre d’affaires des entreprises,…), est fortement asymétrique et donc considérer comme extrêmes toutes valeurs à l’extérieur des moustaches n’est vraiment pas raisonnable. La probabilité serait de 0,999 pour un coefficient de 2 (pour une loi normale !). La courbe représentative de la distribution des coûts étant asymétrique avec une queue plus étalée à droite, on a regardé si son logarithme suit une loi normale. C’est une démarche classique qui permet alorsd’utiliser les propriétés simples et bien connues de la loi normale au lieu de chercher une adéquation des données initiales à une distribution qu’il faut trouver, mais cette démarche s’est révélée négative.

Détection des valeurs extrêmes dans les classes de risque selon la nouvelle méthode

On peut toujours considérer que les assurés d’une même classe de risque constituent un échantillon aléatoire de l’ensemble des assurables ayant les mêmes caractéristiques.Un changement de véhicule peut impliquer un changement de classe.

L’intervalle interquartile est l’intervalle [Q1, Q3] où Q1 est le premier quartile et Q3 est le troisième quartile

D’ailleurs d’une année à l’autre, une partie des assurés change dans une même classe de risque, du fait de nouveaux assurés, des départs, des changements de véhicule,… Dans cette application numérique, on considère une combinaison convexe des deux variables de seuil ( u1 : FME et u2 : GPD) qui minimise la variance de cette combinaison (voir théorème 13). Cette démarche est meilleure que de prendre une simple moyenne arithmétique des seuils.

Comparaison des méthodes

Dans chaque classe de risque, la variance estimée du seuil obtenu par la méthode FME est toujours plus grande que celle du seuil obtenu par la méthode GPD et donc la combinaison convexe des seuils est plus proche des seuils retenus par la méthode GPD que ceux déterminés par la FME, comme le montre le graphique suivant.