Modélisation des données fortement asymétriques

Modélisation des données fortement asymétriques

Le modèle proposé

Comme nous l’avons exposé, les 2-tuples linguistiques présentent des inconvénients qui en compromettent la généralisation à tout problème traitant des données floues et spécialement quand celles-ci sont fortement déséquilibrées sur l’axe.

Néanmoins, nous souhaitons garder le formalisme apporté par les 2-tuples linguistiques pour leur modèle de calcul optimisé et sans perte d’information ainsi que pour le fait qu’ils conservent les termes linguistiques de départ dans l’expression de la solution finale. Nous proposons dans ce qui suit une méthode de partitionnement flou donnant de meilleurs résultats y compris et en particulier quand les données à modéliser sont fortement déséquilibrées sur leur axe.

La sémantique au cœur du partitionnement

Afin de proposer une méthode de partitionnement flou efficace fondée sur les 2-tuples linguistiques, nous allons revenir sur leur problématique principale qui est la non prise en compte durant le processus de partitionnement des préférences de l’utilisateur (ou l’expert) quant aux positions souhaitées des termes de départ sur l’axe.

Ce qui crée naturellement un décalage entre la sémantique attribuée aux termes par l’algorithme de partitionnement et celle attendue. Idéalement, les positions des termes souhaitées par l’utilisateur devraient être l’élément principal dans le choix de la sémantique à leur attribuer afin que le partitionnement flou résultant reflète au mieux la réalité des données que l’on souhaite modéliser.

Pour cela, nous modélisons les données sous la forme d’un couple (s, v) où s est un terme et v sa position sur l’axe (NoAlcohol, 0.0) par exemple. Nous appellerons ces couples, des couples sémantiques [Abchir et Truck, 2011]. Le mot sémantique est utilisé en référence au langage naturel, car c’est bien la sémantique qui doit guider la modélisation des termes. Ainsi, l’ensemble de termes de départ est composé d’un ensemble de couples sémantiques (si , vi) comme le montre la définition 31.

Définition 31. Soit S un ensemble ordonné de termes linguistiques asymétriques et U l’univers de discours numérique sur lequel les termes sont projetés. Chaque valeur linguistique est modélisée par un couple sémantique unique (s, v) ∈ S × U. Nous notons di la distance entre les deux termes si et si+1 avec di = vi+1 − vi. En vue d’attribuer une sémantique à l’ensemble des termes de S nous nous appuyons également sur les hiérarchies linguistiques (cf. définitions 23 et 24).

Ces dernières sont composées de plusieurs niveaux, chacun défini par un ensemble de termes linguistiques 67 Chapitre 4. Modélisation des données fortement asymétriques ordonnés et uniformément distribués sur l’axe. Nous considérons, à l’image du modèle de Herrera et Martínez, des ensembles de termes S où chaque terme est associé à une translation symbolique notée α telle que α ∈ [−0.5, 0.5[. Les définitions 15 et 16 restent donc valables ici.

Le partitionnement flou

La modélisation des couples sémantiques s’inspire directement de celle des 2-tuples linguistiques, ce qui nous permet d’en garder tous les avantages. Cependant, la sémantique associée à chaque couple est obtenue de manière différente et ce, bien qu’elle garde le même principe fondamental : associer à chaque couple sémantique (si , vi) un ou plusieurs termes linguistiques (s n(t) j , αj ) d’une hiérarchie linguistique LH (ou hiérarchie linguistique étendue ELH) sous la forme d’un 2-tuple sémantique. En effet, nous utilisons à la fois la position des couples sémantiques, la distance entre deux couples successifs ainsi que le grain de chaque niveau de la hiérarchie linguistique pour constituer

Le modèle proposé le partitionnement flou leur correspondant [Abchir et Truck, 2013]. L’attribution de la sémantique aux couples de l’ensemble de départ S se déroule comme suit : Soit deux couples sémantiques successifs (si , vi) et (si+1, vi+1). La première étape consiste à choisir le meilleur niveau de la hiérarchie linguistique avec lequel ils devraient être représentés. Idéalement, le niveau choisi devrait avoir une granularité assez élevée pour représenter de la manière la plus précise possible les deux couples en question.

Une granularité insuffisante engendrerait un partitionnement flou dont la sémantique serait assez éloignée de celle souhaitée initialement. Conditions requises. Afin que le niveau de la hiérarchie linguistique corresponde au mieux aux couples (si , vi) et (si+1, vi+1), nous nous appuyons sur le grain g des niveaux de la hiérarchie linguistique. Ainsi, le niveau retenu est celui dont le grain se rapproche le plus de la distance di entre les deux couples en question.

Il est important que la granularité du niveau t choisi soit suffisante, i.e. si nous avons un ensemble de départ S dont les termes sont uniformément distribués sur l’axe avec une même distance di , alors le niveau t doit avoir au moins autant de termes (s n(t) j , αj ) que de couples (si , vi). Ceci permet à tous les couples d’être représentés par (au moins) un terme linguistique. La condition suivante doit donc être vérifiée : gi < di .