SOJSON, un format json pour la structuration et le stockage des données symboliques
ANALYSE DE DONNÉES SYMBOLIQUES
L’ analyse de données symboliques (ADS) généralise l’analyse de données classiques à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l’expressivité tabulaire classique. En effet, l’analyse de données symboliques est basée sur une modélisation du monde réel supposé constitué d’individus et de concepts. Les individus sont des entités du monde(réel ou fictif). Un concept est décrit par une intention et une extension. L’intention est l’ensemble des propriétés du concept. L’extension représente tous les individus qui répondent aux propriétés du concept.
Données, variables et tableaux symboliques Données symboliques
Un concept, pour prendre en compte la variabilité des individus qui le composent est décrit par un ensemble de nombres ou de modalités. Les données symboliques sont des données pour lesquelles les opérateurs numériques standards ne peuvent être appliquées directement. Ces concepts sont décrits par des variables symboliques. Variables symboliques On appelle variable symbolique toute variable associant à chaque concept une valeur symbolique. Cette dernière peut être une valeur quantitative unique, qualitative unique, un ensemble de valeurs, un intervalle, un histogramme etc… Tableaux de données symboliques Un tableau de données est dit symbolique s’il obtient au moins une variable symbolique. Le tableau 1.1 représente un exemple de tableau symbolique décrivant les marques de voitures
PRÉSENTATION DE L’ANALYSE DES DONNÉES SYMBOLIQUES (ADS)
Présentation de l’analyse des données symboliques (ADS)
L’augmentation de la taille des bases de données, la diversité de formats des données ainsi que la précision de celles-ci dans tous les domaines d’activité sont de véritables gisements dans lesquelles les entreprises ont la possibilité de puiser pour en retirer de la connaissance. Ces connaissances sont disponibles mais ne sont pas toujours évidentes à extraire et à représenter. Résumer ces données grâce à des concepts représente un enjeu très important pour les industries. En effet, ces concepts, contrairement à des données individuelles, peuvent être décrits par des données plus complexes que celles utilisées dans l’analyse de données classiques. Ces données sont dites symboliques car elles expriment la variation interne inéluctable des concepts et sont structurées. L’analyse de données symboliques est basée sur une modélisation du monde réel supposé constitué d’individus et de concepts. Les individus sont modélisés dans un espace de description exprimant leurs propriétés à l’aide de variables. Une description est constituée d’un ou plusieurs produits cartésiens exprimant ces propriétés par leur domaine de variation pour l’individu considéré. Une classe d’individus est modélisée dans l’espace des descriptions à l’aide d’un opérateur utilisant les descriptions des individus qui la constituent. Les concepts sont modélisés dans un espace dit des objets symboliques. Chaque objet symbolique est défini par un triplet : la description d’une classe d’individus appartenant à l’extension du concept, un « opérateur de comparaison » entre deux descriptions, une fonction de reconnaissance. Le premier grand principe de l’ADS consiste à analyser un ensemble d’individus tout en prenant en compte la statistique propre, les données répétées, la variation interne de chacun d’entre eux, considéré d’abord comme un cas unique. Ainsi, quand cette variation n’est pas prise en compte on se trouve dans le cas de l’analyse des données (AD) classiques. Il en résulte, que toute méthode d’ADS doit avoir comme cas particulier une méthode d’AD classique. Le second grand principe qui dérive naturellement du premier est que les résultats obtenus doivent eux-mêmes s’interpréter en termes de données symboliques ou d’objet symboliques, autrement dit, dans des termes plus riches que ceux utilisés en AD classique Le premier principe conduit à utiliser en entrée d’une ADS la définition de données dites « symboliques » (c’est-à dire non purement numériques) qui prennent en compte la variation interne aux individus et leurs complexités. Ainsi, un tableau de données symboliques autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles.
PASSAGE D’UN TABLEAU DE DONNÉES CLASSIQUES AUX TABLEAU DE DONNÉES SYMBOLIQUES
Passage d’un tableau de données classiques aux tableau de données symboliques
Pour passer du tableau de données classiques au tableau de données symboliques, le principe est le suivant : D’abord, à partir du tableau classique qui contient les individus du premier ordre décrits par des variables classiques, on choisi une variable considérée comme le concept dans le tableau de données symboliques. Ensuite, les autres variables du tableau classique vont devenir des variables symboliques décrivant le concept choisi. Ainsi, selon le type de la variable et ses valeurs prises dans le tableau classique, quatre cas sont possibles : • si dans le tableau classique nous avons une variable qualitative qui prend la même valeur pour tous les individus d’un concept alors lors du passage au tableau symbolique, cet concept sera décrit par cette valeur qualitative unique. • si les individus d’un concept sont décrits par une variable qualitative à valeurs multiples alors lors du passage aux données symboliques cet concept sera décrit par un diagramme de fréquences. Chaque concept sera décrit par un diagramme de fréquences. • si dans le tableau classique nous avons une variable continue qui prend la même valeur pour tous les individus d’un concept alors lors du passage au tableau symbolique, cet concept sera décrit par cette valeur continue unique. • si les individus d’un concept sont décrits par une variable quantitative continue, alors lors de la création des données symboliques cet concept sera décrit par un intervalle ou un histogramme. Chaque concept sera décrit par un intervalle ou un histogramme. Toutefois, dans tableau symbolique on peut rajouter des variables qui sont propres au concept. Pour fixer les idées, prenons l’ exemple d’une île dans laquelle, se trouvent 600 oiseaux répartis dans 3 espèces dont 400 Hirondelles, 100 Autruches et 100 Pingouins. Dans cet tableau classique, on indique pour chaque oiseau(individu du premier ordre) son espèce, sa taille et s’il vole ou pas. Oiseaux Espèce Vol Taille(cm) Couleur 1 pingouin non 80 gris 2 hirondelles oui 70 noir . . . . . . . . . . . . . . . 600 autruches non 125 gris Table 1.2 – Tableau de données classiques Espèce Vol Taille(cm) Couleur pingouin non [60 , 85] 70% gris, 30% noir autruches non [85 , 160] 10% gris, 90% noir hirondelles oui [70 , 95] 50% gris, 50% noir Table 1.3 – Tableau de données symboliques Dans cet exemple, l’espèce est considéré comme concept. La variable Vol est devenue une variable qualitative exprimant la possibilité de vol des individus du concept, la taille est une variable à valeur intervalle exprimant le minimum et le maximum des tailles des individus de chaque concept. La variable couleur est une variable à valeur histogramme exprimant le pourcentage d’individus ayant la même couleur.
LES AVANTAGES DE L’ANALYSE DE DONNÉES SYMBOLIQUES
Les avantages de l’analyse de données symboliques
La modélisation des données par des concepts donne à l’analyse de données symboliques plusieurs avantages.L’ADS permet de : – Créer les objets statistiques qui nous intéressent vraiment et les décrire de façon riche et originale : on croise des informations qui n’avaient jamais été rapprochées, on travaille vraiment sur les objets intéressants ; – Avoir une vision plus synthétique : réduire au départ les tableaux de données (avoir des statistiques dans chaque case permet de réduire considérablement le nombre de lignes et de colonnes), avoir au final des résultats plus opérationnels (en identifiant par exemple les principales variables explicatives d’un phénomène et en éliminant les autres) ; – Appliquer de nombreuses méthodes d’analyse à ce type de données : visualisation, ACP, nuées dynamiques, arbres de décision, régression linéaire, pour exploiter davantage la réalité que les modèles classiques qui la résument trop ; – Contourner le problème des données manquantes au niveau des individus : un client dont on ignore l’âge ou le chiffre d’affaires généré sera inclus dans le concept qui le regroupe avec d’autres clients. Dès lors, au niveau du concept (par exemple le segment de client), le manque d’information sur un cas particulier est moins problématique et n’empêche pas de mener des analyses statistiques poussées ; – Éviter les résultats biaisés par certaines variables : dans un tableau symbolique, chaque variable a le même poids alors qu’en statistique classique, une variable à 10 modalités pèsera plus dans l’analyse qu’une variable à 2 modalités .
1 Analyse de données symboliques |