Les problèmes posés par les liaisons complexes en IA
Nous avons déjà évoqué précédemment le problème de codage dans la partie du chapitre de l’état de l’art concernant les dépendances fonctionnelles. Les chercheurs en intelligence articielle rencontrent également des problèmes liés aux relations complexes entre attributs dans les tâches de classement, la plus connue étant la construction d’un arbre de décision [246]. Les algorithmes de classement par apprentissage procèdent par sélection d’un ensemble de variables qui forment la partie gauche de la règle [140]. La sélection de ces variables est parfois 175 Les problèmes posés par les liaisons complexes en IA Les problèmes posés par les liaisons complexes en IA Chapitre 7. Les dicultés d’interprétation d’une règle délicate comme en attestent de nombreux articles.
Citons notamment l’introduction [110] au numéro spécial de Machine Learning consacré à ce problème, ainsi que l’étude du biais de sélection dû aux liens des bases de données relationnelles [132]. Les relations complexes entre attributs ont été mises en évidence lors de comparaisons entre des performances de classieurs. Par exemple, on a constaté que ce qui rendait l’algorithme Relief [143] plus ecace était sa résistance aux interactions, due à un choix local des attributs. Si le choix des variables intervenant dans les règles ne tient pas compte de ces relations complexes, c’est-à-dire se fait de façon « myope » d’après le terme employé par I. Konenko [145], les performances de certains classieurs diminuent. Ce sont d’après A. Jakulin [129] les techniques de classement par apprentissage qui utilisent des fonctions linéaires telles que les arbres de décision, la régression logistique, le classieur naïf bayésien, les Support Vector Machines, le perceptron qui en pâtissent le plus. Parmi les relations complexes gênant la discrimination, il pointe non seulement l’interaction, repérée par de nombreux spécialistes des règles de décision, mais également l’eet Simpson mis en évidence dans les données de l’UCI Repository par Fabris C.C. et A.A. Freitas [76] – cf. annexe B de ce mémoire.
Les problèmes des relations complexes dans les règles d’association
Les relations complexes entre variables sont plus diciles à repérer quand les variables sont binaires que quand elles sont quantitatives. Pour mieux les appréhender, nous avons d’abord créé des tableaux avec des valeurs numériques pour que les variables vérient diérents types de liaisons. Pour représenter une liaison entre deux variables quantitatives A et B, nous avons choisi un nuage de points, traversé par deux droites, l’une exprimant la dépendance de B par rapport à A, et l’autre celle A par rapport à B, l’angle des deux droites indiquant la force de la liaison : plus l’angle est petit, plus la liaison est forte ; plus il est proche de 90, plus elle est faible. Et la liaison est positive (les valeurs selon A et B croissent ou décroissent ensemble) quand les droites montent de la gauche vers la droite et négative (A croit quand B décroît et inversement) dans le cas contraire.
Nous renvoyons le lecteur intéressé par la justication de cette modélisation et par les calculs des équations des droites aux ouvrages traitant des modèles de corrélation et de régression[10, 121]. Un fois cette liaison identiée, nous avons transformé A en variable binaire, en remplaçant toutes ses valeurs supérieures à 0,5 par 1 et les autres par 0. Le nuage de points se sépare alors en deux droites, une pour A=1 et l’autre pour A=0. La liaison entre A et B se représente cette fois par la droite qui joint les centres de gravité des deux nuages. Plus sa pente est élevée, plus la liaison est forte, et plus elle s’approche de l’horizontale, plus elle est faible, le sens de la liaison étant repéré comme précédemment. Nous renvoyons le lecteur intéressé également par la mise en oeuvre de ce modèle aux ouvrages de statistique.
L’indépendance entre A et B, et une liaison positive
A et B sont des propriétés quantitatives
Ce sont les graphiques à gauche de la gure 7.1 pour lesquels A et B sont des propriétés quantitatives. Dans ces trois graphiques, on a représenté les valeurs prises par des sujets selon les propriétés A et B. Chaque sujet est représenté par un losange de coordonnées A et B. Dans le graphique du haut, les deux droites forment un angle proche de 90 degrés, ce qui exprime l’indépendance entre A et B. Dans le graphique du dessous, les droites ont à peine bougé, mais il paraît dicile de dire encore que A et B sont indépendants. En eet, les points se retrouvant proches du cercle, leurs valeurs de A et de B vérient à peu de choses près l’équation A2+B2 = 1. On voit ainsi que ces deux droites nous aident à repérer un seul type de liaison, qui est appelée liaison linéaire, et ce que nous appelons le plus souvent indépendance est en fait une absence de liaison linéaire.
B est une propriété quantitative et A une propriété dichotomique
Les graphiques de droite de la figure 7.1 montrent les mêmes points quand A est codée de façon binaire, comme on l’a indiqué plus haut. Dans celui du haut, la valeur du centre de gravité du nuage A=0 est de 0,49 pour B, alors que celle du nuage A=1 est de 0,51 pour B. La droite est quasi-horizontale. Et de même pour le graphique du milieu. Par contre, elle monte pour celui du bas. On voit que la liaison linéaire s’exprime bien par la pente de cette droite. Par contre, la liaison complexe entre A et B qui apparaissait clairement dans le graphique de gauche au centre de la gure 7.1 n’est plus visible dans le graphique de droite. C’est l’eet du codage, qui a fait disparaître des informations qu’on pourra dicilement récupérer en cas de besoin.