Codage de l’information au traitement des données en sciences humaines ou du vivant
Les données traditionnelles en sciences humaines sont issues de mesures ou d’observations plus ou moins simples à décrire. Si on prend comme exemple des données de psychologie obtenues à l’issue d’un questionnaire de psychologie, et qu’on essaie de ranger ces « mesures » selon leur niveau de complexité, en premier figurent le sexe de la personne interrogée, son âge, sa taille, son poids, qui peuvent être établis avec une certitude raisonnable, suivis de son intelligence, ses comportements, sentiments, impressions, attitudes, opinions, plus complexes à mesurer. Ces observations peuvent également être réparties en mesures subjectives quand elles sont faites par la personne elle-même, ou objectives quand elles sont faites par un spécialiste du domaine qui remplit tous les questionnaires à la place des personnes interrogées. Elles peuvent aussi être classées selon leur précision et leur fiabilité qui dépendent de nombreux éléments comme la qualité de la balance, en cas de poids, l’expertise du spécialiste en cas de mesure d’un comportement. Ce ne sont pas les seuls aspects de ces mesures. La mise au point des questionnaires en psychologie sociale et des protocoles d’expérience en psychologie expérimentale a permis de pointer d’autres éléments permettant d’assurer une meilleure qualité des résultats obtenus par leur analyse statistique. Nous renvoyons le lecteur intéressé aux ouvrages dans ces domaines. Les données issues de textes diffèrent aussi selon leur plus ou moins grande simplicité. Compter le nombre de fois que le mot « je » apparaît dans un texte, ou est prononcé dans un discours est simple. Il est plus délicat de résumer un texte, un discours, d’en extraire le style, les idées, les mots-clés, et la difficulté augmente quand il s’agit d’un journal papier avec sa mise en page, ses textes, images, ou d’un site internet qui contient en plus de la navigation, de l’animation d’images, voire du son.
On parle d’ailleurs dans ce cas de données complexes, parmi lesquelles on fait figurer également les images satellitaires avec leurs indications, les dossiers médicaux de patients hospitalisés contenant des données variées comme résultats d’analyses, courbes de températures, radiographies, commentaires des soignants, prescriptions. La « fouille de données complexes » fait actuellement l’objet de recherches actives dans la communauté de fouille de données Une fois établie la liste de ces mesures, elles sont appliquées à chaque objet d’investigation, c’est-à-dire à chaque personne sondée s’il s’agit d’une enquête, à chaque dossier médical d’un hôpital, à chaque texte d’une oeuvre littéraire, à chaque article traitant d’un élément scientifique, à chaque ticket de caisse d’un supermarché. Leur application nécessite l’utilisation d’une échelle de mesure qui peut être de plusieurs types, allant du type catégoriel (ou qualitatif) au type numérique (ou quantitatif), en passant par le type ordinal. Voici un exemple de ces types dans l’extrait de questionnaire de la figure 1.1 : . Le type numérique permet de faire des opérations arithmétiques telles que moyenne, écart-type. Le type ordinal permet d’ordonner les réponses de la plus petite à la plus grande (relation d’ordre total), mais la distance entre deux échelons consécutifs n’est pas nécessairement la même tout au long de l’échelle, contrairement à l’échelle numérique. On ne peut pas faire de moyenne mais on peut utiliser les statistiques de « rang », par exemple médiane et quartiles. Quant au type catégoriel, on ne peut que faire des opérations de comptage du nombre d’objets de chaque catégorie (ou modalité). Ces divers types d’échelles peuvent être encore subdivisés et complétés par d’autres types qui peuvent intervenir dans l’interprétation des résultats de la fouille de données, dont le détail peut être trouvé dans (échelle d’intervalle, de rapports, de Thurstone, Likert) et [66] (données symboliques).
Pour ce qui est du traitement en lui-même, nous n’envisagerons que 4 types de données, les trois décrits précédemment, ainsi que les données dichotomiques (ou binaires), qui sont du type Vrai/Faux, Présence/absence, Oui/Non, et qui font partie des données catégorielles (2 modalités), mais peuvent en plus, quand on les code par 1/0, bénéficier d’un traitement identique aux données numériques (par exemple moyenne), alors que les données catégorielles à plus de deux modalités, même recodées par des nombres, ne le peuvent pas. Dans le questionnaire, les questions Q , identifiés par leur numéro, un ensemble de 11 variables, et pour chaque couple (objet, variable), il y a au plus une valeur, qui peut être une « chaîne de caractères » ou un nombre. En général, l’échelle ordinale sera représentée par un nombre, mais ce peut être aussi le cas de l’échelle catégorielle. Il convient alors de garder en mémoire le type de chaque variable an de ne pas faire de traitement inadapté (la plupart des logiciels prévoient une possibilité de signaler qu’une variable codée par un nombre est catégorielle, an d’éviter qu’elle ne soit traitée comme une variable numérique).