Etude terminologique de la chimie en arabe dans une approche de fouille de textes

Etude terminologique de la chimie en arabe dans une approche de fouille de textes

Constitution du corpus

Le point de départ de notre travail de recherche porte sur la constitution d’un corpus. Pour mettre au point ce corpus, la démarche suivie soulève un certain nombre de problématiques, tant sur la méthodologie de collecte de textes que sur les caractéristiques du corpus recueilli. Dans cette perspective, nous nous intéressons à la notion de corpus et nous étudions les éléments essentiels qui font d’un recueil de données un corpus. 3.1 Définition du corpus Un corpus est la base du travail de fouille de textes. Il est défini comme étant ‘un ensemble déterminé de textes sur lesquels on applique une méthode définie’ (Dubois, 1969)235 . En effet, un corpus permet de repérer les caractéristiques d’une langue. Il est considéré aussi bien comme une source fournissant des preuves lexicales que comme un moyen de connaissance permettant de distinguer les utilisateurs des communautés de locuteurs. Ainsi, le corpus est utilisé comme une référence de travail : « Une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair, 1996)236 Un corpus est appelé aussi ‘documentation’, ‘données’ ou ‘sources’. Par conséquent, nous pourrions dire qu’un corpus serait un assemblage homogène et significatif de données linguistiques permettant d’élaborer la description et la formalisation des faits linguistiques. Parmi les nombreuses définitions existantes du corpus en linguistique, celle que Sinclair propose dans son rapport est abondamment citée ; mais, Habert suggère quelques précisions : « Un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extralinguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue ». (Habert, 2000)237 Cette définition du corpus nous parait complète, mais celle de Rastier (2005)238, qui dans le cadre de la sémantique textuelle interprétative, parle « d’un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications » est tout aussi plausible. En fait, il existe une multitude de définitions du corpus dont nous ne livrerons pas ici la liste ; elles divergent plus ou moins d’un chercheur à un autre, en fonction de son ancrage théorique ou disciplinaire. En ce qui nous concerne, nous considérons le ‘corpus’ comme une grande collection de textes authentiques, mémorisés sous forme électronique, rassemblés selon un ensemble de critères spécifiques avec un objectif d’étude précis, permettant d’attester les différentes dénominations d’usage de notre domaine de spécialité.

Historique de la notion de corpus

Les premières études menées sur le ‘corpus’ remontent à la fin du 19ème siècle, notamment avec des travaux en acquisition du langage (Mc Enery et al., 2001)239. Vers 1920, en Angleterre, Palmer et Hornby travaillent sur la phraséologie orale et écrite dans le cadre de l’apprentissage du langage ; ces travaux aboutissent à la rédaction du fameux dictionnaire Learner’s Dictionary of Current English. En parallèle, aux Etats-Unis, en 1921, Thornbike a compilé un corpus de 4,5 millions de mots provenant de quarante et une sources distinctes afin de constituer une liste de fréquences. En 1970, Sinclair publie le résultat de ces études sur corpus électronique ; mais ce rapport est peu diffusé et n’est publié que récemment. Et en 1980, le projet COBUILD a pour objectif de créer un corpus d’anglais contemporain pour la composition d’un dictionnaire et d’une grammaire entièrement nouveaux. Cela a permis de rassembler 320 millions de mots formant désormais la Bank of English. Avec le développement de l’informatique, les corpus électroniques apparaissent, explosent et deviennent le support textuel des chercheurs. Aujourd’hui, pratiquement tous les linguistes ont recours au corpus et les plus farouches iront jusqu’à dire « hors des corpus point de salut » (Cappeau et al, 2007) . La question de l’utilité des corpus est désormais obsolète et fait l’objet d’un accord.

Typologie et caractéristique du corpus

Pour construire un corpus de textes, plusieurs caractéristiques sont à définir comme la taille du corpus ou le type de corpus ; mais, c’est surtout l’objectif de l’étude qui permet de choisir les textes du corpus : « Tout corpus suppose en effet une préconception des applications, fussent-elles simplement documentaires, en vue desquelles il est rassemblé : elle détermine le choix des textes, mais aussi leur mode de « nettoyage », leur codage, leur étiquetage ; enfin, la structuration même du corpus. (Rastier, 2005)241 Pour notre travail de recherche, notre type de textes relève clairement de l’analyse linguistique et non des registres ou ‘genres’ que distingue Biber (1994)242 , les types de textes correspondant à des corrélations de caractéristiques linguistiques qui participent d’une même fonction globale. De ce fait, les types de textes ne se confondent ni avec les typologies fonctionnelles ni avec les ‘genres’ qui sont les catégories intuitives qu’utilisent les locuteurs pour répartir les productions langagières. De plus, Biber fournit un certain nombre de paramètres situationnels permettant de décrire les documents intégrés dans un corpus : « Canal : écrit / parlé / écrit lu Format : publié / non publié Cadre : institutionnel / autre cadre public / privé-interpersonnel Destinataire : pluralité : non compté / pluriel / individuel / soi-même présence : présent / absent interaction : aucune / peu / beaucoup Connaissances partagées : générales / spécialisées / personnelles Destinateur : variation démographique : sexe, âge, profession etc. statut : individu / institution dont l’identité est connue Factualité : informatif-factuel / intermédiaire / imaginaire Objectifs : persuader, amuser, édifier, informer, expliquer, donner des consignes, raconter, décrire, enregistrer, se révéler, améliorer les relations interpersonnelles, … Thèmes : … » (Biber, 1994)243 Ces paramètres permettent d’examiner le lien entre cet ancrage situationnel et la caractérisation proprement linguistique du corpus, mais il s’agit là des paramètres d’un corpus de référence représentant la langue générale. Pour un domaine technique ou scientifique tel que la chimie, employant des usages spécialisés, dans une langue de spécialité, représentée dans un corpus spécialisé, les analyses et les visées sont différentes générant des nouveaux paramètres.

Texte spécialisé

Pour construire un corpus textuel de spécialité, il faut « savoir ce qu’on entend par texte spécialisé ou comment nous identifions les textes spécialisés » (Cabré, 2008) 244 . Ainsi, Cabré définit la notion de textes spécialisés : « Les textes spécialisés sont les productions linguistiques, orales ou écrites, qui se manifestent dans le cadre des communications professionnelles et dont la finalité est exclusivement professionnelle. » (Cabré, 2008)Pour reconnaitre ces situations professionnelles, nous définissons des critères en nous basant sur les conditions discursives, cognitives et linguistiques de Cabré (2008)246 et dans le cadre de ce travail nous considérons que nous pouvons représenter l’expert du domaine. Ceci nous amène à prendre en compte le domaine des textes (thèmes et sujets), la source des textes (auteurs et supports) et le genre des textes (langue et forme, spécialisation et vulgarisation, unités lexicales et constructions syntaxiques). Ces critères permettent d’identifier les textes produits par des spécialistes mais aussi de déterminer quels types de textes appartiendront au corpus : « Il convient de déterminer quels types de texte nous devons retenir pour que le corpus qui en résulte soit suffisamment équilibré ». (Cabré, 2008) 247 En effet, les textes de spécialité, comme les textes de la langue générale, présentent une grande diversité tant par le choix de leur domaine que par celui de leur source mais également celui de leur genre. Cela implique différents types de textes aussi bien sur leur représentation physique que sur leur représentation logique des documents. De ce fait, notre corpus se voit être constitué de plusieurs sujets et de plusieurs thèmes, de différents auteurs et de différentes sources mais également de niveau de langue, de spécialisation et de vulgarisation distincts. Cela entraîne l’emploi d’unités lexicales et de constructions syntaxiques très riches et nous permettra de répondre à notre objectif.

Taille de corpus et représentativité

Dans la constitution d’un corpus, il faut « déterminer la quantité de productions qui feront partie de ce corpus, pour savoir s’il sera suffisamment représentatif de chaque spécialité ou bien seulement pour analyser un thème préalablement choisi » (Cabré, 2008)248. La question est de savoir si le corpus constitué, considéré comme un échantillon de données langagières, évitera les erreurs statistiques classiques que présente Biber (1994) 249, notamment l’incertitude, survenant quand un échantillon est trop petit pour représenter avec précision la population réelle, et la déformation, se produisant quand les caractéristiques d’un échantillon sont systématiquement différents de ceux de la population que cet échantillon a pour objectif de refléter. En effet, un échantillon trop petit ne peut pas bien représenter la population ; il est systématiquement biaisé et s’écarte significativement des caractéristiques de la population. Pour ces raisons, certains linguistes dont Sinclair préconisent un grand corpus ; à titre d’exemple, le nombre minimum d’un million de mots par cellule : « Un corpus est supposé contenir un grand nombre de mots. L’objectif fondamental de la constitution d’un corpus est le rassemblement de données en grandes quantités » (Sinclair, 1996) 250 L’objectif de la constitution d’un corpus est de produire un échantillon représentatif de la langue traitée ; puisqu’il est difficile de déterminer précisément les caractéristiques de ces données langagières, alors le linguiste recense le maximum de données avec l’idée implicite que plus il y en a mieux c’est. Habert (2000)251 le résume par la formule « gros, c’est beau » impliquant que « la constitution de corpus toujours augmentables et jamais finis au sein desquels, la représentativité serait proportionnelle au volume des données » (Arbach et al., 2013) De plus, l’évolution de l’informatique facilite la constitution de ces méga-corpus, au risque de perdre le peu qui a été trouvé, en raison de l’absence de leur connaissance en profondeur. Cela débouche de fait sur une vision fragmentée et partielle, mettant en doute la fiabilité, l’utilisabilité et donc la pertinence des méga-corpus. Pour cela, la constitution de corpus doit répondre à des conditions de production et de réception plus nettement définies et corrélées à leurs caractéristiques langagières (Cabré, 2008) 253 : ce sont là les corpus de référence, conçus pour fournir une information en profondeur sur une langue afin de représenter toutes les variétés pertinentes du langage et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d’autres usuels fiables. Pour la constitution des corpus spécialisés, la problématique de la taille des corpus dépend, comme les corpus de référence, de la finalité du corpus, puisque selon la nature de la recherche, l’étude peut réclamer des données très vastes ou au contraire se satisfaire d’un corpus restreint : « […] ceci dépend de la finalité du corpus […] s’il s’agit de constituer un corpus pour étudier un problème particulier, la taille du corpus doit être en adéquation avec les finalités proposées. Par exemple, le corpus que nous devons constituer pour analyser l’usage d’un pronom en position enclytique sera de taille moins importante que celui qu’il faudrait pour extraire la terminologie d’un domaine de spécialité. L’extraction de collocations nécessitera un corpus encore plus important. » (Cabré, 2008) 254 Autrement dit, afin d’obtenir un corpus représentatif et des conclusions généralisables tirées à partir de ce corpus, il faut que la taille de l’échantillon (le corpus) soit conforme aux conditions de validité de l’objectif d’exploitation du corpus, c’est-à-dire aux « visées linguistiques du corpus » (Arbach et al., 2013)255. Il doit également prendre en compte, en amont de la constitution d’un corpus, « les limitations d’ordre matériel » (Arbach et al., 2013)256 afin de déterminer le temps qu’il faudra pour recueillir les textes et les traiter suivant les étapes d’informatisation, d’annotation, d’étiquetage et d’analyse (Meyer, 2002) 257 . En effet, la constitution de corpus nécessite un temps considérable et ce travail laborieux et fastidieux n’est pas du goût de tout le monde, puisqu’il faut y consacrer son temps et ses forces. De ce fait, certains réfléchissent à la possibilité de récupérer des corpus déjà constitués (Cappeau et al., 253 Constituer un corpus de textes de spécialité, p. 40 254 Idem 255 Aspects théoriques et méthodologiques de la représentativité des corpus, p. 9 256 Idem 257 English corpus linguistics : An introduction, p. 32 95 2007)258. Aussi, cette situation d’exploiter des corpus constitués par d’autres est de plus en plus en vigueur : « La constitution d’une « bibliothèque de données de corpus » riche, ouverte et partageable, est une préoccupation dans l’air du temps. Le développement du net a pu laisser croire, un temps, que les chercheurs allaient enfin disposer – qui plus est facilement ! – de toutes les données dont ils avaient besoin. Mais il s’est avéré que récupérer du corpus sur le net soulève aussi des écueils, et qu’il ne s’agit en aucun cas d’une voie royale. » (Cappeau et al., 2007)259 Dans la notion même de corpus, il y a l’idée de mise en commun de données, même si cela parait paradoxal puisqu’un corpus est construit en fonction d’un objectif précis. Par conséquent, l’échange des corpus et leur réutilisation pour d’autres objectifs n’ont pas abouti jusque récemment. Pour certains domaines et certains objectifs de travail, cet échange peut faire sens ; mais cela suppose que « la relation du chercheur à son terrain et son corpus n’est pas fondatrice de l’interprétation, et qu’il est de peu d’incidence qu’il ait ou non participé à l’élaboration du protocole, la récolte, l’enregistrement, l’ordonnancement, la transcription » (Cappeau et al., 2007)260. A cela, ils ajoutent : « Dans la procédure de recueil, les chercheurs qui sont à l’origine de la conception d’un corpus savent sur quels objectifs interprétatifs ils s’engagent, et il est rare qu’ils se contentent d’un regroupement guidé par le hasard ou les opportunités. Il convient alors de se demander dans quelle mesure il est possible de « détourner » ces corpus de leur objectif premier, de les exploiter au-delà de ce pour quoi ils ont été constitués : corpus pour tous usages vs corpus pour objectifs interprétatifs. » (Cappeau et al., 2007)261 En d’autres termes, le corpus collecté peut s’inscrire dans une perspective descriptive, formelle, ou interprétative, impliquant des sens différents du mot ‘corpus’ ; cela peut influencer les caractéristiques et les objectifs du corpus mais aussi sa sollicitation.

Table des matières

PARTIE I : ÉTUDE TERMINOLOGIQUE
Chapitre 1 : État de l’art de la terminologie
1.1 Terminologie : définitions
1.2 Terminologie, domaine interdisciplinaire
1.3 Évolution de la terminologie
1.4 Terminologie scientifique
Chapitre 2 : Ressource de l’araďe pour la création et la formation des termes de la chimie
2.1 Système de la langue arabe
2.2 Création lexicale en arabe
PARTIE II : CONSTITUTION ET DEPOUILLEMENT DU CORPUS DE LA CHIMIE EN ARABE, AVEC SA
CLASSIFICATION
Chapitre 3 : Constitution du corpus
3.1 Définition du corpus
3.2 Démarche de la recherche du corpus
Chapitre 4 : Dépouillement du corpus
4.1 Analyse des éléments typographiques
4.2 Analyse des formes
Chapitre 5 : Classification du domaine de la chimie
5.1 Domaine
5.2 Chimie
5.3 Classification adoptée
PARTIE III : MODELISATION DE L’EXTRACTION DES UNITES TERMINOLOGIQUES DE LA CHIMIE ET
DE LEURS RELATIONS MORPHOSYNTAXIQUES
Chapitre 6 : Fouille de textes
6.1 Fouille de textes : définitions
6.2 ModĠlisation de l’eǆtƌaction teƌminologiƋue
6.3 Quelques pistes du traitement informatique
Chapitre 7 : Réseau sémantique
7.1 Réseau sémantique : définitions
7.2 Ontologie terminologique
CONCLUSION GENERALE