Les noms composés du point de vue de la formation des mots
Les noms simples, les noms dérivés et les noms composés
Dans la tradition linguistique de la grammaire coréenne, l’étude des noms est focalisée sur la formation des noms. La formation des mots résulte des jeux entre les racines et les affixes.
Avant de définir les éléments de la formation des mots, nous allons commencer par introduire la notion de morphème autonome et non autonome. Au niveau morphologique, si un morphème peut constituer un mot à lui seul, il est appelé morphème autonome. Sinon, il est appelé morphème non autonome1 . Par exemple, les mots bom « printemps », gaeul « automne », salam « homme », jal « bien », etc. sont des morphèmes autonomes, alors que les formes meok- (radical verbal), aleum- (radical adjectival), -da (suffixe terminal), -dap (suffixe de dérivation adjectivale), etc. sont des morphèmes non autonomes. Les morphèmes non autonomes comme meok-, aleum-, -da, etc. peuvent constituer des mots par combinaison avec d’autres morphèmes : meok-da « manger », aleum-dap-da « être beau », etc.
Nous présentons la définition des types d’éléments de mots. Les positions des linguistes sur les affixes sont assez consensuelles. En général, on admet que les affixes ne jouent pas un rôle de base dans la formation des mots et que ce sont des morphèmes non autonomes. Les préfixes n’ajoutent que des éléments de sens aux mots ou aux radicaux et ils n’ont pas de fonction de dérivation syntaxique ni de fonction de flexion.
Les suffixes, quant à eux, se subdivisent en trois catégories d’après leur fonction : les suffixes de dérivation lexicale qui ajoutent des éléments de sens aux mots, les suffixes de dérivation syntaxique qui modifient la catégorie grammaticale et les suffixes de flexion qui jouent plusieurs rôles selon les catégories.
En revanche, selon les positions des linguistes coréens sur les racines, la terminologie utilisée est différente : racine, radical, tronc, noyau, base, etc., et il arrive que leurs frontières se superposent2 . Les racines, qui sont sémantiquement pleines et sont des mots simples ou des radicaux, sont à la base de la formation des mots. Nous distinguons les radicaux verbaux (ou adjectivaux) des radicaux sans catégorie grammaticale. Les radicaux verbaux Rv et les radicaux adjectivaux Ra se combinent directement avec les suffixes flexionnels. Par exemple, le radical verbal meok- « manger » se combine directement avec un suffixe flexionnel -da. En revanche, le radical aleum- « beau », qui demande obligatoirement un suffixe de dérivation adjectivale -dap, et le radical moho- « vague », qui demande un suffixe de dérivation, sont des radicaux sans catégorie grammaticale3 . Nous appelons Rx ce type de radical qui n’a pas de catégorie grammaticale et qui n’entre dans la formation des mots que comme base. Par exemple :
Exemples proprement coréens
Tout d’abord, donnons des exemples de noms dérivés (1). Les études sur les mots dérivés se font généralement sur le vocabulaire proprement coréen et quelques affixes sino-coréens, comme si- en (1-i) et -ja en (1-ii), qui sont intégrés dans le système coréen par leur comportement qui ressemble à celui des affixes proprement coréens.
La formation des mots sino-coréens
Dans le vocabulaire sino-coréen, la formation des mots présente des différences par rapport aux mots proprement coréens. La plupart des études sur les mots composés ont porté sur le vocabulaire proprement coréen et les mots composés sino-coréens ont été peu étudiés de façon systématique dans la grammaire coréenne11. Chaque idéogramme chinois emprunté est associé à une forme monosyllabique et à une signification, mais en général il n’est pas autonome dans le système du coréen sauf dans le cas exceptionnel de noms sino-coréens comme mun « porte » ou chaek « livre » qui sont autonomes et se comportent syntaxiquement comme des noms dans la phrase puisqu’il n’existe pas de mots proprement coréens correspondants.
On se heurte à une difficulté de délimitation entre radical, préfixe et déterminant en position de premier élément du mot, et entre radical, suffixe et nom incomplet en position de dernier élément du mot. No M.H (1998) propose une série de critères pour distinguer les différents emplois. Les critères de distinction entre déterminant et autres éléments (préfixe ou radical) sont la possibilité d’insertion d’autres éléments, les restrictions distributionnelles, la portée de la qualification, l’impossibilité de substitution, etc. Les critères de distinction du préfixe par rapport au radical sont la modification du sens original, la productivité, la compatibilité avec les mots proprement coréens, les modifications syntaxiques de la base, etc. Les critères mentionnés fonctionnent bien sur les exemples de (7) :
Les noms composés du point de vue du traitement informatique
Problèmes spécifiques du traitement des noms composés
Nous allons voir comment les noms composés sont traités dans la tradition informatique. Il semble que le terme de nom composé ne soit pas utilisé pour désigner les mêmes formes en informatique et en linguistique traditionnelle. Le terme « nom composé » est tiré de la tradition linguistique, mais le « traitement des noms composés » en l’informatique vise en fait les séquences constituées de plusieurs noms (NN, NNN, NNNN,…) : ce qui couvre à la fois les noms composés et les groupes nominaux libres, sans distinction. Pourquoi cette situation? Nous allons examiner les quatre problèmes spécifiques des séquences du type NN+ du point de vue des traitements informatiques. Tout d’abord, l’agglutination entre les noms (surtout sino-coréens) est très libre. Les divers exemples illustrent la différence entre noms composés et groupe nominal libre :
Deuxièmement, les séquences composées de type NN+ sont très nombreuses.
Comme nous l’avions mentionné dans la section 1-1, les noms composés de type NN sont les plus nombreux. D’après notre étude, le nombre de noms composés communs de type NN+ à espacement facultatif comme en (12) est d’au moins 45000. Selon le rapport du Projet Sejong 21 (1998), le nombre des noms propres composés de type NN+ à espacement facultatif est de 30000. On estime que le nombre de noms composés techniques de type NN+ à espacement facultatif est de plusieurs dizaines de milliers. Enfin, on ne peut pas même estimer le nombre des groupes nominaux libres de type NN+. Troisièmement, les conventions typographiques d’espacement compliquent ce problème. Voici un exemple où l’espacement entre les noms est variable. Les deux exemples de (12) peuvent se réaliser graphiquement de huit façons chacun :
Les noms composés hucheonseong myeonyek gyeolpipjeung et gukhoe uijang sont des mots sino-coréens. Tandis que pour les composés nominaux sino-coréens l’espacement entre les noms est souvent facultatif, pour les noms composés proprement coréens au sens traditionnel on ne met pas de blanc dans les dictionnaires éditoriaux, mais il arrive que l’on mette un blanc dans l’usage selon le nombre de syllabes des séquences (cf. voir le chapitre 2).
Quatrièmement, en informatique, le problème de la segmentation correcte des séquences nominales non enregistrées dans un dictionnaire est toujours ouvert. Si les groupes nominaux libres sont soudés, ils peuvent être absents du dictionnaire électronique même complet. Pour réduire le nombre des séquences nominales inconnues, il faut obligatoirement une procédure de segmentation. La segmentation correcte des séquences soudées du type de NN+ du coréen est un processus indispensable en raison de diverses applications comme la traduction automatique, la correction de l’espacement, l’indexation automatique, l’extraction de mots-clés, etc. Les deux premiers problèmes viennent de la productivité très élevée des noms et des groupes nominaux et les deux derniers problèmes de l’espacement irrégulier entre les mots. Il nous semble que la segmentation des séquences nominales permet de résoudre plus ou moins à la fois le problème de la productivité et celui de l’espacement irrégulier. En fait, l’histoire du traitement des noms composés du coréen en informatique est celle de la découverte de méthodologies de décomposition des séquences nominales. Nous allons examiner les travaux apparentés sur les noms composés coréens en informatique.
Discussion
Les chercheurs issus du monde de l’informatique montrent rarement de l’intérêt pour les dictionnaires eux-mêmes. Dans la tradition informatique, rappelons que lorsqu’une séquence est composée de plus de deux noms (soit libre soit figé), c’est un nom composé. L’étude des noms composés est plutôt focalisée sur la décomposition automatique de formes en séquences de noms. On s’intéresse donc à trouver le découpage des séquences nominales à l’aide de dictionnaires éditoriaux ou par apprentissage automatique à partir de gros corpus. Ces études sur la décomposition sont très utiles pour reconnaître les séquences nominales soudées inconnues. Or, ces travaux utilisent toutes les entrées des dictionnaires éditoriaux sans considération de leur figement linguistique. Maintenant, il y a des essais d’extraire automatiquement les séquences nominales de corpus selon des relations sémantiques.
Lee K.S et al. (2000) présentent les relations sémantiques entre deux noms : les relations entre le sujet et l’objet, entre l’objet et le prédicat, entre la totalité et la partie, entre la matière et l’objet, la relation possessive, la position, la causalité, etc. Par exemple, beoseu sago (NN) (bus – accident = accident par bus) est pris comme exemple de relation de causalité. Pourtant, si on ne distingue pas les noms composés des groupes nominaux libres, il est pratiquement impossible de passer en revue toutes les possibilités de séquences nominales du type de NN+ . À notre avis, il est indispensable de distinguer les séquences figées des séquences libres et de lister les séquences figées, puisqu’il est pratiquement impossible de dresser la liste de toutes les séquences nominales dans les dictionnaires à cause de leur énorme productivité.
Quant aux variantes orthographiques ou liées à l’espacement dans l’usage, elles ne sont jamais prises en compte sérieusement. Les systèmes s’en tiennent aux conventions d’un ou plusieurs dictionnaires éditoriaux. Il n’y a pas d’études systématiques sur les variations d’espacement des séquences nominales, ni dans l’usage, ni dans les dictionnaires éditoriaux. Pourtant, des informations précises sur les conventions typographiques possibles en coréen sont indispensables. Nous allons voir les désaccords entre les dictionnaires éditoriaux et l’usage ou même entre les dictionnaires éditoriaux eux-mêmes dans le chapitre 2.
Deux dictionnaires électroniques des noms fondés sur la formation des mots
Comme nous l’avons dit, l’étude des noms dans la tradition linguistique coréenne est focalisée sur la formation des noms et par conséquent, les projets de construction de dictionnaires électroniques des noms sont naturellement focalisés sur les noms simples, les noms dérivés et les noms composés25. Dans le prolongement de la tradition linguistique, il est intéressant de codifier toutes les informations étymologiques sur la composition des mots. Nous présentons deux perspectives représentatives sur le dictionnaire électronique des substantifs du coréen, qui sont fondamentalement basées sur la formation des mots : celle du Projet Sejong 21 (1998, 1999, 2000, 2001) et celle de Nam Jee-Sun (1994, 1997).
Le dictionnaire électronique des noms dans le Projet Sejong 21, qui est un projet pour la construction d’un lexique du coréen, a tendance à respecter fidèlement le point de vue de la linguistique coréenne sur la formation des mots. Voici la structure du dictionnaire électronique des substantifs (Rapport du Projet Sejong 21 (1998), p. 3) :