Le recensement
Selon M. Silberztein (1993b: 405), le recensement – manuel ou automatique – des noms composés s’avère une tâche difficile, notamment à cause du problème de la délimitation entre noms composés (entrées lexicales), noms semi-figés (séquences productives) et syntagmes nominaux libres (séquences compositionnelles), problème déjà largement discuté par de nombreux lexicographes et linguistes. Pour effectuer le recensement manuel des mots composés, les linguistes disposent d’un nombre important de sources documentaires : des dictionnaires et des grammaires de la langue générale, des lexiques de langues de spécialité, des corpus de textes écrits sur support papier ou numériques et le Web. Cependant, en raison de la créativité lexicale et des problèmes de délimitation déjà discutés (cf. I, 3.2.1-3.2.10 et I, 3.3.1-3.3.2), il est impossible de dresser une liste exhaustive des noms composés en reposant uniquement sur ces ressources. Dans l’intention d’inventorier les noms composés N (E + DET:G) N:G appartenant à l’usage courant de la langue grecque, nous avons décidé de procéder en trois étapes. Dans un premier temps, nous parlerons de la validation manuelle des entrées N (E + DET:G) N:G, figurant dans le dictionnaire électronique des mots composés (DELAC) existant. Dans un deuxième temps, nous avons compilé les dictionnaires édités et les grammaires d’usage du grec moderne. Enfin, nous avons complété cette liste de façon semi-automatique grâce au dépouillement d’un corpus de presse numérique. Nous nous sommes servie du Web pour la validation des exemples douteux.
Notons, enfin, que dans ce chapitre nous présentons tous les différents types de séquences que nous avons rassemblées à l’aide des méthodes de recensement précitées. Une fois les données rassemblées à partir des diverses sources, nous nous sommes intéressée à regrouper les N (E + DET:G) N:G selon leur structure interne (cf. II, 4.2.4). Les choix effectués à partir de nos données sont présentés en détail dans III, 6.2-6.8 et V, 11.3.1-11.3.3. La validation comprend les tâches suivantes : vérification du statut de nom composé grâce à l’aide des critères formels de délimitation des noms composés (cf. I, 2.2.1-2.2.11), élimination des doublons, correction et homogénéisation des codes flexionnels et des filtres morphologiques assignés aux entrées. De plus, l’organisation des entrées du DELAC-NNG ne tient pas compte des différentes sous- catégories des N (E + DET:G) N:G (I, 2.3.1-2.3.2, II, 4.2.4 et III, 6.2-6.8), ce qui complique l’exploitation des données pour des éventuelles applications spécifiques. Nous y retrouvons donc toutes les sous-catégories confondues, à savoir : Visiblement, le dictionnaire électronique morphologique constitue la méthode de représentation formalisée qui a été choisie au préalable pour l’ensemble des noms « multi- mots » qui présentent un degré de figement quelles que soient leurs caractéristiques spécifiques. Cependant, ces caractéristiques (cf. III, 6.2-6.8) permettent de repérer plusieurs sous-catégories au sein des N (E + DET:G) N:G, qui ont des spécificités et qui sont distinctes aussi bien du point de vue linguistique que du point de vue du TAL. Dans ce but, nous proposons un codage permettant d’identifier la sous-catégorie des entrées et différentes méthodes de représentation formalisée adaptées aux différentes sous-catégories identifiées (cf. V, 11.3.1-11.3.3).
Dans certains cas, nous n’avons pas pu décider sur le statut des entrées, car, faute de documentation pertinente, il n’était pas possible de comprendre s’il s’agissait d’une séquence libre ou d’un terme de spécialité. A titre indicatif citons les exemples suivants : Le grand nombre de doublons (plus de 1 000) vient s’ajouter à la liste des problèmes rencontrés lors de la validation manuelle du DELAC-NNG. Ainsi, le nom composé ταινία µικρού µήκους/court métrage est codé deux fois, έγκληµα πολέµου/crime de guerre trois fois, ένταλµα σύλληψης/mandat d’arrêt quatre fois, etc. : Notons, cependant, que l’incohérence au niveau du codage est un problème secondaire dans la mesure où ce qui nous intéresse principalement est la génération de formes fléchies correctes : c’est le DELACFG que l’on va appliquer dans les textes pour obtenir la reconnaissance lexicale automatique. Il s’agit d’un problème qui touche à la maintenance, à la gestion et à la mise à jour du dictionnaire. Enfin, nous avons observé que le DELAC-NNG comprend un nombre élevé d’entités nommées qui ne sont pas systématiquement validées : souvent seulement une partie de l’ensemble de l’entité nommée figure dans le dictionnaire. Nous en donnons ici quelques exemples : En ce qui concerne les exemples ci-dessus, nous percevons une hésitation concernant le choix entre le codage de la forme complète de l’entité nommée ou bien de sa forme réduite, qui sert de « mot déclencheur » (D. McDonald 1996 ; N. Friburger 2002 ; C. Martineau et al. 2007) pour la reconnaissance (ou l’extraction) automatique des entités nommées.
Ce mot déclencheur peut être interne et, dans ce cas, il fait partie de l’entité nommée : Le problème de traitement des mots déclencheurs (internes ou externes) s’interpose au problème général de traitement des syntagmes nominaux semi-figés (ou productifs), qui constituent souvent eux aussi des déclencheurs d’entités nommées. Dans une perspective applicative, le recensement de tels déclencheurs s’avère très utile, puisqu’ils peuvent être utilisés pour la reconnaissance dynamique des entités nommées dans des systèmes d’analyse de requêtes ou de moteurs de recherche. Cependant, nous pensons que leur codage dans un dictionnaire électronique n’est pas la méthode de représentation la plus appropriée, notamment à cause de leur nombre fort élevé et même imprévisible. Nous proposons leur traitement à l’aide de graphes lexicalisés. En ce qui concerne les entités nommées, nous proposons d’abord la reconstitution de la forme complète et ensuite la constitution d’une liste séparée. Cette liste pourrait faire partie du dictionnaire électronique morphologique des noms composés ; dans ce cas, nous proposons l’ajout d’un code qui fournirait l’information qu’il s’agit d’une entité nommée.