Les mots inconnus
Du mot connu au mot inconnu
Avant de nous intéresser à la classification des inconnus, il est primordial de définir ce qu’est un mot inconnu et comment le détecter au sein d’un texte. Nous commencerons donc ici par nous pencher sur les unités linguistiques sur lesquelles s’appuie cette étude. Ce choix déterminera comment nos corpus seront par la suite segmentés et comment nous distinguerons les inconnus des non-inconnus. Nous avons pour l’instant utilisé l’unité linguistique mot sans pour autant la définir. Cela a été réalisé sciemment.
En effet, bien que cette notion soit à première vue compréhensible et interprétable par tous, sa définition ne fait pas l’objet d’un consensus (Tournier, 2004). Une première solution serait de s’appuyer sur un critère formel et de considérer qu’un mot correspond à l’ensemble des caractères compris entre deux blancs ou ponctuations. Néanmoins, cette proposition est généralement jugée insatisfaisante car trop simpliste. Elle ne permet ni de maîtriser le cas des mots agglutinés (desquels) ni celui des mots composés (bandes dessinées) et ne gère pas les problèmes que peuvent poser la ponctuation au sein d’une chaîne de caractères (cahin-caha, porte-plume ou est-ce que vs. scénario-
Du mot connu au mot inconnu 11 catastrophe ou (ce) livre-là)
Par ailleurs, elle se révèle particulièrement inefficace pour les langues qui ne délimitent pas leurs mots par la typographie (c’est par exemple le cas du mandarin comme l’explique Magistry (2013)). Cette notion purement typographique a toutefois son utilité, et nous la dénoterons comme il est d’usage par le terme « token ». Bien que la notion de mot soit utilisée dans plusieurs travaux du domaine de manière imprécise, de nombreux linguistes ont tenté de la définir (Lachachi, 2011). Bloomfield (1933, p. 178), par exemple, propose de considérer un mot comme « une forme libre minimale » 1 .
Cette définition, bien que brève, est difficile à appliquer et trop restrictive. Nous pouvons aussi citer Meillet (1921, p. 30) qui a cherché à déterminer les éléments constitutifs d’un mot. Il explique ainsi qu’« un mot résulte de l’association d’un sens donné à un ensemble de sons donnés susceptible d’un emploi grammatical donné. ». Néanmoins, ces éléments demeurent trop ambigus, comme le montrent Lehmann et Martin-Berthet (2013). Bien que beaucoup de personnes aient suggéré des définitions de la notion de mot, aucun auteur n’est parvenu à en proposer une simple, précise, applicable de façon reproductible et, a fortiori, admise par tous.
Cela pousse de nombreux chercheurs à considérer cette notion de mot comme non-universelle (Haspelmath, 2011). Certains vont ainsi abandonner cette unité au profit de termes plus techniques. Baudouin de Courtenay (1895) introduit donc la notion de morphème qui fut ensuite repris par Bloomfield (1926) afin de désigner le plus petit élément significatif. Saussure (1916), quant à lui, utilise la notion de signe linguistique qui se compose d’un signifiant et d’un signifié. Ces derniers représentent respectivement une image acoustique et un concept. Les termes de lexème et de mot-forme sont eux aussi introduits (cf. par ex. Polguère, 2008) : un mot-forme correspond à un signe linguistique détenant une autonomie de fonctionnement et une cohésion, alors qu’un lexème est défini comme un ensemble de mots-formes qui ne se distinguent que par la flexion.
En lexicologie, Pottier (1962) propose le terme de lexie qui constitue une unité linguistique représentant une « unité lexicale mémorisée ». Enfin, nous pouvons citer Martinet (1985) qui propose une nouvelle unité minimale de signification : le monème. Cette unité détient un signifiant et un signifié et est composée de deux autres types d’unités : le lexème et le morphème qui représentent respectivement sa partie lexicale et grammaticale. Tous ces termes, listés ici de manière non exhaustive, ont un usage bien plus limité que le « mot », mais ont tous l’avantage de pouvoir être définis plus précisément.