Analyse et représentation d’expressions de mesure
Dans cette partie, nous décrivons et représentons des expressions numériques et plus particulièrement des expressions de mesure23, dans le but de les reconnaître automatiquement dans les textes de langue générale (quotidiens d’informations comme Le Monde et journaux de vulgarisation scientifique type Science et Vie)24. De précédentes versions de ce travail ont été publiées dans M. Constant (2000, 2002a). Nous employons le terme expression de mesure pour toute séquence linguistique contenant la sous-séquence de base Dnum Unité (ex : 10 m) où Dnum est un déterminant numérique cardinal. Nous distinguons deux types de mesure, les mesures « absolues » et les mesures « relatives » qui entrent respectivement dans les structures suivantes où le symbole Ng désigne un nom de grandeur :
Les composants élémentaires
nom que l’on qualifiera de numérique comme milliers, dizaines, etc. Nous étudions spécifiquement les trois derniers types. Après avoir examiné les différentes classes d’unités simples que nous utilisons, nous évoquons le cas des prédéterminants numériques qui sont essentiels pour une reconnaissance fine des mesures car ils introduisent de légères modifications sémantiques (ex : à peu près dix ampères ≠ exactement dix ampères). Nous analysons également le schéma de phrase Det Ng être de Dnum Unité (=: la longueur est de 30 m) qui est commun aux deux structures de mesure que nous allons étudier. Cette étude va nous permettre de construire des graphes élémentaires de mesure à partir des graphes d’unités.
Graphes des déterminants numériques
Nous traitons brièvement ce point car les déterminants numériques cardinaux écrits en lettres ont déjà été étudiés et décrits sous la forme de graphes par M. Silberztein (1993) pour le français et A. Chrobot (2000) pour l’anglais. Dans cette section, nous reprenons les points importants de l’étude sur le français. Nous notons DnumEnLettres ce type de déterminants numériques, i.e. les nombres entiers27 écrits en toutes lettres (borne supérieure : un billiard). L’utilisation des sous-graphes a un avantage indéniable car certaines séquences peuvent apparaître plusieurs fois dans un nombre (ex : douze dans douze cent douze). Certains termes comme cent, mille, quatre-vingts posent quelques problèmes orthographiques car : Ainsi, pour chaque type de nombres entiers (nombres inférieurs à cent, à mille, à un million, etc.), il est nécessaire de construire deux graphes : l’un décrivant ces nombres lorsqu’ils se trouvent dans la partie droite (ou finale) d’un nombre et l’autre décrivant ces nombres lorsqu’ils sont dans la partie gauche. Par exemple, quatre-vingt(s) a deux comportements suivant qu’il est à droite (quatre-vingts) ou à gauche (quatre-vingt) comme dans quatre-vingt mille deux cent quatre-vingts. M. Silberztein (1993) n’a pas décrit les nombres se terminant par million(s) et milliard(s). Ces nombres sont suivis de la préposition de : cent vingt millions de. Ce type de nombres rentre donc dans une structure différente : celle des déterminants nominaux (Det N de) décrits dans M. Gross (1986). Notons que nous n’avons pas traité le cas du décimal un demi suivi d’un tiret (ex : une demi-heure).
Nous notons ce type de déterminant DnumEnChiffres. Les nombres écrits sous la forme d’une suite de chiffres ont une syntaxe bien particulière qui diffère en français et en anglais. Une solution simple et naïve pour décrire les entiers naturels est de les représenter comme une suite de chiffres soudés d’au moins un élément. Cependant, cette représentation est trop simpliste. Les nombres avec plus de trois chiffres ne rentrent pas dans ce schéma : par exemple, en français, dans 1 298, il existe un espace blanc obligatoire28 entre le troisième chiffre en partant de la droite et le dernier chiffre à gauche ; en anglais, l’espace blanc est remplacé par une virgule (1,298). D’une manière générale, un espace blanc (une virgule en anglais) apparaît obligatoirement dans la séquence de chiffres tous les trois chiffres en partant de la droite. En français, l’ensemble des entiers naturels écrits en chiffres arabes peut donc être représenté par le graphe NombreEntierEnChiffres ci-dessous. Le graphe 3Chiffres décrit une suite de trois chiffres soudés et le graphe Chiffre l’ensemble des chiffres arabes. Le symbole # indique que l’élément à sa gauche et celui à sa droite sont soudés l’un à l’autre ; autrement dit, tout espace blanc est interdit entre ces deux éléments. Cette description précise permet de lever, dans certains cas, l’ambiguïté qui existe naturellement entre un déterminant numérique et une date désignant une année écrite en chiffres. En effet, ce type de date est une suite de chiffres collés. Ainsi, 2003 ne sera pas reconnu comme un déterminant numérique par notre grammaire. Par ailleurs, il est usuel d’utiliser des nombres décimaux écrits en chiffres. En français, la partie entière est séparée de la partie décimale par une virgule (12,7 ou 3,896). En anglais, c’est un point qui fait office de séparateur (12.7 ou 3.896). Dans ce cas, la partie décimale est une simple séquence de chiffres collés d’au moins un élément et est représentée par le graphe PartieDecimale. Un nombre quelconque écrit en chiffres arabes est alors reconnu par le graphe DnumEnChiffres regroupant les graphes NombreEntierEnChiffres29 et PartieDecimale. Notons que ces deux parties (entière et décimale) sont obligatoirement collées à la virgule les séparant. Cela évite, par exemple, de reconnaître 10, 11 dans l’expression coordonnée 10, 11 ou 12 chaises. Par ailleurs, les nombres peuvent être signés : ils peuvent avoir un + ou un – placé au début (à gauche).