Typologie des entités nommées arabes

Hiérarchie d’ENA établie

L’étude de différentes formes d’ENA nous a aidé à effectuer une catégorisation profonde. Nous rappelons que cette catégorisation n’est pas faite aléatoirement mais elle s’est basée sur une définition claire et précise d’une ENA. Par conséquent, nous avons élaboré une hiérarchie représentant schématiquement la catégorisation réalisée.
La figure 8 décrit notre hiérarchie d’ENA élaborée après l’exploration et l’analyse de notre corpus d’étude. Les catégories principales sont raffinées pour qu’elles soient décomposées en sous-catégories. Nous avons étendu les catégories proposées pour offrir un niveau de granularité facilitant par la suite l’étude de la liaison sémantique entre ces ENA. Cette extension dépend en large partie de différentes formes d’ENA dans le corpus d’étude.
En fait, notre contribution se focalise non seulement sur le fait de dégager des catégories simples, mais également sur une sous-catégorisation raffinée pouvant avoir à leur tour d’autres sous-catégories. Dans ce cas, nous avons touché trois niveaux de raffinement. Prenons l’exemple de la catégorie nom de lieu, celle-ci possède trois sous-catégories parmi lesquelles nous citons le nom de lieu relatif ayant 16 autres sous-catégories descendantes. Etant donné que la catégorie nom de lieu possède trois sous-catégories qui sont raffinées, alors chaque sous-catégorie fait appels à trois sous-hiérarchies. Dans ce qui suit, nous décrivons celle dédiée au nom de lieu absolu avec des quelques exemples illustratifs.
Figure 9. Sous-hiérarchie décrivant les sous-catégories d’un nom de lieu absolu La figure 9 décrit quelques instances associées aux sous-catégories d’un nom de lieu relatif. Ces instances peuvent être ou ne pas être équipées par des mots déclencheurs. Parfois, nous les détectons agglutinés d’où vient la nécessité de les séparer. D’ailleurs, l’agglutination touche les mots déclencheurs aussi. Décrivons maintenant les deux autres sous-hiérarchies.
La figure 10 illustre les deux sous-typologies dont la première est dédiée au nom de lieu relatif. Cette dernière regroupe 16 sous-catégories ayant différents chemins de détection d’une ENA et des mots déclencheurs variés. Ces sous-catégories peuvent recevoir même les anciennes ENA vu qu’il existe des textes historiques dans notre corpus d’étude. Notamment, la sous-catégorie nom de lieu géographique possède deux branches, soit la sous-catégorie Montagne, soit la sous-catégorie Hydronyme. Nous constatons que le raffinement touche un niveau égal à 4 puisque Hydronyme englobe 3 sous-catégories qui sont Mer, Rivière et Lac.
Dans la section suivante, nous allons décrire les catégories appartenant à la hiérarchie principale retenue. Pour chaque catégorie, nous illustrons les sous-catégories déjà mentionnées à travers des exemples.

Catégorisation d’ENA

La catégorisation est une étape visant déterminer la catégorie adéquate qui décrit convenablement une ENA. Pour deviner les catégories d’appartenance, nous nous basons sur les mots déclencheurs qui précèdent ou qui suivent une ENA délimitée. De plus, nous exploitons également ces mots déclencheurs pour dégager les sous-catégories. En cas d’absence des mots déclencheurs, nous analysons le contexte d’apparition de l’ENA à repérer. Notre catégorisation donne naissance à cinq catégories principales : Date, Nom de personne, Nom de lieu, Evénement et Organisation. Dans ce qui suit, nous présentons ces catégories ainsi les sous-catégories qu’elles possèdent avec des exemples explicatifs.

Catégorie Date

La catégorie Date qui décrit une ENA fait partie des expressions numériques. Dans notre corpus d’étude, nous avons trouvé que les formes suivantes pouvaient décrire une ENA date : période, siècle, année, date basée sur le mois, une date complète ou une saison suivie par une année. Dans ce qui suit, nous décrivons les formes mentionnées avec des exemples illustratifs.
La période est une forme parmi celles décrivant une date. Elle peut être calculée en se basant sur plusieurs opérandes comme le mois, le jour, le siècle ou l’année. Cette forme peut être identifiée soit via les indicateurs (يم ي / les deux jours) soit via une préposition décrivant la notion d’un intervalle de temps par exemple « نم /de ». L’étude que nous avons faite montre que certains indicateurs peuvent apparaitre en différentes formes morphologiques (pluriel, duel, etc.) comme le mot « ي س / les deux années » en (3) or une conjonction d’années précédées par le mot « ا علأا /les années ».
Un siècle est un cycle d’années utilisé pour décrire une longue période. Généralement, Cette forme apparait dans les articles ayant une nature historique dans notre corpus d’étude. Une ENA exprimant un siècle figure toujours avec l’indicateur « قلا/ le siècle » faisant partie d’elle comme elles sont illustrées en (4) et (5). L’indicateur déjà mentionnée est peut-être associé à une préposition jouant le rôle d’un indicateur de temps. En fait, la présence d’une préposition permet de réduire la complexité de sa détection. Il faut mentionner aussi que le nom de siècle peut être écrit sous forme de chiffres ou en toute lettre.
Parmi les formes décrivant une date, nous constatons qu’il existe une forme décrivant seulement l’année. Cette année peut contenir un ou plusieurs preuves externes dont ils peuvent précéder l’ENA comme « ع/ l’année » ou la suivre comme « ـه/ hégire » dans l’exemple (6).
L’indicateur gauche permet d’ajouter un degré de certitude au nombre identifié. Entre autres, pour se rassurer qu’un nombre détecté est bien une année et ne pas un nombre quelconque. La présence de cet indicateur dépend de la nature de l’année.
En (7), nous avons une novelle émergence d’une date respectant la forme déjà mentionnée dont l’élément central est l’année. Dans ce cas, la forme de cette date est identifiée via la préposition « يف/ en ».
La forme suivante est une date qui contient le mois comme étant un élément central. Cette date est incomplète puisqu’elle est composée de deux éléments seulement. Nous trouvons le nom ou/et le numéro du jour et le mois ou bien le moi et l’année. Cette forme se représente généralement comme une partie intégrante dans une autre ENA. Cette forme d’ENA est symbolique donc elle peut être assignée à la catégorie événement (8), (10) ou un nom de lieu (9). Elle peut décrire aussi une date indiquant dans son contexte un évènement comme en (11) qui est la journée internationale de la femme.
Durant l’analyse de notre corpus, nous rencontrons une autre forme décrivant une date complète. Cette forme est composée de tous les éléments nécessaires pour exprimer une date complète (le nom ou/et numéro du jour, le mois et l’année). Dans quelques articles inclus dans notre corpus d’étude, nous constatons l’utilisation des anciens numéros arabes pour décrire l’année et le numéro du jour (14). Concernant la détection, nous trouvons une ENA sans ou avec des indicateurs. Ces derniers précédant la forme courante sont reliés au premier élément (le nom ou/et numéro du jour) comme « ي/ le » qui est à son tour suivi par un signe de ponctuation « : » dans (15).
La forme finale d’une date que nous avons identifiée est celle basée sur une saison. Cette forme est très utilisée comme une date symbolique dans notre corpus d’étude. Rappelons qu’une saison est une division d’année, marquée par le changement de climat, utilisée comme un indicateur de temps. Elle est toujours suivie par une année comme en (16) et (17).
Les dates peuvent apparaitre aussi dans la forme ordinaire, sans avoir un contexte bien déterminé, mais elles dépendent de l’écriture de différents pays arabes. Par exemple, dans les articles provenant des pays orientaux nous constatons que les mois syriaque et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d’une façon fréquente dans les pays magrébins. D’ailleurs, au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, le mois d’août en arabe est « أ/ aout » de même qu’en Algérie tandis qu’en Maroc, son appellation est « تشغ/ aout ».

Catégorie Nom de personne

La catégorie Nom de personne est dédiée à représenter les différentes formes décrivant un nom de personne arabe. Cette variété de formes est liée aux pays d’origine, la religion, la culture, le niveau de formalité et la préférence personnelle. En général, un nom de personne arabe contient cinq parties ne suivant aucun ordre particulier : al-ism, al-kuniyah, al-nasab, allaqab et al-nisba [Shaalan, 2014]. La combinaison de ces cinq parties permet de construire un nom de personne quand elles sont regroupées au sein de la même ENA. Rappelons la signification de chaque partie en donnant des exemples à partir de notre corpus d’étude.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Besoin d'aide ?