Classification des lexèmes en macroclasses

Classification des lexèmes en macroclasses

Les grammaires descriptives présentent généralement les classes flexionnelles sous la forme de macroclasses au sein desquelles les lexèmes sont apparentés par la similarité, plutôt que l’identité, de leur comportement flexionnel. Nous avons vu que les  définies par l’identité des patrons d’alternance sont liées entre elles par des réseaux de similarité, qui peuvent être organisés en hiérarchies. Cependant celles-ci ne peuvent pas être utilisées pour déduire directement des partitions de macroclasses. Ce chapitre présente une méthode pour inférer une partition en macroclasses à partir d’une partition de microclasses définies par des vecteurs de patrons d’alternance quel point une telle partition constitue un bon modèle des classes flexionnelles, et d’autre part comparer les classifications obtenues avec les classifications habituellement admises pour les mêmes langues. Peut-on déterminer, sur la seule base des patrons d’alternance, un niveau in- termédiaire entre les microclasses et l’ensemble du système, qui présente les propriétés des macroclasses traditionnelles ? Ou ces macroclasses sont-elles un outil de description commode mais simplificateur ? Peuvent elles se déduire de l’observation des propriétés formelles des pa- radigmes ? Et si l’on peut déterminer une telle partition, quel est son pouvoir descriptif ?

La similarité entre les microclasses étant une propriété graduelle, il nous faut, pour éta-blir une classification catégorique sur cette base nous reposer sur un autre critère. Nous nous Dans la section 5.1, nous discutons de quelques travaux existants qui se penchent sur l’infé- rence automatique de classes flexionnelles, et dont nous nous inspirons. Nous décrivons dans la section 5.2 un modèle probabiliste permettant d’évaluer la longueur de description d’une partition en macroclasses. La section suivante (5.3) présente l’algorithme de recherche ascen- dant que nous employons pour trouver une partition en macroclasse optimale du point de vue de la longueur de description. Dans la section 5.4, nous décrivons les partitions obtenues pour les verbes du français, les verbes du portugais, les noms du russe (segments uniquement), et les verbes du chatino de Zenzontepec. Enfin la section 5.5 présente une évaluation quantitative des macroclasses inférées, comparées aux classes traditionnelles. Une première tentative en ce sens par Goldsmith et O’Brien (2006) utilisait un réseau de neurones pour prédire des exposants à partir de traits. L’espoir des auteurs était que la couche cachée du réseau s’organise en classes flexionnelles. Cependant, les expériences me- nées sur l’espagnol et l’allemand n’ont pas produit un tel résultat. Beaucoup plus récemment, Malouf (2017) a développé un usage plus prometteur des réseaux de neurones pour modéliser le comportement flexionnel. Les résultats obtenus ne s’interprètent pas non plus directement en termes d’une partition en macroclasses.

Brown et Evans (2012) proposent d’inférer des macroclasses pour le système des noms du russe. Ils évaluent la redondance à travers les paradigmes au moyen d’une distance de compres- sion. Ils opèrent une classification automatique (Cilibrasi et Vitanyi 2005). Le résultat de CompLearn est un arbre binaire sans racine. Puisque cet arbre est difficilement interprétable comme une partition en macroclasses, Brown et Evans utilisent une série d’heuristiques pour sélectionner un ensemble de nœuds préférés dans l’arbre. Leur but est de valider les hypothèses proposées par Brown (1998), Brown et Hippisley (2012), entre autre le fait que « [l]es noms du russe se répartissent en quatre classes générales». Leur expériences valident cette hypothèse. Leur approche mesure cependant la similarité entre les formes entières, et non entre les comportements flexionnels à proprement parler. En effet, les distances de compression étant fondées sur les formes, elles captent autant, sinon plus, de la similarité entre les radicaux qu’entre exposants. Il est donc incertain que l’arbre résultant, ou les partitions qui en sont déduites, encode strictement de la structure flexionnelle.Bonami (2014) propose d’élaborer la stratégie de Brown et Evans (2012) en inférant les réali- sations séparément de l’inférence des classes. Il produit des classifications flexionnelles fondées d’une part sur une segmentation affixale des verbes français, d’autre part sur des patrons d’al- ternance. Il construit des dendrogrammes suivant la méthodologie UPGMA (Sokal et Michener 1958) que nous décrivons au chapitre 4. Notre généralisation de l’algorithme d’inférence des patrons nous a permis d’utiliser cette méthodologie pour un plus grand ensemble de langues. Cependant les distances évaluent la qualité d’une classe, et non d’une partition. Ce faisant, elles ne se prêtent pas directement au choix d’une partition en macroclasses dans l’arbre.Une autre approche s’appuie sur l’idée que, en théorie, l’ensemble de macroclasses optimal doit fournir la description la plus économique du système flexionnel entier. Cette idée a été ex- plorée par Sagot et Walther (Sagot et Walther 2011 ; Walther et Sagot 2011 ; Walther 2013 ; Sa- got et Walther 2013 ; Walther 2016), qui comparent automatiquement des descriptions conçues manuellement. Leurs descriptions sont de type constructives et formées d’une grammaire et d’un lexique morphologique, écrites dans le formalisme Alexina.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *