Segmentation de surface
L’extraction de citation
L’observation de la liste ordonnée des verbes d’un corpus peut être un premier indicateur de la nature des informations que l’on va trouver fortement représentées. Comme nous disposons de deux corpus dans le même format, nous pouvons comparer les formes verbales les plus courantes. Les tableaux (7.1) et (7.2) font figurer les 30 formes verbales les plus fréquentes dans les deux corpus
Les fréquences ne sont évidemment pas comparables, mais on peut remarquer qu’un certain nombre de formes sont communes (en rouge, il y en a 11), et qu’elles consistent en des unités peu informatives (auxiliaires par exemple). On peut a contrario faire émerger des formes spécifiquement fréquentes dans chaque corpus. On observe par exemple qu’aucun verbe n’est au pluriel dans le corpus de biographies (ont, n’ont pas, font),
que les formes sont généralement simples et qu’on trouve même des passés simples (fit). Certains verbes ont été employés dans les cadres précédemment présentés, mais on peut y ajouter la publication d’œuvre (publie, sort), la réception de prix (obtient, reçoit) ou encore la participation à des événements (participe, joue).
Pour le corpus de presse, on observe un nombre plus important de verbes à usage auxiliaire (a, ont, n’a pas, avait, été, a été, être, n’ont pas, vient, va), de verbes dits supports (fait, reste, faire, a fait, font, prend) et de verbes à usage épistémique ou déontique (faut, compte, pourrait, semble).
Ces formes verbales peuvent prendre des sens spécifiques en contexte (interprétation causale pour le verbe faire, comme dans faire faire, interprétation de mouvement pour vient et va) et il est également possible que certaines occurrences soient des parties de chunks verbaux incomplets voire qu’ils appartiennent à un paradigme autre que verbal, comme été qui peut désigner la saison estivale.
Les autres verbes sont des verbes à usage citationnel : explique, estime, affirme, a annoncé, a déclaré, souligne, dont une forme uniquement figure dans le corpus de biographie (annonce). Ces verbes peuvent également être employés dans d’autres sens, ce qui nécessite une validation. La forte présence de verbe citationnel s’explique par le rôle médiatif du journalisme :
les articles font régulièrement intervenir des personnalités dont ils citent les paroles. Une application d’extraction d’information consisterait donc à extraire les paroles de personnes en focalisant sur ce groupe de verbes. Nous avons déjà indiqué (en 3.3.3) que les analyseurs syntaxiques n’exploitent pas les relations entre le verbe et le discours direct, ce qui modifie la distribution de fréquence des structures argumentales auxquelles ces verbes sont associés.
La forme qui entre le plus souvent en collocation avec ces verbes est le signe de ponctuation guillemet comme dans l’exemple (202). (202) »Rochefort se dope aux projets surdimensionnés », sourit Emmanuel de Fontainieu On constate qu’elle est en effet très proche du verbe en termes de distance, si on la considère comme un élément de l’empan (les signes de ponctuation sont généralement supprimés dans les analyses collocationnelles).
Cet exemple instancie une structure récurrente dans les articles de presse : [ » CITATION » , Verbe Locuteur ] Syntaxiquement, il s’agit d’une construction verbale en sujet inversé, apposée à un discours direct. Sémantiquement, le rôle du sujet est la source de la citation, le Locuteur, qui peut être une personne, une organisation ou encore un support médiatique (journaux, chaîne de télévision, etc.).
Nous avons cherché à extraire tous les verbes qui entraient dans cette construction en employant comme contrainte dans nos patrons tous les autres indices. On peut difficilement détecter une citation dans une grammaire régulière, puisqu’on ne peut définir par avance les éléments qui séparent le guillemet initial du guillemet final. Nous avons donc uniquement employé le guillemet final comme indice.
Les verbes obtenus ne sont pas tous typiquement des verbes de parole, mais des verbes qui vont tantôt décrire le mode de communication (écrit), caractériser la nature de la citation (se souvient, analyse, regrette), et certains usages souvent considérés comme des métaphores (glisse, martèle, s’enflamme). Cette simple grammaire permet d’extraire près de 30 000 occurrences de type citationnel,
parmi lesquels 281 formes verbales sont complètement couvertes (ce qui représente 786 occurrences) : ces dernières sont uniquement employées dans cette structure. Les 10 formes verbales qui apparaissent le plus fréquemment dans ces patrons (Fréquence dans la structure, Fréquence globale, Proportion) sont listées dans le tableau (7.3), triées en fonction de leur fréquence d’usage dans cette structure