Identification d'indicateurs stratégiques dans les documents

Facebook Tweet Pin Email

La Tunisie, terre de paix et d’hospitalité est devenue en janvier 2011, date de la révolution populaire, l’épicentre d’une vague de transitions politiques, sociales et économiques. Depuis, le pays vit une période de transformation profonde qui a créé de nouveaux défis et opportunités, en particulier pour l’économie du pays. Plusieurs secteurs, piliers de l’économie, ont subi des conséquences majeures à la suite de la dégradation de la situation sociale et économique causée par les multiples grèves, les revendications surréalistes, les contestations et la désobéissance. Certains secteurs, tels que le tourisme, l’industrie pétrolière et le secteur minier connaissent actuellement une situation critique, voir alarmante.

En effet, en termes de contnbution à la croissance économique, la participation du tourisme ne dépasse pas le seuil de 0,1%. Il est clair qu’il s’agit d’un secteur en crise: « 3,3 millions de visiteurs sur les six premiers mois en 2012, une fréquentation en baisse de 18% par rapport à la même période en 2010. » [Camille La fra nce , 3 août 2012]. Les décideurs et les investisseurs tunisiens espèrent remédier à la situation vu l’importance de ce secteur. Pour ce fuire, il est opportun de déterminer les caractéristiques et les éléments clés du tourisme tunisien sur lesquels il fuut agir pour ramener ce secteur à son niveau avant la révolution. D’où une analyse approfondie des expériences des touristes s’avère utile pour déterminer certains indicateurs sur le tourisme tunisien pouvant contnbuer à améliorer la situation.

De nos jours l’analyse et le traitement d’infonnations textuelles sont devenus lun enjeu majeur avec l’explosion du Web: environ 90% des données accessibles est sous forme textuelle (bib liothèq ues électroniq ues, pages HTML, forums de discussion, réponse s ouvertes à des enquêtes, actualités, fonnulaires Web, etc). Cependant les tâches d’exploration et de récupération de l’information dans ces réservoirs de connaissances deviennent extrêmement complexes. Ce volume de données représente un défi pour de nombreuses organisations qui souhaitent trouver la méthode leur permettant de collecter, d’étudier et d’exploiter ces données. Face à ce problème, la fouille de texte, ou text mining, sert à fuciliter l’extraction des connaissances cachées dans des grands volumes de données. Ce domaine de recherche essaie de mettre à profit la surabondance d’informations textuelles en utilisant des techniques d’ informatique linguistique, de data mining, d’apprentissage automatiq ue et de statistiq ues.

Le text mining

Définitions
Le Text Mining est un domaine de recherche considéré comme une e des disciplines du traitement automatiq ue du langage naturel (T ALN). Il permet de traiter un volume important de données textuelles provenant d’internet (Ronen Feldman, 1995). Plusieurs définitions dans la littérature décrivent le text mining sous difièrents angles. Fayyad et al. 1996 trouvent que le text mining est un processus non trivial d’extraction d’informations implicites, précédemment inconnues, et potentiellement utiles, à partir de données textuelles non structurées dans de grandes collections de textes. De Lassence (2006) définit le text mining comme un processus automatique d’extraction d’informations à partir de données textuelles permettant d’améliorer les décisions prises par des gestionnaires.

Catégorisation de textes

La catégorisation de texte permet de détenniner une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes, classes). Cette liaison fonctionnelle est connue sous le nom de modèle de prédiction. Elle est estimée par un apprentissage automatique.

Il est conseillé de posséder un ensemble de textes déjà étiquetés, à partir desquels nous détenninons les paramètres du modèle de prédiction le plus efficace, autrement dit le modèle qui fournit le moins d’erreurs en prédiction.

Les types de catégorisation de textes

Trois types de catégorisation de textes sont prévus :

➤ Catégorisation binaire :
Ce type de catégorisation correspond au filtrage, il permet, par exemple, de répondre aux questions suivantes « le document est pertinent ou non ? », « le courriel est un spam ou non? ».

➤ Catégorisation multi-catégorie disjointes : C’est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation répond par exemp le au problème d’affectation automatique des codes CIM3 aux comptes rendus médicaux.

➤ Catégorisation muhi-catégories :
C’est une catégorisation à n classes mais le document doit être affecté à une seule catégorie. On trouve ce type de catégorisation par exemple dans le routage de courriels. Le figure ci-dessous donne une vue globale des trois paradigmes de catégorisation de textes .

Table des matières

CHAPITRE 1 : LE TEXT MINING
I. Le text mining
1) Défmitions
2) Catégorisation de textes
3) Les types de catégorisation de textes
4) Le processus du Text Mining
5) Cooccurrence de lTIOtS
6) La complexité des données textuelles
a) Grandes dimensions
b) Déséquilibrage
c) Ambiguïté
d) Synonymie
II. Les types des données
1) Les données et leur structure
a) Do nnée structurée
b) Do nnée se mi-struc turée
c) Do nnées no n s truc turées
2) La différence entre les structures des textes
III. Les méthodes des analyses textuelles
1) Ana lyse lexicale
2) Ana lyse lingu istiq ue
3) Analyse thématique
IV. Domaines des applications du Text Mining
v. Conclusion
Chapitre II: TRADUCTION AUTOMATIQUE
1. Traduction automatique
1) Défmition
2) L’architecture linguistique d’un système de traduction automatique
3) Fonctionnement de la traduction automatique
a) Les systèmes qui reposent sur les règles
b) Les systèmes basés sur des statistiques
c) Les systèmes basés sur des algorithmes neuronaux
II. Des exemples des traducteurs automatiques
1) Les Traducteurs en ligne
a) Google traducteur
b) DeepL
c) Microsoft traducteur
2) L’évaluation de la qualité des traductions
a) L’évaluation manuelle
b) L’évaluation automatique
3) Comparaison des traducteurs automatiques
III. Conclusion
CHAPITRE III : L’APPRENTISSAGE ET LA CLASSIFICATION
I. La classification des données
1) Défmition de la c lassification des données
2) Les étapes de la classification des données
II. L’apprentissage automatique
1) Défmition
2) Les domaines de l’application
m. Les méthodes d’apprentissage automatique
1) L’apprentissage sup ervisé
a) La méthode de Boosting
b) Machine à vec teurs de support
c) Réseau de neurones
d) Méthode des k plus proches voisins
e) Arbre de décision
f) Classification naïve bayésienne
2) L’apprentissage non-supervisé
a) Analyse en composantes principales
b) Carte auto-adaptative
c) Des k-rnoyennes
d) Regroupement hiérarchique
3) L’apprentissage semi-supervisé
4) L’apprentissage par transfe rt
5) L’apprentissage par renforcement
IV. Comparaison des techniques d’apprentissage
V. Choix d’une technique d’apprentissage
VI. Conclusion
CHAPUTRE IV: INDICATEURS STRATEGIQUES ET TABLEAU DE BORD
I. Indicateurs stratégiques
1) Défmition
2) Rôle des indicateurs stratégiques
3) Les types des ind ica te urs straté giq ues
a) Indicateur stratégique qualitatif
b) Indicateur stratégique quantitatif
4) Caractéristiques des bons indicateurs
II. Le tableau de bord
1) Défmition d’ un tableau de bord
2) Le rôle du tab leau de bord
3) Les modèles de tableau de bord
4) Caractéristiques de tableau de bord
5) Processus d’élaboration d ‘ un tableau du bord
III. Conclusion
CHAPITRE V : APPROCHE PROPOSEE
1. L’approche proposée
1) Description de l’approche
2) L’algorithme de l’approche proposée
3) Les différentes phases de l’approche
a) La première phase
b) La deuxième phase
c) Troisième phase
II. Validation de l’approche proposée
1) Corpus
2) Élimination des textes mal écrits
3) Traduire les textes en français
4) Analyse sémantique et statistique des textes
5) Mise en place d’un tableau de bord
III. Conclusion
CHAPITRE VI: EXPERIMENTATION ET ANALYSE DES RESULTATS
1. Ex périme ntation et analyse des résultats
1) Description du corpus
2) L’analyse du corpus et discussion des résultats
a) Les outils utilisés
b) L’étape préalable
c) Processus habituel d’analyse des données
d) Élaboration du tableau de bord
II. Conclusion
CHAPITRE VII : CONCLUSION