La Tunisie, terre de paix et d’hospitalité est devenue en janvier 2011, date de la révolution populaire, l’épicentre d’une vague de transitions politiques, sociales et économiques. Depuis, le pays vit une période de transformation profonde qui a créé de nouveaux défis et opportunités, en particulier pour l’économie du pays. Plusieurs secteurs, piliers de l’économie, ont subi des conséquences majeures à la suite de la dégradation de la situation sociale et économique causée par les multiples grèves, les revendications surréalistes, les contestations et la désobéissance. Certains secteurs, tels que le tourisme, l’industrie pétrolière et le secteur minier connaissent actuellement une situation critique, voir alarmante.
En effet, en termes de contnbution à la croissance économique, la participation du tourisme ne dépasse pas le seuil de 0,1%. Il est clair qu’il s’agit d’un secteur en crise: « 3,3 millions de visiteurs sur les six premiers mois en 2012, une fréquentation en baisse de 18% par rapport à la même période en 2010. » [Camille La fra nce , 3 août 2012]. Les décideurs et les investisseurs tunisiens espèrent remédier à la situation vu l’importance de ce secteur. Pour ce fuire, il est opportun de déterminer les caractéristiques et les éléments clés du tourisme tunisien sur lesquels il fuut agir pour ramener ce secteur à son niveau avant la révolution. D’où une analyse approfondie des expériences des touristes s’avère utile pour déterminer certains indicateurs sur le tourisme tunisien pouvant contnbuer à améliorer la situation.
De nos jours l’analyse et le traitement d’infonnations textuelles sont devenus lun enjeu majeur avec l’explosion du Web: environ 90% des données accessibles est sous forme textuelle (bib liothèq ues électroniq ues, pages HTML, forums de discussion, réponse s ouvertes à des enquêtes, actualités, fonnulaires Web, etc). Cependant les tâches d’exploration et de récupération de l’information dans ces réservoirs de connaissances deviennent extrêmement complexes. Ce volume de données représente un défi pour de nombreuses organisations qui souhaitent trouver la méthode leur permettant de collecter, d’étudier et d’exploiter ces données. Face à ce problème, la fouille de texte, ou text mining, sert à fuciliter l’extraction des connaissances cachées dans des grands volumes de données. Ce domaine de recherche essaie de mettre à profit la surabondance d’informations textuelles en utilisant des techniques d’ informatique linguistique, de data mining, d’apprentissage automatiq ue et de statistiq ues.
Le text mining
Définitions
Le Text Mining est un domaine de recherche considéré comme une e des disciplines du traitement automatiq ue du langage naturel (T ALN). Il permet de traiter un volume important de données textuelles provenant d’internet (Ronen Feldman, 1995). Plusieurs définitions dans la littérature décrivent le text mining sous difièrents angles. Fayyad et al. 1996 trouvent que le text mining est un processus non trivial d’extraction d’informations implicites, précédemment inconnues, et potentiellement utiles, à partir de données textuelles non structurées dans de grandes collections de textes. De Lassence (2006) définit le text mining comme un processus automatique d’extraction d’informations à partir de données textuelles permettant d’améliorer les décisions prises par des gestionnaires.
Catégorisation de textes
La catégorisation de texte permet de détenniner une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes, classes). Cette liaison fonctionnelle est connue sous le nom de modèle de prédiction. Elle est estimée par un apprentissage automatique.
Il est conseillé de posséder un ensemble de textes déjà étiquetés, à partir desquels nous détenninons les paramètres du modèle de prédiction le plus efficace, autrement dit le modèle qui fournit le moins d’erreurs en prédiction.
Les types de catégorisation de textes
Trois types de catégorisation de textes sont prévus :
➤ Catégorisation binaire :
Ce type de catégorisation correspond au filtrage, il permet, par exemple, de répondre aux questions suivantes « le document est pertinent ou non ? », « le courriel est un spam ou non? ».
➤ Catégorisation multi-catégorie disjointes : C’est le cas le plus général de la catégorisation à n classes. Le système doit affecter 0, 1 ou plusieurs catégories à un même document. Ce type de catégorisation répond par exemp le au problème d’affectation automatique des codes CIM3 aux comptes rendus médicaux.
➤ Catégorisation muhi-catégories :
C’est une catégorisation à n classes mais le document doit être affecté à une seule catégorie. On trouve ce type de catégorisation par exemple dans le routage de courriels. Le figure ci-dessous donne une vue globale des trois paradigmes de catégorisation de textes .
CHAPITRE 1 : LE TEXT MINING |