Environnement de développement MATLAB R2013a

Environnement de développement MATLAB R2013a

Le domaine de la reconnaissance automatique de la parole est actuellement très actif. De nombreux laboratoires de recherche et des industriels effectuent des recherches dans ce domaine, avec un souci théorique et applicatif très marqué. Même si quelques problèmes de reconnaissance comme la reconnaissance de mots isolés avec un vocabulaire limité et prononcés dans des conditions calmes d’utilisation ou la reconnaissance dépendant du locuteur peuvent être considérés comme ayant atteint un niveau de performance satisfaisant, la reconnaissance automatique mérite encore de nombreux travaux de recherche pour étendre son champ d’application. Un axe important de recherche concerne l’amélioration de la robustesse d’un système de reconnaissance lorsque l’environnement de test est sensiblement différent de l’environnement d’apprentissage. Ce sujet a été le centre d’attention de ce document. Deux aspects du problème de robustesse ont été présentés : la robustesse au bruit et la robustesse au locuteur.

Nos travaux de recherche ont porté sur la fusion d’informations acoustiques et visuelles pour la RAP. Nous avons donc abordé les principaux problèmes sous-jacents à cette fusion, à savoir la paramétrisation des informations de parole et la nature des systèmes de reconnaissance dans chacune des modalités, ainsi que le lieu et la nature du processus de fusion des informations sensorielles. Nous avons choisi de résoudre ces problèmes en nous appuyant sur des études réalisées dans le domaine de la perception audiovisuelle de la parole. Nous avons développé différents systèmes pour effectuer la fusion des informations acoustiques et visuelles en prenant appui sur des modèles perceptifs. Ces systèmes ont été testés sur deux corpus audiovisuelles CUAVE.

Structure et fonctionnement du logiciel

MATLAB (« matrix laboratory ») est un langage de programmation de quatrième génération émulé par un environnement de développement du même nom ; il est utilisé à des fins de calcul numérique. Développé par la société américaine The MathWorks, MATLAB permet de manipuler des matrices, d’afficher des courbes et des données, de mettre en œuvre des algorithmes, de créer des interfaces utilisateurs, et peut s’interfacer avec d’autres langages comme le C, C++, Java, et Fortran. Les utilisateurs de MATLAB (environ un million en 20041) sont de milieux très différents comme l’ingénierie, les sciences et l’économie dans un contexte aussi bien industriel que pour la recherche. Matlab peut s’utiliser seul ou bien avec des toolbox (« boîte à outils »). En effet plusieurs extensions plus « pointues » ont été conçues sous la forme de « TOOLBOXes », qui sont des paquets (payants) de fonctions supplémentaires dédiées à des domaines aussi variés que les statistiques, le traitement du signale et d’image, la logique floue, les réseaux de neurones, les ondelettes,… et qui permettent de résoudre un bon nombre de problèmes relatifs à ses domaines. Pour visualiser ces fonctions, il suffit de taper help suivi du nom de la famille à laquelle appartient la fonction. Pour connaitre le nom de ces familles, il suffit juste de taper help. Il comporte plus de 1500 fonctions préprogrammées.

La phase d’apprentissage est réalisée en deux étapes majeures : l’initialisation et la ré- estimation. Nous les avons conçus à partir de la plateforme HTK (Hidden Markov Model ToolKit) de l’Université de Cambridge. La boîte à outils HTK est efficace, flexible (liberté du choix des options et possibilité d’ajout d’autres modules) et complète dans le sens ou elle fournit une documentation très détaillée (le livre HTK (Young et al. 2006) est une encyclopédie dans le domaine).Le logiciel est implémenté sur Matlab R2013a, il est sous formes de fichier script MATLAB, ces fichiers MATLAB qui ont l’extension (.m) peuvent être considérés comme des fonctions qui peuvent être appelé à partie de l’interpréteur de commande MATALAB et qui se servent à leur tour d’un autre type de fichier des fichiers qui ont l’extension (.mat). Ces derniers fichiers représentent dans MTLAB des bases de données.

Les gens utiliseront les systèmes de reconnaissance à condition que le taux d’erreur de reconnaissance soit suffisamment faible. La reconnaissance robuste est donc nécessaire. L’utilisation d’un système de reconnaissance dans un milieu bruité et par différentes personnes devrait être habituelle. La prise en compte des bruits non stationnaires, dont l’importance a été soulevée à travers ce document, nécessite de continuer l’effort engagé. Nous n’en sommes qu’au début. L’étude des problèmes de détections de changement des bruits et la prise en compte de ces moments pendant la reconnaissance doit se poursuivre.  Avec la représentation par adjacence, présentée dans le 4ème chapitre, nous avons établi que le manque de compatibilité entre le GA d’une part et l’opérateur de mutation génétique défini sur la base d’approches déterministes d’autre part, nuisait à l’efficacité de l’approche. C’est donc prioritairement sur ce point que devront se focaliser de futurs développements.

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *