Generalites sur le codage de la parole

Facebook Tweet Pin Email

Les communications numériques présentent une grande diversité de caractéristiques, en termes de nature des informations, de volumes des données, d’exigences en temps réel, d’exigences en taux d’erreur, d’exigences en pertes d’information pour ne citer que les plus importantes. Par ailleurs les canaux de transmission étant de capacité limitée et devant être accessible au plus grand nombre d’utilisateurs, une compression importante du volume des données est en général indispensable. Les techniques de compression ont beaucoup progressé depuis une décennie, et continuent à progresser afin de prendre en compte toutes la diversité des exigences citées plus haut. Selon la nature des informations véhiculées (texte, image fixe, image animée, son, contenus mixtes, …) et également compte tenu de la nature du réseau de transport et de la technologie d’accès les besoins ne sont pas les mêmes.

GENERALITES SUR LE CODAGE DE LA PAROLE

L’accroissement des demandes au niveau des réseaux de communications numériques a provoqué d’importantes recherches. Des méthodes de traitements du signal sont apparues dans le but de réduire le nombre de bits nécessaires à la représentation du signal de parole et à la transmission des informations tout en maintenant un niveau de qualité suffisant et une complexité.

Le but du codage de la parole est de transformer un signal vocal en général analogique, en un signal numérique d’un débit et d’une qualité donnés. Le débit binaire du signal numérisé est alors égal au produit de la fréquence d’échantillonnage par le nombre d’éléments binaires nécessaire à la représentation de toutes les valeurs discrètes du signal. Pour réduire ce débit, des algorithmes vont permettre de supprimer les redondances inutiles du signal.

Bande d’audition

L’oreille ne peut pas percevoir que certains sons. La bande d’audition est comprise entre les fréquences 20 Hz et 20000 Hz. En pratique une telle largeur de bande n’est conservée que pour un codage de très haute fidélité. Selon la nature du signal à coder, on filtre le signal en sélectionnant soit la bande téléphonique, suffisante pour la parole, soit une bande plus large pour traiter des sons plus complexes.

Classification des méthodes de compression

Il existe deux types de compression
• La compression sans perte
• La compression avec perte .

Compression sans perte
Dans le cas de la compression sans perte, le signal décodé est identique au signal original. L’avantage de cette technique est qu’il n’introduit aucune perte de qualité même après plusieurs étapes de codage décodage. Les méthodes utilisées dans ce type de compression procèdent seulement à une réduction de la redondance. A cause du critère de fidélité strict, le codage ne peut pas réduire le débit autant que les codeurs avec pertes. La compression sans perte a donc des performances de compression limitées.

Compression avec pertes
Elle engendre une perte ou une altération de l’information. Le signal de parole reconstruit étant donc dégradé par rapport à l’original. Elle consiste dans un premier temps à supprimer, par filtrage, toutes les fréquences que l’oreille ne peut pas entendre, puis à procéder à la réduction de redondance.

Suite à la suppression d’information, il n’est plus possible de reconstituer le signal original avec exactitude. Le signal reconstruit ne pourra plus reprendre donc sa qualité originale. Il y a eu suppression de l’information de manière irréversible. Ce type de compression possède des performances de compression importantes.

Bande passante du signal à coder

Bande étroite

La bande étroite ou la bande téléphonique correspond à la plage de fréquences 300Hz3400Hz. Cette bande est utilisée par la téléphonie et concerne essentiellement les signaux de parole. Elle permet de garantir la conservation de l’intelligibilité du langage ainsi les paramètres propres au locuteur. Une transmission de parole en bande étroite est en mesure de communiquer fidèlement les phénomènes voisés et de donner une impression de bruit pour les phénomènes non voisés. L’intelligibilité correspond à la possibilité d’établir un sens au message transmis avec l’ensemble des phénomènes du message. Mais la bande étroite ne permet pas de transmettre l’intégralité des fréquences présentes dans un signal de parole. Par exemple, il est très difficile de différencier un « s » d’un « f » prononcé seul, lors d’une conversation téléphonique.

Bande élargie

La transmission en bande élargie correspond à l’élargissement de la bande passante utilisée pour la transmission du signal de parole. En effet, la bande passante utilisée en téléphonie va de 300Hz à 3400Hz, or la bande élargie permet la transmission de la voix de 50Hz jusqu’à 7000Hz. La compression de la parole en bande élargie permet une importante amélioration de la qualité, en particulier au niveau de la restitution des composantes vocales graves et aigues de sorte que la netteté de la parole, son caractère naturel et son intelligibilité sont considérablement améliorés par rapport à la compression de la parole en bande étroite.

Bande large

La bande large appelée aussi bande High-Fidelity (Hi-Fi) occupe la plage de fréquences 20Hz – 20KHz. Cette bande est utilisée dans les systèmes permettant de transmettre le son avec haute fidélité. Les codeurs de musique utilisent cette bande de fréquence car cette dernière permet de transmettre les composantes basses fréquences et les hautes fréquences constituantes la musique.

Numérisation du son

Le principe de la numérisation reste identique quel que soit la nature du signal d’origine (audio, vidéo, …). La numérisation des signaux s’explique pour plusieurs raisons. De fait, un ordinateur travaille exclusivement avec les données numériques. En outre, on traitera plus facilement des signaux numériques. Grâce aux processeurs de traitement de signal modernes, traiter un signal numérique est aussi facile. Enfin, pour le stockage et la reproduction, les signaux numériques offrent une meilleure résistance au bruit, ce qui ne se traduit pas une augmentation du rapport signal à bruit. Ainsi, il est plus facile de régénérer un signal numérique d’un signal analogique.

La numérisation du signal audio analogique est la première étape dans l’opération de codage numérique du son. Elle s’effectue en trois étapes :
• échantillonnage
• quantification
• codage .

Table des matières

INTRODUCTION
CHAPITRE 1: GENERALITES SUR LE CODAGE DE LA PAROLE
1.1. Bande d’audition
1.2. Classification des méthodes de compression
1.2.1. Compression sans perte
1.2.2. Compression avec pertes
1.3. Bande passante du signal à coder
1.3.1. Bande étroite
1.3.2. Bande élargie
1.3.3. Bande large
1.4. Numérisation du son
1.4.1. Echantillonnage
1.4.2. Quantification
1.4.3. Codage
1.5. La technique de Modulation par Impulsion et Codage (MIC)
1.5.1. Principe
1.5.2. Problème avec codage MIC
1.6. Techniques de codage
1.6.1. Les codages temporels
1.6.1.1. Les codages MIC
1.6.1.2. Les codages Differential Pulse Code Modulation (DPCM) et Adaptive DPCM (ADPCM)
1.6.2. Les codages paramétriques
1.6.3. Les codages hybrides
1.7. Critères relatifs au codage
1.7.1. Débit de transmission
1.7.2. Qualité de la parole
1.7.3. Complexité de calcul et implémentation
1.7.4. Robustesse face aux erreurs
1.7.5. Délai de codage
CHAPITRE 2: LE CODAGE DE LA PAROLE DANS LE GSM
2.1. Introduction
2.2. Nécessite du codage de parole dans le GSM
2.3. Les différents types de codeurs de parole GSM
2.3.1. Codeur de parole Plein Débit ou Full Rate (FR)
2.3.2. Codeur de parole demi-débit ou Half Rate (HR)
2.3.3. Codeurs de parole Enhanced Full Rate (EFR)
2.4. Compromis du codage source
2.5. Caractéristiques d’un signal vocal
2.5.1. Production de la voix
2.5.2. Sons voisés ou non voisés
2.5.3. Fréquence vocale
2.5.4. Les formants
2.6. Segmentation du signal de parole
2.7. Modélisation de la parole
2.8. Codage prédictif et modélisation du signal d’excitation
2.8.1. Codage Prédictif Linéaire LPC
2.8.1.1. Principe
2.8.1.2. Détermination des coefficients du filtre
2.8.1.3. Codeur LPC à excitation par signal résiduel
2.8.2. Prédiction à long terme
2.8.2.1. Introduction
2.8.2.2. Principe
2.8.2.3. Détermination de la valeur du pitch
2.8.3. Signal d’excitation
2.8.4. Le codeur LPC10e
2.9. Le codeur GSM FR
2.9.1. Principe de base
2.9.2. La préaccentuation (pré-processing)
2.9.3. Analyse LPC
2.9.3.1.Analyse à court terme
2.9.3.2. Détermination de coefficients LAR
2.9.4. Analyse LTP
2.9.5. Codage RPE
2.9.6. Quantification
2.9.7. Décodage
2.9.7.1. Reconstruction du signal résiduel à court terme
2.9.7.2. Filtrage du signal résiduel
2.9.8. Comparaison du codeur RPE-LTP avec le codeur MIC
CHAPITRE 3: LES SCHEMAS DE CODAGE EN GPRS
3.1. Introduction
3.2. Nécessité du GPRS
3.3. Dépendance entre le réseau GSM et le réseau GPRS
3.4. Principales caractéristiques du GPRS
3.5. Structure du réseau GPRS
3.6. Composants d’un réseau GPRS
3.6.1. Le sous-système de station de base (BSS)
3.6.2. Le SGSN
3.6.3. Le GGSN
3.7. Pile protocolaire GPRS
3.7.1. Présentation
3.7.2. Les couches de la pile protocolaire
3.7.2.1. Couche physique
3.7.2.2. Couche MAC
3.7.2.3. Couche LLC
3.7.2.4. La couche SubNetwork Dependent Convergence Protocol (SNDCP)
3.7.2.5. La couche Base Station System GPRS Protocol (BSSGP)
3.7.2.6. La couche GTP
3.8. Canal radio GPRS
3.8.1. Time slot (TS)
3.8.2. Transformations des paquets
3.8.3. Le codage canal, une protection contre les erreurs
3.9. Principes du codage canal
3.9.1. Codage convolutionnel
3.9.1.1. Principe
3.9.1.2. Caractéristiques d’un codeur convolutionnel
3.9.1.3. Capacité de correction d’un code convolutif
3.9.1.4. Avantage et inconvénient
3.9.1.5. Exemple
3.9.2. Le poinçonnage
3.10. Les Schémas de Codage utilisés dans le système GPRS
3.10.1. Principes
3.10.2. Les caractéristiques du codage convolutionnel
3.10.3. Schéma de Codage CS-1
3.10.4. Schéma de Codage CS-2
3.10.5. Schéma de codage CS-3
3.10.6. Schéma de Codage CS-4
3.11. Choix du Schéma de Codage
CONCLUSION