Filtrage temporel 5SUR3

Filtrage temporel 5SUR3

Le schéma de codage t + 2D, décrit dans la section précédente, est une architecture de codage en boucle ouverte permettant la description scalable et parcimonieuse d’une séquence vidéo. Il repose sur l’utilisation d’une transformée temporelle appliquée le long du mouvement des images afin d’exploiter leur redondance temporelle. La plupart des filtres temporels utilisés sont basés sur une transformée de Haar compensée en mouve- ment ; cette dernière possède une bonne efficacité de décorrélation temporelle et reste simple à mettre en œuvre. Cependant, le filtre temporel de Haar met en jeu une pré- diction temporelle monodirectionnelle et n’utilise qu’une seule image de référence pour prédire une image courante. Que peut-on espérer d’une transformée plus longue ?La transformée en ondelettes 5/3 est bidirectionnelle, possède un support plus large et constitue une candidate idéale pour assurer la transformée temporelle mise en jeu dans un schéma de codage t + 2D. Nous nous proposons de décrire dans la la section 3.1 comment le schéma de lifting temporel permet de construire un filtre temporel 5/3 compensé en mouvement, doté d’une très bonne efficacité de décorrélation temporelle.Nous présentons alors dans la section 3.2 les résultats expérimentaux obtenus lors de la mise en œuvre du filtre temporel 5/3 au sein de notre schéma de codage vidéo. Des me- sures de performance objectives sont présentées et nous comparons l’efficacité de notre schéma avec des codecs vidéo actuels, couramment utilisés. Ces résultats serviront de référence aux optimisations menées dans les chapitres 4 et 5.Ces travaux font suite à ceux de Tillier [146] sur le filtrage temporel 5/3 et ont conduit à la publication d’un article général de revue [106] sur la compensation de mouvement et l’utilisation du schéma lifting en codage vidéo scalable.

Filtrage temporel 5/3 compensé en mouvement

Les sous-bandes d’approximation issues de la décomposition temporelle au niveau j et résultant du filtrage temporel passe-bas sont notées l. Par décompositions successives des sous-bandes d’approximation, il est aisé d’obtenir une analyse multiré- solution et l’indice j est omis lorsqu’un seul niveau de la décomposition est considéré. Nous utiliserons alors les notations lComme vu dans la section 2.2.3, la formulation lifting permet de mettre en œuvre sim- plement une transformée en ondelettes quelconque dans le sens du mouvement d’une séquence vidéo. Considérons une transformée appliquée sur les images xles opérateurs P et U . En particulier, ils n’ont pas besoin d’être linéaires ni même inver- sibles. Les images originales peuvent être ainsi reconstruites par un simple retournement des étapes de lifting et une négation des signes :

Nous avons rappelé dans la section 2.2.2 qu’il est nettement plus efficace de décom-poser temporellement les images dans le sens du mouvement en utilisant les mécanismes d’estimation et de compensation de mouvement classiquement utilisés en codage vidéo. Les travaux de Pesquet-Popescu [108] ont de plus mis en évidence que ces mécanismes non-linéaires pouvaient être très naturellement introduits dans la structure lifting précé- dente, conduisant ainsi à une structure lifting compensée en mouvement.Les opérateurs de prédiction P et de mise à jour U doivent être donc modifiés pour tenir compte du mouvement. En utilisant les champs préalablement fournis par un mo- dule d’estimation de mouvements, ils peuvent ainsi mettre en correspondance les zones mouvantes présentes dans les images avant de les filtrer. On peut voir ce module d’es- timation comme une pré-décision, influençant les opérateurs de prédiction et de mise à jour. Afin de pouvoir reconstruire les images, les champs de mouvement sont transmis à part et encodés sans perte. La Fig. 3.1 illustre la structure en lifting d’un filtre temporel compensé en mouvement.

Bien que les champs de mouvement utilisés dans l’opérateur de prédiction P et de mise à jour U ne soient pas exactement les mêmes, nous les considérons en pratique comme tels. En effet, pour des raisons de complexité et pour économiser le débit d’information, les champs utilisés lors de la mise à jour sont calculés par inversion des champs estimés lors de la prédiction. Ceci revient à faire l’hypothèse d’être en présence d’un mouve- ment homogène. Cependant, si cette hypothèse n’est pas vérifiée, l’inversion du champ n’est pas directement possible et une étude plus poussée est nécessaire. Plusieurs travaux [38, 92] préconisent ainsi une gestion particulière des pixels non-connectés ou connectés de façon multiple dans le cas du filtre temporel de Haar. Dans le cas du filtre tempo- rel 5/3, nous présentons une étude complète dans la section 3.1.3. On notera cependant que l’utilisation d’un modèle de mouvement basé sur des grilles déformables de type mesh [126] et non sur des blocs permet d’obtenir un mouvement continu où l’inversion est toujours possible. Enfin, d’autres travaux [152] exploitent la similarité des champs de mouvement pour pouvoir réduire la quantité de mouvement à transmettre.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *