Paramètre de régularisation
Introduction et interprétation de la littérature existante pour la goniométrie
Si certains articles de la littérature se contentent de présenter les résultats de simulations avec la valeur d’un paramètre de régularisation λ leur permettant d’obtenir les meilleures performances, certains articles se sont tout de même penchés davantage sur la question du réglage du paramètre de régularisation. Il est cependant important de bien différentier les paramètres selon la formulation du problème.
Bien que nous nous intéressions au paramètre de régularisation λ utilisé dans la formulation régularisée par la norme `0 (Rλ), nous faisons ici le choix de discuter plus largement des méthodes employées dans la littérature pour un certain nombre de problèmes parcimonieux. 4.1.1 Réglage d’un paramètre basé sur le niveau de bruit
La formulation sous contrainte (C), où la contrainte porte sur le résidu ky − Duk 2 2 , peut être la plus appropriée dans le cas où le niveau de bruit est connu ou estimable. Dans cette formulation, la norme `0 a souvent été remplacée par sa relaxation convexe (la norme `1). Dans ce cas, le paramètre parfois également appelé paramètre de régularisation, est Paramètre de régularisation
Paramètre de régularisation réglé par rapport à un niveau de bruit ou d’incertitudes (erreurs de modèles) [42, 81]. Une transformation à l’aide du Lagrangien permet également de régler ce paramètre sur le niveau de bruit [2]. On notera également qu’une approche bayésienne avec un a priori selon une distribution laplacienne mène à la minimisation d’un critère régularisé par la norme `1 avec pour paramètre de régularisation λ = σ 2 n/γ, avec σ 2 n la variance du bruit et γ la puissance des sources.
Enfin, les algorithmes de descente à gradient-proximal pour la résolution des problèmes régularisés font appel à des étapes de seuillage (avec les proximaux) : le seuillage dur pour la norme `0, le seuillage doux pour la norme `1, et des règles de seuillage plus lisses ou intermédiaires pour les autres normes ou approximations de la norme `0, qui reposent tous en partie sur la valeur du paramètre de régularisation λ. Ainsi, en se basant sur les propriétés de seuillage et du bruit, il a été proposé la règle du ασn [25] : λ est choisi égal à ασn, avec α un coefficient placé empiriquement entre 2 et 4, et σn l’écart-type du bruit.
D’un point de vue statistique, cela revient donc à conserver uniquement les composantes supérieures à un niveau de bruit : si l’on considère une distribution gaussienne des coefficients, un seuil à 2σ permet de conserver 5% des plus grands coefficients, et pour 3σ, 0.3% des plus grands coefficients. Ce critère simple ne s’applique qu’aux problèmes de petite dimension. Pour les problèmes en grande dimension, il a été proposé un seuil universel λ = σ √ 2 log N0 [25], où N0 est la dimension de l’observation. Cependant, les hypothèses sur la distribution sont très restrictives et loin de la réalité.
Relation entre problème régularisé et problème contraint
lien avec le maximum de vraisemblance La littérature sur le réglage du paramètre λ fait apparaître des liens entre le niveau de bruit souhaité et le paramètre, à travers la règle de seuillage édictée par [25], ou à travers la formulation bayésienne. Bien souvent, le réglage fourni est valable pour des problèmes utilisant la norme `1, ce qui implique une faible cohérence mutuelle du dictionnaire.
Pour un problème d’estimation des directions d’arrivées avec un dictionnaire aux colonnes voisines très fortement corrélées entre elles, le réglage du paramètre sur le niveau de bruit seul ne semble pas suffisant pour obtenir un résultat parcimonieux d’où les angles d’arrivées pourront être extraits. Nikolova [57] a travaillé sur l’équivalence entre le problème régularisé (Rλ) et le problème contraint (Cs).
Le travail proposé par la suite établit de manière originale un lien plus étroit que celui la littérature actuelle entre niveau de bruit, degré de parcimonie, et paramètre de régularisation. Dans la suite, les termes « valeur optimale » et « solutions optimales » font référence à la valeur de minima globaux et aux solutions globales. Nous faisons par ailleurs l’hypothèse que le dictionnaire D ∈ C N0×G satisfait rank(D) = N0 < G. On suppose également y 6= 0.