La traduction de cette page n'est pas à jour. Cliquez ici pour voir la dernière version en anglais.

Les trames de Gabor non stationnaires et la transformée à Q constant

Les trames de Gabor non stationnaires vous permettent d'implémenter une analyse de signaux adaptative en temps ou en fréquence. Les fonctions cqt et icqt utilisent des trames de Gabor non stationnaires pour obtenir une transformée à Q constant (adaptative en fréquence) (CQT) d'un signal. Une force notable des trames de Gabor non stationnaires est qu'elles permettent la construction d'inverses stables, donnant lieu à une reconstruction parfaite.

La théorie des transformées de Gabor non stationnaires (NSGT) a été présentée par Jaillet [1] et Balazs, Dörfler, Jaillet, Holighaus, et Velasco [2]. Cette théorie permet d’implémenter efficacement des NGST au moyen de méthodes basées sur la FFT. Dörfler, Holighaus, Grill, et Velasco [3], [4] développent un environnement pour une CQT efficace parfaitement inversible. Les algorithmes de [3], [4] implémentent une version à verrouillage de phase de la CQT qui ne préserve pas les mêmes phases que celles qui seraient obtenues par convolution naïve. Dans [5], Schörkhuber, Klapuri, Holighaus et Dörfler développent des algorithmes efficaces pour la CQT et la CQT inverse qui imitent les coefficients obtenus par convolution naïve. Large Time-Frequency Analysis Toolbox [6] propose un ensemble complet d'algorithmes pour l'analyse et la synthèse de Gabor non stationnaire.

Dans l'analyse de Gabor standard, une fenêtre de taille fixe forme le plan temps-fréquence. Une trame de Gabor non stationnaire est une collection de fonctions de fenêtrage de différentes tailles qui sont utilisées pour former le plan temps-fréquence. L'analyse par ondelettes forme le plan temps-fréquence de manière similaire. Vous avez la possibilité de modifier la densité d'échantillonnage en temps ou en fréquence. Les trames de Gabor non stationnaires sont utiles dans des domaines tels que le traitement de signal audio, où les fenêtres temps-fréquence de taille fixe ne sont pas optimales. Contrairement à la transformée de Fourier à court terme, les fenêtres utilisées dans la transformée à Q constant ont une largeur de bande et une densité d'échantillonnage adaptables. Dans l'espace des fréquences, les fenêtres sont centrées sur des fréquences centrales espacées de façon logarithmique.

Décomposition du plan temps-fréquence

La transformée de Fourier de f(t) est la corrélation de f(t) avec e^{j ω t} :

$F (ω) = \int_{- \infty}^{\infty} f (t) e^{- j ω t} d t .$

Commee^{j ω t} n'a pas de support compact, la transformée de Fourier ne constitue pas un choix idéal pour étudier les signaux non stationnaires. Si le contenu en fréquence d'un signal change au fil du temps, la transformée de Fourier ne permet pas de savoir quels sont ces changements ni quand ils se produisent. La partition du plan temps-fréquence illustrée ici représente ce comportement de la transformée de Fourier.

Pour effectuer une analyse temps-fréquence d'un signal f(t), utilisez une fonction de fenêtrage $g (t)$ qui est :

Paire et à valeurs réelles.
Effectivement non nulle sur seulement un intervalle fini.
A une norme égale à un.
La transformée de Fourier de $g (t)$ est centrée sur zéro et est passe-bas.

Faites glisser la fenêtre $g (t)$ sur f(t) et prenez la transformée de Fourier du résultat :

$S F (u, ζ) = \int f (t) g (t - u) e^{- j ζ t} d t .$

La corrélation de f(t) avec les atomes de Gabor $g (t - u) e^{j ζ t}$ est une analyse de Gabor standard. En faisant varier u, on ne considère que les valeurs de f(t) proches du temps u. Le support de $g (t)$ détermine la taille du voisinage proche du temps u. La transformée de Fourier de $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ est la translation par ζ de la transformée de Fourier de $g (t)$ et est donnée par

${\hat{g}}_{u, ζ} (ω) = e^{- (ω - ζ)} \hat{g} (ω - ζ) .$

La concentration d'énergie de ${\hat{g}}_{u, ζ} (ω)$ a une variance σ_ω et est centrée sur ζ. Si la fenêtre, $g_{u, ζ} (t) = g (t - u) e^{ζ t}$ , se déplace sur une grille régulière, la transformée de Fourier du produit de la fenêtre décalée et de f(t) est la transformée de Fourier à court terme (STFT). Le pavage STFT du plan temps-fréquence peut être représenté comme une grille de rectangles, chacun centré sur (u, ζ) :

L'ensemble des fonctions ${g_{u, ζ}}$ est connu comme une trame de Gabor. Les éléments de cet ensemble sont appelés atomes de Gabor. Une trame est un ensemble de fonctions, {h_k(t)}, qui satisfait la condition suivante : il existe des constantes 0 < A ≤ B < ∞ telles que pour toute fonction f(t),

$A ‖ f ‖^{2} \leq Σ_{k} | 〈 f, h_{k} 〉 |^{2} \leq B ‖ f ‖^{2} .$

La concentration d'énergie de $g (t)$ , dans le temps, a une variance σ_t. La concentration d'énergie de $\hat{g} (ω)$ , en fréquence, a une variance σ_ω. La concentration d'énergie détermine la capacité de la fenêtre à localiser le signal en temps et en fréquence. En vertu du principe d'incertitude temps-fréquence, il existe une limite à la localisation simultanée dans les domaines temporel et fréquentiel, comme l'indique la formule

$σ_{t} σ_{ω} \geq \frac{1}{2} .$

Le rétrécissement de la fenêtre dans un domaine entraîne une moins bonne localisation dans l'autre domaine. Gabor a montré que la surface de la fenêtre est minimale lorsque $g (t)$ est gaussien.

Transformée à Q constant

Dans la CQT, on fait varier la largeur de bande et la densité d'échantillonnage en fréquence. Les fenêtres sont construites et appliquées directement dans le domaine des fréquences. Les différentes fenêtres ont des fréquences centrales et des largeurs de bande différentes, mais le rapport entre la fréquence centrale et la largeur de bande reste constant. Le maintien d'un ratio constant implique que :

La résolution dans le temps s'améliore à des fréquences plus élevées.
La résolution en fréquence s'améliore aux basses fréquences.

Les décalages temporels de chaque fenêtre dépendent de la largeur de bande, en raison du principe d'incertitude.

La CQT dépend de ce qui suit :

Les fonctions fenêtres g_k sont des fonctions paires à valeurs réelles. Dans le domaine fréquentiel, la transformée de Fourier de g_k est définie sur l'intervalle, [-Fs/2, Fs/2].
Le taux d'échantillonnage, ζ_s.
Le nombre de bins par octave, b.
Les fréquences minimale et maximale, ζ_min et ζ_max.

Choisissez une fréquence minimale ζ_min et un nombre de bins par octave b. Ensuite, formez une séquence de fréquences géométriquement espacées,

ζ_k = ζ_min × 2^k/b

pour k = 0,...,K où K est un entier tel que ζ_K est la plus grande fréquence strictement inférieure à la fréquence de Nyquist ζ_s/2. La largeur de bande à la ke fréquence est fixée à Ω_k = ζ_k+1-ζ_k-1. Compte tenu de cet échantillonnage, le rapport entre la ke fréquence centrale et la largeur de bande de la fenêtre est indépendant de k :

Q = ζ_k/Δ_k = (2^1/b-2^-1/b)^-1.

Pour assurer une reconstruction parfaite, la composante continue et la fréquence de Nyquist sont respectivement ajoutées à la séquence.

W(ω) forme les fonctions fenêtres g_k. W(ω) est une fonction continue paire à valeur réelle qui est centrée sur 0, positive dans l'intervalle [-½,½], et 0 ailleurs. W(ω) est translatée à chaque fréquence centrale ζ_k puis mise à l'échelle. L'évaluation d'une version mise à l'échelle et translatée de W(ω) donne les coefficients de filtre g_k[m], donnés par

g_k[m] = W((m ζ_s/L - ζ_k)/Ω_k)

pour m = 0, ..., L-1, où L est la longueur du signal. Par défaut, cqt utilise la fenêtre 'hann'.

En vertu du principe d'incertitude, la taille de la bande passante limite la valeur des décalages temporels. Pour satisfaire l'inégalité de trame, le décalage a_kde g_k doit satisfaire

a_k ≤ ζ_k/Ω_k.

Comme mentionné précédemment, la fenêtre est appliquée dans le domaine de la fréquence. Les filtres, g_k, centrés sur ζ_k, sont formés et appliqués à la transformée de Fourier du signal. En prenant la transformée inverse, on obtient les coefficients Q constant.

Références

[1] Jaillet, Florent. “Représentation et traitement temps-fréquence des signaux audionumériques pour des applications de design sonore.” Ph.D. dissertation, Université de la Méditerranée, Aix-Marseille II, 2005.

[2] Balazs, P., M. Dörfler, F. Jaillet, N. Holighaus, and G. Velasco. “Theory, Implementation and Applications of Nonstationary Gabor Frames.” Journal of Computational and Applied Mathematics 236, no. 6 (October 2011): 1481–96. https://doi.org/10.1016/j.cam.2011.09.011.

[3] Holighaus, Nicki, M. Dörfler, G. A. Velasco, and T. Grill. “A Framework for Invertible, Real-Time Constant-Q Transforms.” IEEE Transactions on Audio, Speech, and Language Processing 21, no. 4 (April 2013): 775–85. https://doi.org/10.1109/TASL.2012.2234114.

[4] Velasco, G. A., N. Holighaus, M. Dörfler, and T. Grill. "Constructing an invertible constant-Q transform with nonstationary Gabor frames." In Proceedings of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris, France: 2011.

[5] Schörkhuber, C., A. Klapuri, N. Holighaus, and M. Dörfler. "A MATLAB^® Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution." Submitted to the AES 53rd International Conference on Semantic Audio. London, UK: 2014.

[6] Průša, Z., P. L. Søndergaard, N. Holighaus, C. Wiesmeyr, and P. Balazs. The Large Time-Frequency Analysis Toolbox 2.0. Sound, Music, and Motion, Lecture Notes in Computer Science 2014, pp 419–442. https://github.com/ltfat

Voir aussi

icqt | cqt

Rubriques

Transformée de Fourier à court terme