FOOTNOTES ON THIS CHAPTER ARE NOT YET IMPLEMENTED!
CHAPITRE III: REPRÉSENTATION GRANULAIRE DANS LES TECHNIQUES
DANALYSE / SYNTHÈSE.
"Lanalyse mathématique peut encore saisir les lois des phénomènes. Elle nous les rend présents et mesurables, et semble être une faculté de la raison humaine destinée à suppléer à la brièveté de la vie et à limperfection des sens; et ce qui est plus remarquable encore, elle suit la même marche dans létude de tous les phénomènes; elle les interprète par le même langage, comme pour attester lunicité et la simplicité de "lunivers" (Fourier, 1822).
Depuis le dix-huitième siècle, les mathématiciens on étudié la représentation en fréquence des signaux. Joseph Fourier (1822) est le premier à avoir stipulé que nimporte quelle fonction périodique peut être exprimée comme une somme de sinusoïdes (sinus et cosinus) de différentes fréquences, ce quon appelle aujourdhui une série de Fourier. De cette manière, nimporte quelle courbe périodique, même discontinue, peut être décomposée en une somme de courbes parfaitement lisses. Les séries de Fourier ont été restreints à lanalyse de signaux périodiques, or, on sait bien quune grande partie des signaux sonores extraits des sons qui nous entourent ne sont pas périodiques, ou bien quils sont plus ou moins périodiques, et que leurs composantes spectrales changent constamment dans le temps. Gabor (1947) a défini la représentation dun signal dans un plan Temps-Fréquence (voir premier chapitre), cest-à-dire, une représentation bi-dimensionnelle où chaque point correspond à un intervalle de temps limité et à un intervalle limité de fréquence. On peut facilement obtenir cette représentation avec la convolution dun signal sur un point dans le temps avec un "grain", qui consiste en un signal de fréquence avec une enveloppe limitée temporellement (une fenêtre) quon applique à ce "grain" (Arfib, 1991). Ce procédé est équivalent à la transformée de Fourier à court terme (Short-Time Fourier Transform, ou STFT), approche qui a été développé ultérieurement à la théorie de Gabor. De nos jours, lanalyse dun signal se fait dans la plupart des cas avec une fenêtre danalyse équivalente à un "grain" qui existe dans le plan Temps-Fréquence. Ce "grain" où quantum sonore constitue la particule élémentaire de la représentation granulaire dun signal. On a discuté dans le premier chapitre la vision continuiste de la matière relative aux séries de Fourier (Wiener, 1964). La théorie de Fourier a bénéficié lanalyse des signaux périodiques, cest-à-dire, les caractéristiques de fréquence dun son, mais elle na pas considéré laspect temporel (cest-à-dire, le changement dun signal dans le temps). Néanmoins, après les théories quantiques du son de Gabor, de Wiener et de Moles, différents mathématiciens ont pris conscience quil était important de trouver des algorithmes afin de bien représenter les deux domaines du son, celui de la fréquence et celui du temps. Cette tâche a été fort difficile, car il y a toujours des paradoxes quantiques qui se suscitent quand on veut trouver une représentation fine dans les deux domaines en même temps.
Le paradoxe dindéterminisme de Heisenberg est applicable aux techniques danalyse-synthèse. Quand on veut réaliser une analyse fine dans le domaine de la fréquence dun signal, il faut utiliser une fenêtre (ou "grain") danalyse longue, et par contre, quand on a besoin dobtenir une bonne résolution dans le domaine temporel du signal, il faut utiliser une fenêtre danalyse petite. Or, il y a des signaux sonores où lon a besoin davoir en même temps une bonne résolution danalyse dans les deux domaines. Cest le cas de la parole, où interviennent deux composantes très différentes: les voyelles (signal long et assez bien localisé en fréquence) et les consonnes (signal qui délivre une information sur des échelles de temps qui peuvent être très petites) (Meyer, Jaffard, Rioul, 1987). Les recherches de Gabor (1947) sur la représentation dun signal dans le plan Temps-Fréquence avec lutilisation des "grains élémentaires" danalyse, ont favorisé des recherches ultérieurs qui ont abouti à la création de lalgorithme de la transformée de Fourier à fenêtre glissante (nommé aussi transformée de Fourier à court terme), cest-à-dire, la réalisation de plusieurs analyses de Fourier dans le temps au moyen dune fenêtre danalyse qui se déplace. Or, linconvénient majeur de ce procédé est que la longueur de la plage de la fenêtre est fixée une fois pour toutes et que lon ne peut pas analyser simultanément des phénomènes dont les échelles de temps sont différentes.
En faisant lanalyse spectrale de la parole au moyen des méthodes danalyse-synthèse telles que le Vocodeur de Phase, on éprouve une inexactitude due au problème davoir une fenêtre danalyse de taille fixe qui ne change pas dans le temps. Pour essayer de résoudre ce problème, on cherche un compromis entre le domaine du temps et le domaine de la fréquence en choisissant une fenêtre de taille moyenne, mais notre analyse reste pourtant inexacte. La technique danalyse-synthèse qui utilise lalgorithme de la transformée en ondelettes (développé dans les années 80s) a pu privilégier en même temps les différentes échelles de résolution dun signal sonore. Les ondelettes sont des fonctions élémentaires (ou "grains" élémentaires) construites à partir dune ondelette "mère" analysante. Ces fonctions se construisent par translation et contraction ou dilatation dans le temps. Notre ondelette "mère" nous fournit des petites ondelettes pour détecter des changements rapides du signal sonore dans le temps, et des ondelettes plus longues pour avoir une bonne résolution en fréquence. Dun point de vue psychoacoustique, la transformée en ondelettes paraît être mieux adapté que les autres méthodes danalyse-synthèse à lanalyse de signaux sonores non stationnaires, car elle privilégie laspect temporel à petites échelles et laspect de la fréquence à grandes échelles. Néanmoins, selon Kronland-Martinet et Grossmann, pour avoir une description plus détaillée en termes de fréquence, il est parfois convenable dutiliser la transformée de Fourier à court terme (Kronland-Martinet & Grossmann, 1991). Dès nos jours, la méthode des ondelettes semble être une des plus efficaces et prometteuses de toutes les méthodes danalyse-synthèse, mais "on peut conclure avec certitude quau sujet de lanalyse-synthèse il ny a pas de panacée universelle et que chaque cas a son approche personnelle" (Kronland-Martinet & Grossmann, 1991). Un de nos buts dans ce chapitre sera létude des différentes méthodes développées pour représenter un signal sonore en partant des théories quantiques du son, et de discuter les avantages et les aspects problématiques de chacune.
Lapparition des techniques granulaires qui exécutent lanalyse-synthèse dun signal sonore a été fondamentale pour lexploration du domaine du timbre. "Cette exploration peut nous éclairer sur la perception et la compréhension du timbre; elle nous conduit à des modèles simplifiés permettant de réduire les données lors de la synthèse; elle utilise des modèles de transformation du son dorigine, soit afin de réaliser un traitement musical classique (par exemple, en variant indépendamment hauteur, durée, articulation et intensité) soit pour étendre les ressources du timbre (réorganisant à volonté les variations complexes extraites de lanalyse dans le but dobtenir des sons riches et nouveaux)" (Risset, Wessel, 1982).
Avec lexploration du domaine du timbre on est arrivé à la conclusion quil fallait effectuer une modélisation spectrale des sons pour connaître leurs caractéristiques psychoacoustiques essentielles et pour pouvoir effectuer ensuite une imitation ou une possible modification des sons à partir des modèles spectraux obtenus en utilisant différentes techniques de synthèse. La modélisation spectrale se fait avec lanalyse des sons au moyen de lalgorithme de la transformée de Fourier à fenêtre glissante, de ses variantes, et dautres algorithmes qui ont été développés à partir de ceux-ci. Dès les années soixante, des compositeurs et chercheurs comme J.C. Risset se sont intéressés à la modélisation spectrale des sons instrumentaux. Risset a réalisé des expériences pour imiter des tons de trompette par synthèse additive (Risset, 1966), en faisant dabord plusieurs analyses de Fourier successives du signal sonore pour essayer de décrire lévolution de chaque partielle de la trompette. Létude des sons de trompette lui a permis disoler une propriété quon peut considérer comme un modèle des sons cuivrés: la proportion dharmoniques aigus du spectre senrichit avec lintensité. Donc, si lintensité change au cours dune note, le spectre change aussi (Risset, 1966). La découvert de cette propriété et la création dun modèle a permis laccomplissement des sons cuivrés en partant dautres techniques de synthèse qui nont pas besoin dutiliser un grand nombre de données ni deffectuer une analyse préalable à la synthèse. Ceci est le cas de la technique de Modulation de Fréquence, très efficace pour la commande de spectres dynamiques grâce au paramètre de lindex de modulation (Chowning, 1973).
Figure 1.- Cadre conceptuel du processus danalyse et de synthèse selon J.C. Risset et D. Wessel.
Jean Claude Risset a été lun de premiers chercheurs à formuler lidée dune technique darticulation sonore au niveau du micro domaine (cest-à-dire, au niveau du timbre), en employant lordinateur comme outil de synthèse.
"Lordinateur, utilisé comme outil de synthèse, permet délaborer à volonté la structure du son et de pousser le travail de composition jusquau niveau de la microstructure: le musicien qui ne se contente pas de composer avec des sons peut envisager de composer le son lui même" (Risset, 1985, 1991).
Les techniques danalyse-synthèse ont eu une grande importance pour parvenir à larticulation musicale du son dans le micro-domaine du timbre. Les compositeurs sont maintenant en mesure daccéder au continuum de ce micro-domaine pour effectuer des métamorphoses et des transmutations de timbre, et pour pouvoir concevoir la création dun espace de timbres "qui représenterait de façon adéquate les différences perceptives et qui pourrait servir comme une sorte de carte susceptible de guider dans sa navigation le compositeur qui sintéresse à structurer des aspects du timbre" (Wessel, 1973). Toutefois, il faut tenir compte que cet espace de timbres nest pas linéaire; pour cette raison, la recherche destinée à établir des règles pour une nouvelle syntaxe du son au niveau micro a été difficile, et encore aujourdhui on travaille assidûment dans cet domaine peu aisé.
Les techniques danalyse-synthèse ont été importantes et même essentielles pour explorer les propriétés spectrales du son et pour "composer" et transformer la micro-structure dun son; cependant, lutilisation de ces techniques afin deffectuer la synthèse dans le macro-domaine sonore savère encore peu efficace, et lente du point de vue du calcul par rapport à certains techniques de synthèse traditionnelles (Additive, AM, FM, etc). Dautre part, quand on effectue lanalyse-synthèse dun signal, la manipulation des données est parfois compliquée, car il est impératif de prendre en compte le facteur psychoacoustique. Il y a des éléments dans une analyse qui ne sont pas forcément importants pour la perception auditive, comme dans le cas du rapport des phases dans un signal sonore complexe. Cependant, selon Risset et Wessel "seulement les méthodes danalyse-synthèse peuvent permettre des transformations sonores intimes" (Risset, Wessel, 1982), comme cest le cas du contrôle fine des partiels dun signal et la modélisation de son spectre au moyen dun filtrage très précis. Davantage, ces méthodes rendent possible la réalisation dune très riche variété de manipulations sonores: la réalisation dinterpolations entre différents timbres, divers types de synthèse croisée, des convolutions, des changements déchelle temporelle dun son sans changement de fréquence (ou changement de fréquence sans changement de durée), et beaucoup dautres traitements de signaux intéressants. Or, seulement laugmentation de la vitesse de calcul des ordinateurs actuels et une connaissance approfondie des phénomènes psychoacoustiques peuvent permettre aux chercheurs et aux compositeurs un travail plus souple et plus efficace au moment dutiliser ces méthodes.
Le grand souci pour développer des algorithmes puissantes pour bien représenter un signal sonore dans le plan Temps-Fréquence a entraîné les chercheurs à créer des outils de synthèse qui sont toujours en fonction de lanalyse et des aspects psychoacoustiques de notre perception auditive. Le résultat de la re-synthèse doit alors être toujours contrôlé, et la reconstruction du signal doit souvent respecter certains rapports dorigine comme dans le cas des phases. Bien sur, sans contrôle on ne peut pas prévoir le résultat synthétique de la manipulation dune analyse, mais comme on sait bien, quand il sagit de créer des sons nouveaux, on agit souvent avec lintuition et avec le principe expérimental "dessai et derreur" ("trial and error"). Parfois même, des erreurs nous offrent des résultats plus intéressants que les produits dune manipulation contrôlée. Enfin, ce que je voudrai exprimer cest quil existe la possibilité de développer des outils danalyse-synthèse qui ne sont pas forcément en fonction dun résultat contrôlé. Ce serait le cas dune idée que je nai pu développer et mettre en place. Que se passerait-il si lon essayait davoir un contrôle stochastique sur les fenêtres danalyse dun signal sonore avant deffectuer la re-synthèse?. Bien sûr, on perdrait le contrôle sur le rapport dorigine entre les phases, et on aurait comme résultat des produits sonores étranges au signal dorigine, mais ce résultat pourrait être intéressant du point de vue musical. Jai été intéressé par la possibilité utopique de relier les techniques granulaires danalyse-synthèse aux techniques de synthèse granulaire synchrones, presque synchrones et asynchrones, pour pouvoir travailler dans le micro et le macro-domaines du temps de façon simultanée. Apparemment, ceci constitue un paradoxe sans solution, car perdre le contrôle dans la re-synthèse signifie aller contre le principe même des techniques danalyse-synthèse où lintérêt est détablir des conditions dadmissibilité au moment deffectuer linversion de lanalyse pour pouvoir recréer le signal sonore dorigine. Néanmoins, on pourrait tout de même effectuer des transformations danalyse traditionnelles (telles que la dilatation dans le temps que réalise un Vocodeur de Phase sur un son sans modifier sa fréquence) mais en introduisant des effets stochastiques sur les fenêtres danalyse dans certains endroits de lanalyse des transformations, et en perdant donc le contrôle du résultat sonore sur certaines portions de la re-synthèse. Je ne sais pas si limplémentation dun contrôle discontinu et flexible des fenêtres danalyse vaut vraiment la peine, mais la possibilité existe, et des effets sonores nouveaux et intéressants pourraient surgir de cette idée. Il faudra peut-être toujours accepter que les techniques danalyse-synthèse servent seulement à travailler dans le micro-domaine du timbre et de façon contrôlée, et que pour relier les deux domaines du temps (micro et macro) il faudrait plutôt essayer dutiliser les techniques granulaires formantiques (voir prochain chapitre), ou la synthèse granulaire traditionnel utilisée en même temps dans sa modalité synchrone, presque synchrone et asynchrone (voir deuxième chapitre). Toutefois, jessaierai de développer davantage cette idée dans ce chapitre, et de parler aussi des différents essais réalises dans cette direction.
I.- Lalgorithme de la transformation de Fourier et ses variantes.
1.- La transformation de Fourier.
Le timbre est un phénomène très complexe qui n'est pas facile à caractériser en comparaison de la fréquence et de l'intensité du son, car l'évolution du timbre d'un son a plusieurs variables qui changent d'une façon non-linéaire. Grâce au travail théorique de Hermann Von Helmholtz (théoricien du XIX siècle) on sait qu'un ton est constitué par une forme d'onde avec une enveloppe d'amplitude qui consiste en trois parties, le début, l'état stable, et la chute. Helmholtz parvient à la conclusion que les sons qui nous donnent une sensation de fréquence ont une forme d'onde régulière, et il se rend compte que la nature de la forme d'onde va déterminer le timbre d'un son (Helmholtz, 1877). Pour arriver à en savoir davantage sur la relation entre la forme d'onde et le timbre, Helmholtz utilise les recherches de Jean-Baptiste Fourier qui démontre qu'une fonction périodique peut être représentée comme l'addition d'une ou plusieurs sinusoïdes (sinus et cosinus) de différentes fréquences (cest-à-dire, comme une série de Fourier). Chacun de ces sinusoïdes est caractérisé par sa fréquence, son amplitude et sa phase, et le changement dans le temps des trois paramètres (particulièrement les deux premiers) de chaque sinus va modifier la qualité de ce son, c'est-à-dire, le timbre. Helmholtz découvre aussi que n'importe quel signal (périodique ou non périodique) peut être défini par son amplitude par rapport au temps (forme d'onde), et par sa distribution d'énergie par rapport à sa fréquence (spectre). Grâce à un procédé mathématique complexe ("Transformée de Fourier") on peut obtenir aujourdhui le spectre d'une forme d'onde, c'est-à-dire, ses différentes composantes en fréquence avec leurs caractéristiques qui vont déterminer la qualité du timbre.
Il faut bien faire la différence entre une "série de Fourier" et une "transformée de Fourier". Les "séries de Fourier" sont utilisées seulement pour lanalyse de signaux périodiques. Des tels signaux sont constitués par la superposition dune onde sinusoïdale fondamentale et des divers harmoniques dont les fréquences sont les multiples entiers de la fréquence fondamentale. Les amplitudes de ces différentes fréquences sont calculées par de formules connues depuis le siècle dernier. Ces amplitudes sont appelées "coefficients de Fourier". Pourtant, pour analyser des signaux non périodiques on doit recourir à une intégrale de Fourier: la méthode utilisée consiste à représenter le signal étudié avec une superposition dondes sinusoïdales de toutes les fréquences possibles; les amplitudes associées à chaque fréquence forment une fonction de la fréquence ¶ que les physiciens appellent "spectre continu des fréquences du signal": cest la transformée de Fourier du signal s(t), notée S(¶). Cette transformée est égale à lintégrale pour toutes les valeurs du temps du produit du signal s(t) par la fonction e2ipft . On la calcule à laide de lintégrale de Fourier:
S(¶) = Ú - + s (t)e2ipft
Une fonction et sa transformée de Fourier représentent deux aspects de la même information. La fonction met en évidence linformation sur le temps et cache linformation sur les fréquences, pendant que la transformée de Fourier révèle linformation sur les fréquences et cache linformation sur lévolution temporelle. Pourtant, la fonction et sa transformée contiennent chacune linformation complète du signal: on obtient une transformée à partir de la fonction, et on reconstruit la fonction à partir de la transformée.
Lanalyse de Fourier a aidé à comprendre certains phénomènes naturels (telles que le comportement de marées) en aidant à résoudre numériquement certaines équations qui au dernier siècle restaient réfractaires. Pour une sorte importante déquations différentielles, la transformation de Fourier remplace une équation compliqué par une série déquations simples (Burke, B. 1995). Dautre part, lanalyse de Fourier a été très utile pour le champ des télécommunications, car on peut déplacer les fréquences dune voix vers dautres fréquences, afin de la transmettre parmi bon nombre dautres voix sur une seule ligne téléphonique.
2.- La transformée de Fourier rapide (FFT).
Bien que puissante, lalgorithme de la transformée de Fourier exige de longs et pénibles calculs mathématiques. Toutefois, en 1965 Cooley et Tukey ont établi un raccourci mathématique qui réalisait ces calculs en seulement quelque secondes à laide dun ordinateur. Ils ont nommé leur algorithme "Fast Fourier Transform" (FFT). Lidée fondamentale de la FFT fut déjà pressentie par Carl Friedrich Gauss en 1805. Selon le mathématicien Gilbert Strang, du MIT, "lalgorithme qui a le plus changé notre société est la FFT. Des industries entières sont passées de la lenteur à la rapidité grâce à cette seule idée qui est de la mathématique pure" (Strang, G. 1993).
La FFT a eu un succès important à cause de son efficacité, et pour cette raison elle a été employée parfois dans des problèmes auxquels elle est inadaptée. Selon Meyer, la FFT ne convient ni a tous les signaux ni a tous les problèmes. Par exemple, si nous jouons une note basse, puis une note plus haute en fréquence, le spectre du signal est très diffus et il est très difficile dy discerner les deux fréquences émises; de plus, lordre dans lequel sont joués les notes napparaît pas de façon claire dans lanalyse (Meyer, Jaffard, Rioul, 1987). Lanalyse de Fourier se prête seulement à la résolution des problèmes linéaires pour lesquelles leffet est proportionnel à la cause. La résolution des problèmes non linéaires est plus compliqué car il est difficile de prédire le comportement des certains systèmes dont une infime variation de paramètres peut bouleverser le résultat. Dautre part, linconvénient de lintégrale de Fourier est quelle décompose le signal sur des fonctions sinusoïdales qui oscillent indéfiniment dans le temps, et nous savons que plus un signal est court dans le temps, plus il contient de composantes sinusoïdales damplitudes significatives (inversement un signal sinusoïdal infini correspond à une seule fréquence). Ce problème dinteraction entre le domaine du temps et le domaine de la fréquence a conduit à la création dun algorithme de Fourier qui fonctionne dans un plan temps-fréquence comme on le verra tout de suite.
3.- La transformée de Fourier à fenêtre glissante ou transformée de Fourier à courte terme (STFT).
Avec la "Transformée de Fourier" on peut effectuer l'analyse d'un instant du comportement d'un signal sonore; alors, seulement s'il s'agit d'un signal régulier qui change très peu, on peut avoir une idée claire de son spectre (la structure de ses composantes spectrales), mais en réalité, presque tous les signaux sonores changent radicalement dans le temps, c'est-à-dire, que l'amplitude de leurs fréquences composantes (sinusoïdes) changent et transforment leurs timbres. On a mentionné au premier chapitre les critiques faites par divers physiciens de ce siècle sur la mauvaise utilisation de la transformation de Fourier pour analyser le son. Wiener en premier et après Gabor, ont constaté quil fallait considérer le facteur temps dans la décomposition dune fonction quelconque par une transformée de Fourier.
"Pour pouvoir définir le timbre d'un son on doit considérer le nombre d'oscillations (fréquence), plus le devenir de ces oscillations dans le temps. Le problème pour décrire le spectre d'une note est que l'interaction entre la fréquence et le temps est extrêmement complexe" (Wiener, 1964).
Dautre part, Wiener sest aperçu quil nétait pas possible danalyser un son et davoir une précision dans le domaine de la fréquence et dans le domaine du temps de manière simultanée, et il a établi un comparaison entre ce phénomène et le principe dincertitude de Heisenberg.
"Si on veut analyser une note qui dure un temps défini, on doit la décomposer en une bande d'oscillations harmoniques en mouvement, et il faut prendre en considération quaucune de ces oscillations ne pourra être prise comme la seule oscillation harmonique présente. Une précision temporelle aura comme conséquence un manque de précision des fréquences, et pour obtenir une précision des fréquences on ne devra pas tenir compte du domaine temporel" (Wiener 1964, pages 544, 545).
Gabor a été le premier à proposer une méthode danalyse sonore dérivée de la physique quantique. Il sest rendu compte quil fallait représenter le signal à la fois en fonction de la fréquence et du temps, car une bonne représentation en fréquence doit prendre en considération la durée des notes émises. Il a donc proposé un procédé plus efficace pour analyser un signal musical qui consiste à décomposer le signal en fonctions limitées dans le temps afin danalyser des fragments indépendants (en utilisant lanalyse traditionnelle de Fourier). Ces fonctions constituent des "grains élémentaires" danalyse, et la décomposition du signal à partir de ces fonctions constitue lanalyse temps-fréquence.
La théorie de Fourier - qui a été centrée sur laspect de la fréquence - navait son pôle complémentaire, le temps. Gabor a heureusement réuni les deux frères jadis séparés, et il a éliminé laspect continuiste de lanalyse de Fourier en introduisant le facteur temps. La représentation temps-fréquence dun signal sonore est une représentation discrète et de caractère granulaire. Cette représentation met en jeu deux opérations réciproques: lanalyse et la synthèse. Au moyen de lanalyse, on décompose un signal sonore en fonctions élémentaires reliées à la transformation de Fourier; ces fonctions de type sinusoïdal dépendent seulement du paramètre de la fréquence, mais les coefficients que lon affecte à chaque fonction élémentaire pour décomposer notre signal nous donnent une information directe sur les propriétés temporelles et de fréquence du signal. On calcule ces coefficients en faisant la somme en continu (lintégrale) du produit du signal s(t) par la fonction élémentaire ya.b. (t) (Meyer, Jaffard, Rioul, 1987):
Ca.b. = Ú - + s (t) ya.b. (t) dt
Lanalyse temporelle de Gabor découpe le signal de façon arbitraire en plages de longueur limitée. Ceci constitue une décomposition du signal sur des fonctions élémentaires ya.b. qui dérivent toutes dune même "fonction fenêtre" y(t) par translation en temps et modulation en temps. Cette décomposition est appelée "La transformée de Fourier à fenêtre glissante", car, quand on a analysé un segment du signal, on fait glisser la fenêtre au long du signal pour analyser un autre.
Avec la conception quantique de Gabor sur le besoin davoir une représentation "granulaire" temps-fréquence du son, et lapplication ultérieure de la transformée de Fourier à fenêtre glissante sur ordinateur (on lappelle aussi transformée de Fourier à court terme ou STFT), on a résolu le problème majeur des physiciens (tels que Helmholtz) qui nétaient pas capables de décrire lévolution temporelle des composantes spectrales dun son. Toutefois, lidée davoir une fonction fenêtre de taille fixe pour effectuer lanalyse dun son a impliqué de sérieux compromis. Quand la fenêtre danalyse est étroite, on peut localiser les changements soudains du signal (tels que les pics et les discontinuités) mais on devient aveugle aux basses fréquences du signal (de période trop grande pour entrer dans la petite fenêtre). Par contre, quand la fenêtre danalyse est large, on ne peut pas préciser linstant où se produit un pic ou une discontinuité, car linformation est noyée dans la totalité de linformation qui correspond à la longueur de la fenêtre choisie. Ce paradigme indéterministe apparemment sans solution avait été déjà prévu par Wiener en 1925. On verra au cours de cet chapitre comment il va acquérir un rôle central dans le développement des différentes techniques danalyse-synthèse, ainsi que les différentes idées qui ont été proposées pour essayer de le résoudre, mais à la fin, le principe quantique dincertitude constituera toujours un obstacle pour connaître la réalité, et une résolution globale parfaite dans les domaines du temps et de la fréquence restera toujours irréalisable.
II.- Le Vocodeur de Phase.
Le Vocodeur de Phase a été à lorigine dune série de techniques de codage de la voix crées pour essayer de réduire la quantité de data transmise dans la communication électronique de la parole. Son prédécesseur a été le Vocodeur à Chenaux (Channel Vocoder). Tous les Vocodeurs essaient de modeler leur signaux dentrée - la parole en particulier - en une multiplicité de chenaux dont chacun décrit lactivité dune région particulière du spectre du signal dentrée. Le Vocodeur de Phase est un algorithme de traitement de signal qui appartient aux techniques danalyse-synthèse. Avec cette méthode, un signal dentrée peut être représenté par un modèle mathématique dont les paramètres changent au cours du temps, et ce modèle peut servir ensuite pour reconstruire le signal de façon identique ou bien être modifié pour créer un nouveau signal.
Dans le Vocodeur de Phase , le signal est modelé comme une addition des ondes sinus, et les paramètres à déterminer par lanalyse sont lamplitude et la fréquence de chaque onde sinus et leur variance dans le temps. Le signal analysé ne doit pas avoir forcement des sinus avec un rapport harmonique; on peut analyser une grande variété de signaux musicaux tel que des sons dinstruments à vent, à cuivres, à cordes, la parole et quelques instruments de percussion. Néanmoins, certains sons de percussion et dautres signaux sonores avec des caractéristiques de bruit ne sont pas bien représentés par une addition des ondes sinus. Ces signaux peuvent être parfaitement bien reconstruits par le Vocodeur de Phase, mais si lon veut modifier lanalyse avant la re-synthèse, on ne peut pas prédire le résultat.
1.- Linterprétation dune banque de filtres.
Il y a deux façons différentes et complémentaires denvisager le Vocodeur de Phase (équivalentes du point de vue mathématique); la première est une interprétation dune banque de filtres et la deuxième une interprétation de la transformation de Fourier (Dolson, 1986). Dans la première interprétation on a une banque de filtres fixe de type bandpass avec la sortie de chaque filtre représentée comme une amplitude et une fréquence qui varient dans le temps (Figure 2). Les filtres ont tous la même forme de bande, la même réponse de fréquence, et la même phase linéaire. Dautre part, les fréquences centrales des filtres sont séparées de manière équidistante. Quand les filtres sont alignés en fréquence, chaque filtre extrait exactement un harmonique du signaux et la re-synthèse peut alors être comprise comme une banque doscillateurs donde sinus où la variation damplitude et de fréquence de chaque oscillateur est contrôlée par les sorties de filtres correspondantes .
Figure 2.- Linterprétation dune banque de filtres (Dolson, 1984).
Il faut tenir compte quavec les sons inharmoniques et polyphoniques on a besoin dun plus grande nombre de filtres pour représenter les signaux sonores, car les partiels ne sont pas écartés de manière équidistante, et on a toujours besoin davoir un filtre pour chaque partiel pour bien représenter ces signaux. Si on na pas de filtres suffisants, différents partiels peuvent agir entre eux dans un seul filtre, et on perd linformation sur la fréquence individuelle de chaque partiel. En plus du nombre de filtres, il nous faut aussi déterminer la réponse en fréquence des filtres (ou largeur de bande). Avec une réponse de fréquence pointue (petite largeur de bande) le filtre mettra longtemps à répondre aux changements du signal dentrée, mais on aura une définition en fréquence plus fine car il ny aura pas dinteraction possible entre les partiels des différents filtres. Par contre, avec une largeur de bande plus large on aura une réponse de temps plus rapide, mais avec un chevauchement des fréquences entre les filtres bandpass qui sont voisins. Nous retrouvons ici le paradigme dincertitude inhérent à la représentation dun signal dans le plan temps-fréquence; on ne peut pas avoir une bonne définition globale du signal, il faut donc choisir et établir un compromis entre une bonne définition de fréquence et une bonne définition de temps. Linterprétation dune banque de filtres privilégie le domaine de la fréquence. Cette vision est dans un certain sens continuiste, car elle envisage surtout la représentation des signaux périodiques plutôt statiques. Pour comprendre comment fonctionne le Vocodeur de phase avec des signaux non périodiques, il nous faudra considérer la deuxième interprétation qui est beaucoup plus puissante, reliée aux techniques danalyse-synthèse qui ont une conception "granulaire".
2.- Linterprétation de Fourier.
Cette interprétation de lanalyse du Vocodeur de Phase consiste en une succession des transformées discrètes de Fourier de durée limitée et chevauchées (Figure 3). Ici, le Vocodeur de Phase se déplace dans le temps en prenant des "photos" du spectre qui évolue, et pour la re-synthèse, il prend la transformée discrète de Fourier inverse de chaque "photo" spectrale en chevauchant les signaux finis résultants et en les additionnant à nouveau (Dolson, 1984). Dans linterprétation dune banque de filtres, laccent est mis sur la succession temporelle des valeurs de magnitude et de phase (fréquence) dune seule bande de filtre. Par contre, linterprétation de Fourier met laccent sur les valeurs de magnitude et de phase de toutes les différentes bandes de filtres à un certain moment dans le temps (Figure 4).
Dans linterprétation de Fourier, il faut tenir compte de la forme de la fenêtre danalyse car lopération de fenêtrage barbouille le spectre du signal. Le barbouillage augmente quand la taille de la fenêtre devient plus petite. La fonction fenêtre a le même rôle que la réponse du filtre dans linterprétation du Vocodeur de Phase dune banque de filtres. Une petite fenêtre est équivalente à une réponse du filtre plus lente (une grande largeur de bande du filtre), et donne une bonne définition en temps mais une mauvaise définition en fréquence, alors quune fenêtre plus longue est équivalent à une réponse du filtre plus net (une petite largeur de bande du filtre) et donne une bonne définition en fréquence mais une mauvaise définition en temps. Linterprétation de Fourier souligne le coté temporel mais aussi laspect de la fréquence, car on peut choisir la taille de la fenêtre et lécartement entre les fenêtres danalyse. Disons que cette interprétation est plus souple que linterprétation dune banque de filtres, car elle fonctionne mieux dans le deux sens. Cette interprétation utilise lalgorithme de la transformée de fourier à court terme (STFT), cest-à-dire, une transformée de Fourier à fenêtre glissante, et comme on lavait déjà vu, la taille de la fenêtre va jouer un rôle décisif pour lanalyse du signal. Le grand inconvénient est que la taille de la fenêtre est fixée une fois pour toutes, et quon ne peut donc avoir au même temps une bonne résolution dans le deux domaines (temps et fréquence). Quoi faire pour résoudre ce problème?. On verra dans ce chapitre comment certaines techniques ont essayé de modifier la taille de la fenêtre au cours du temps, ou davoir différents types de grains danalyse, certaines pour trouver une bonne résolution en fréquence et dautres pour trouver une bonne résolution en temps.
Figure 3.- Linterprétation de la transformation de Fourier (Dolson, 1984).
Figure 4.- Interprétation dune banque de filtres vs linterprétation de la Transformation de Fourier.
3.- Applications.
La tache principale du Vocodeur de Phase est la séparation entre linformation temporelle et linformation spectrale, en divisant le signal en une série de bandes spectrales qui évoluent dans le temps. Cette stratégie réussit seulement quand le signal de chaque bande évolue lentement. Sil y a plus dun partiel dans la bande ou un changement brusque de lamplitude ou de la fréquence, alors le Vocodeur de Phase est mal adapté pour analyser un signal. Un autre problème trouvé avec cette technique est que même si le signal de sortie contient des composantes sinusoïdales avec des amplitudes et des fréquences appropriées, les phases de ces composantes ne coïncident pas toujours avec celles du signal dentrée. Parfois cet effet nest pas audible, mais quand il agit sur le signal, il devient plus réverbérant que le signal dorigine (Moore, 1990).
Le Vocodeur de Phase a été utilisé depuis les années soixante-dix pour analyser des tons instrumentaux et déterminer lévolution de leurs partiels. Ces recherches ont contribué à la connaissance des phénomènes psychoacoustiques sur la perception du timbre (Grey et Moorer, 1977). Cependant, lintérêt principal de cette technique sest centré sur la transformation des signaux sonores dans le domaine de la musique. Les opérations qui ont été le plus utilisées sont la dilatation/contraction en temps, la transposition de fréquence, et le filtrage temporel des fréquences, mais on a aussi développé dautres transformations du signal telles que la synthèse croisée .
a) La dilatation/contraction en temps dun signal.
Changer la durée dun son est une des techniques électroacoustiques les plus utilisées; elle est comparable à lutilisation de la dilatation et de la contraction des motifs mélodiques et rythmiques dans la composition musicale. Le changement de durée dun signal sonore a été restreint au début à lutilisation des premiers disques et des premiers magnétophones. Le procédé était simple: on changeait la vitesse du disque ou de la bande magnétique. Avec les premiers ordinateurs, on pouvait effectuer le même effet en changeant le taux déchantillonnage dun signal, mais avec tous ces procédés, un changement de vitesse contribuait toujours aussi à un changement de la fréquence du son.
Le Vocodeur de Phase peut effectuer une variation temporelle dun signal sonore sans modifier sa fréquence. Ceci est faisable, car on peut rapprocher ou écarter les tronçons danalyse spectrale (transformées de Fourier discrètes) au moment de la re-synthèse (Figure 5). Le seule problème quon rencontre est que pour avoir un signal résultant sans aucun produit sonore indésirable il faut remettre en échelle les phases du signal original, et ceci peut parfois être compliqué. Il nest pas obligatoire que le changement temporel du signal soit fixe; on peut faire varier la dilatation ou la contraction dun son dans le temps de façon non linéaire (Figure 6).
On a discuté dans le premier et le deuxième chapitres les techniques granulaires qui nutilisent pas une analyse préalable du signal sonore. Ces techniques ont développé lidée de dilatation et de contraction du son sans changement de fréquence depuis 1946 avec la construction du mécanisme de Gabor "Kinematical Frequency Converter" basé sur un projecteur modifié du film de 16-mm avec une piste sonore optique (voir premier chapitre). Otis, Grossmann et Cuomo ont réalisé la technique de granulation temporelle sur ordinateur à lUniversité dIllinois depuis 1968 mais avec certains problèmes dus à labsence denveloppes (voir deuxième chapitre). Donc, la technique avait déjà été exécutée par dautres moyens, qui cependant ne considéraient pas une bonne reconstruction du signal. Il faut reconnaître que dans ce sens là, le résultat du Vocodeur de Phase est plus propre malgré la difficulté de remettre les phases en échelle. Toutefois, lavantage de la granulation temporelle effectuée par des techniques granulaires qui ne font pas une analyse préalable est quon na pas besoin deffectuer un long calcul, ce qui donne la possibilité deffectuer les transformations sonores en temps réel en utilisant des ordinateurs peu puissants. Dautre part, avec ces techniques, on sait préalablement quon naura pas une certitude totale du résultat car on ne contrôle pas les phases; donc, on a une approche beaucoup plus libre et souple pour contrôler les grains (voir deuxième chapitre). Il est curieux que des techniques danalyse-synthèse comme le Vocodeur de Phase naient pas envisagé davoir un contrôle stochastique des fenêtres danalyse, même sil y a une perte de contrôle sur la phase.
Dautres techniques danalyse-synthèse réalisent le changement déchelle temporelle dun signal avec certains différences dapproche. Certaines par exemple, sont plus efficaces pour remettre les phases en échelle, comme cest le cas de la technique de Jones et Parks (1988) quon discutera dans ce chapitre.
Figure 5.- Façon classique de déployer les grains dans le temps (Arfib, 1991).
Figure 6.- Variations du changement temporel dun signal.
b) Transposition de fréquence sans changement de durée.
Le fait de pouvoir modifier la durée dun son sans laltération de sa fréquence nous donne la possibilité de modifier sa fréquence sans altérer sa durée. Si on veut transposer dune octave par exemple, il suffit de dilater deux fois dans le temps et puis jouer le son deux fois plus vite (doubler son taux déchantillonnage). Ceci permet dajuster laccordage dun son, mais si la transposition est trop grande, on a une déformation du timbre car elle change la structure spectrale du son. Avec la parole ce phénomène est très palpable parce que les régions formantiques sont modifiées et le sens du langage devient incompréhensible (quand la transposition est dune octave ou plus). Toutefois, selon Dolson (1984) on peut utiliser un algorithme qui déforme lenveloppe spectrale pour lui rendre sa forme original au moment deffectuer la lecture du son à une vitesse différente.
Avec la synthèse granulaire traditionnelle on a réalisé des expériences de transposition sans changement de durée, mais en général on effectue en même temps des changements déchelle temporelle. On décide le taux de changement temporel en choisissant le temps absolu de synthèse, et ensuite on transpose les grains. Avec le programme SAM de Barry Truax sur le processeur DMX-1000, on peut même avoir plusieurs transpositions de grains simultanées, ce qui donne un effet semblable à un harmoniser (Voir chapitre 2). Mis à part le problème de la reconstruction de phases et des subséquents effets de modulation, la transposition dans ces techniques se fait très bien.
c) Filtrage temporel des fréquences.
En général, toutes les techniques danalyse-synthèse sont capables deffectuer un filtrage temporel des fréquences. Dans le cas du Vocodeur de Phase, si on considère linterprétation dune banque de filtres, il est clair quon peut éliminer certaines bandes de filtre ou augmenter lamplitude dautres bandes dans lanalyse, et ensuite synthétiser le nouveau signal transformé. Dans ce sens-là, le Vocodeur de Phase est très proche de la synthèse substractive et de la synthèse additive. On peut utiliser le filtrage temporelle des fréquences pour se débarrasser de certains types de bruit dans le signal dentrée en effectuant lélimination de certaines bandes qui ont une amplitude très petite, pour supprimer toutes les harmoniques paires ou impaires, pour supprimer un nombre fini dharmoniques, pour supprimer une bande de fréquence bien précise, pour rehausser ou atténuer des régions du spectre en fonction de la dynamique du signal, etc. Ces opérations peuvent se situer dans le temps à des instants bien précis et varier sans contrainte. Une bonne implémentation du Vocodeur de Phase, particulièrement efficace pour réaliser différents types de filtrage, est le Super Vocodeur de Phase (SVP) développé à lIRCAM (Depalle, Poirot, 1991), qui est devenu ensuite un logiciel plus sophistiqué par son interface graphique (AudioSculpt). Ce dernier logiciel (Figure 7) peut agir avec le logiciel PatchWork, qui est utilisé pour le contrôle des paramètres.
Le filtrage temporel des fréquences est une modalité du Vocodeur de Phase et dautres techniques danalyse-synthèse véritablement puissantes car on peut sculpter le son dune manière très fine. Ceci constitue à mon avis la modalité la plus idiomatique des techniques danalyse-synthèse pour transformer le son. Avec la synthèse granulaire sans analyse préalable il nest pas possible deffectuer ce type de transformations. Pour réaliser un filtrage précis il faut recourir à dautres techniques.
Figure 7.- Analyse spectrale dun signal sonore réalisé par le Vocodeur de Phase AudioSculpt développé à lIRCAM. Avec ce logiciel on a la possibilité deffectuer différents types de filtrage temporel. Ici on réalise un filtrage par surface. On dessine la surface à filtrer sur le spectre temporel et on donne une valeur de changement damplitude en dB positive ou négatif qui va affecter les fréquences comprises dans la surface.
d) Synthèse croisée.
Linterprétation de Fourier du Vocodeur de Phase rend possible lutilisation des spectres discrets de Fourier dun signal pour modeler de façon dynamique les spectres discrets dun autre signal. Ceci peut se faire avec la multiplication de lanalyse FFT dun son par lenveloppe spectrale dun autre son, qui est parfois estimé par une analyse linéaire prédictive (LPC). On peut aussi réaliser une modulation en anneau (ou convolution en fréquence) entre les deux spectres. Toutes ces opérations peuvent être considérées comme une synthèse croisée entre deux signaux sonores.
Le fait davoir une conception discrète de lanalyse dans linterprétation de Fourier nous permet la modification des paramètres de la synthèse croisée dans le temps. De cette manière on peut déterminer à quel moment on souhaite avoir un croisement entre deux sons.
III.- Granulation temporelle dun signal par analyse-synthèse avec alignement des phases.
On a vu quavec le Vocodeur de Phase on peut trouver des problèmes pour la reconstruction des phases lorsquon effectue un changement temporel dun signal sonore. Jones et Parks (1988) ont proposé une méthode pour effectuer la modification temporelle dun son en extrayant des grains du signal et en récombinant ensuite les grains en alignant leur phases. Lextraction des grains se fait en multipliant chaque échantillon du signal par une fonction fenêtre .
Selon Jones et Parks, on peut décomposer un signal sonore en une série de grains et ensuite le reconstruire avec précision si les fenêtres sont choisies de telle façon que leur addition soit égale à lunité à chaque point. Le but de la technique de Jones et Parks est daffecter la reconstruction du son en écartant les grains, ou en comprimant les grains. Pour une compression par un facteur deux par exemple, on se débarrasse des grains pairs ou impairs et on rapproche ensuite les grains qui restent. Pour dilater un son, on effectue dabord un chevauchement des grains, et ensuite on les écarte. Le problème trouvé avec cette technique est quaprès la transposition temporelle des grains, les phases dans leurs bords peuvent ne pas être identiques, et leur subséquente addition peut produire une interférence destructive qui causerait des battements (Jones, Parks 1988). Un chevauchement damplitudes de fenêtres qui nadditionnent pas lunité pourrait aussi produire des battements non voulus. Pour résoudre ces problèmes, on a effectué lajustement de la localisation du commencement des fenêtres (au moyen dun algorithme puissant) pour que le chevauchement de grains soit en phase. Dans ce cas, lécartement entre les fenêtres nest plus égal.
La technique de Jones et Parks et très flexible car elle permet que la durée des fenêtres, les locations nominales du commencement , et le nombre de grains à être chevauchés, soient complètement indépendants les uns des autres. En outre, cette technique fonctionne bien avec des signaux non périodiques et bruités. Pour cette raison, elle paraît plus puissante que le Vocodeur de Phase pour la réalisation des opérations de dilatation et de compression dun signal dans le temps. Dautre part, avec cette technique on peut aussi réaliser des transpositions du signal; des combinaisons de segments entre deux signaux sonores différents; on peut lappliquer aussi sur différentes bandes de fréquence en créant plusieurs chevauchements de grains dun segment du signal avec un contenu de fréquence différent, en réalisant un filtrage bandpass du signal avant deffectuer le fenêtrage. Certains des ces grains peuvent alors être éliminés sélectivement pour obtenir un effet "dévaporation" décrit par Roads en 1985 (Jones, Parks 1988).
Pour la modification temporelle dun signal il faut faire attention à la durée des grains choisie. Pour la parole, 20 msecs constitue la limite inférieure, car au-dessous, elle devient incompréhensible; dautre part, on peut avoir des problèmes dun manque de synchronisation des grains avec des durées inférieures à 35 msecs. Pour des grains plus longs, la synchronisation des phases nest pas tellement importante et peut être omise. La forme de la fenêtre ne semble pas avoir une grande importance. Toutefois, les fenêtres triangulaires sont très adéquates pour obtenir de bons résultats. Cette technique à été exécutée en temps réel par Jones et Parks avec lappui dun microprocesseur TMS32010.
IV.- Granulation par analyse-synthèse de type Gabor.
On a étudié dans le premier chapitre la théorie quantique de la représentation granulaire dun signal dans le plan temps-fréquence de Gabor. Dans cette théorie, il y a un rapport réciproque entre le signal temporel et sa représentation dans le plan temps-fréquence, et toute linformation est conservée si les valeurs sont données dans une grille rectangulaire (cest-à-dire, une grille à intervalles réguliers despace dans le domaine du temps et de la fréquence) (Figure 8). Gabor a travaillé avec des grains de type sinus (ou cosinus) modulés en amplitude par des enveloppes Gaussiennes et il a montré que pour ces grains il y a une aire limitée dinfluence en temps et en fréquence. Cette notion a été développée plus tard avec le nommé reproducing kernel (noyau reproduisant). Gabor a aussi parlé du principe dincertitude au moment de définir le plan temps-fréquence. Quand on fait une analyse STFT dun signal, au moment de reconstruire le signal avec une re-synthèse, on aura toujours des effets flous, car chaque grain de reconstruction a sa propre transformation de Gabor dans un domaine temps-fréquence limité, et le noyau reproduisant brouille limage de la transformation. Ce phénomène est inévitable, et la seule chose à faire est dessayer de trouver des moyens pour réaliser des analyses qui ne donnent pas trop dartefacts au moment de la reconstruction du signal (Arfib, 1990).
Figure 8.- Grille danalyse de la transformée de Fourier à court terme (STFT). wo et to sont des nombres réels qui dépendent du choix de la fenêtre.
Certains chercheurs comme Daniel Arfib ont beaucoup travaillé avec les techniques danalyse-synthèse qui découlent de la représentation granulaire de Gabor. Ils ont rencontré des problèmes occasionnés par le principe dincertitude, et malgré ceci ils ont essayé de trouver des moyens pour améliorer ces techniques. Il y a toujours des variations très subtiles entre les différentes approches des techniques danalyse-synthèse pour résoudre le problème dune bonne reconstruction du signal et par rapport aux transformations quon réalise au moment de la re-synthèse. Toutefois, il est important danalyser ces différences et de voir jusquoù on peut aller dans le domaine des techniques granulaires danalyse-synthèse. Je vais maintenant aborder la technique de type Gabor développée par Daniel Arfib (1990, 1991) et la comparer avec les autres techniques.
1.- Avantages et désavantages dune analyse de type Fourier.
Lanalyse de Fourier à court terme est utile pour avoir une information sur les phases du signal et pour pouvoir les reconstruire au moment deffectuer la re-synthèse. Toutefois, un des problèmes de cette analyse est que les largeurs de bande sont fixes; les axes verticales de léchelle de fréquence sont linéaires et donc, les octaves de sons harmoniques ne sont pas bien représentées. La perception psychoacoustique du timbre est de type logarithmique (Moles, 1964). Or, pour avoir un bon outil danalyse pour la réalisation des recherches sur la perception du timbre, dautres méthodes sont parfois plus appropriées, comme dans le cas des ondelettes. Néanmoins, quand on veut regarder en détail les composantes spectrales des sons inharmoniques complexes, lanalyse de Fourier peut être plus efficace que la transformation par ondelettes. Dautre part, malgré ses caractéristiques non logarithmiques, selon Arfib les programmes qui utilisent la transformation de Fourier sont bien adaptés pour les méthodes de synthèse par analyse.
2.- Leffet des paramètres dans lanalyse-synthèse de type Gabor.
Dabord, il faut exposer les effets déterminants de certains paramètres au moment de réaliser une analyse de Fourier à court terme. La fenêtre danalyse qui est multipliée par un segment du signal va toujours affecter le résultat de lanalyse, mais on doit forcément utiliser une fenêtre, car si on nen a pas, leffet sur lanalyse empirerait. Les fenêtres le plus utilisées sont Hamming, Hanning et Blackmann. Cependant, Gabor avait décidé dutiliser une fenêtre de Gausse car elle est bien localisée en temps et en fréquence et parce que sa transformation de Fourier naltère pas sa forme. La taille de la fenêtre et lintervalle de temps entre les FFT prises sont aussi deux facteurs importants. On a déjà parlé de leffet de la taille de la fenêtre, qui a une influence décisive sur lanalyse; une longue fenêtre privilégie une résolution en fréquence et une petite fenêtre privilégie une résolution en temps. Dautre part, lécartement entre les différentes FFTs fait varier la résolution de la vue de lanalyse. Un bon compromis pour une analyse est de choisir une FFT de 1024 points avec une fenêtre de type Hanning.
Pour effectuer une analyse de type Gabor, on applique des fenêtres écartées de manière équidistante à un son quelconque et on obtient une série des grains. Pour acquérir une bonne reconstruction du signal sonore au moment de la re-synthèse, laddition des fenêtres danalyse successives doit être égale à 1. La forme de la fenêtre va déterminer la distance entre les fenêtres; si notre fenêtre est carrée la distance est égale à la largeur de la fenêtre; si notre fenêtre est Hanning, la distance doit être égale à la moitié de la durée de la fenêtre. Donc, avec une fenêtre Hanning de 1024 points, on doit utiliser un intervalle de temps de 512 échantillons.
3.- Transformations sonores musicales de type Gabor.
Il faut tenir compte que lorsquon réalise la transformation dune analyse pour obtenir un son nouveau, le résultat ne ressemble pas à celui de lanalyse. "La transformation arbitraire dune transformation légale est illégale, car la reconstruction granulaire dune fonction bi-dimensionnelle donne un signal dont la transformation est différente de la fonction initiale" (Arfib, 1991). Néanmoins, selon Arfib on peut se rapprocher beaucoup, et même si le résultat est inattendu, il peut être musicalement intéressant. Ici, je reviens à ce dont jai parlé en début de chapitre. La préoccupation constante des techniques danalyse-synthèse est de trouver un moyen deffectuer des transformations légales, et ceci est impossible. On devrait peut-être dévier un peu lattention et essayer de trouver des transformations intéressantes au niveau musical, même si on na pas un contrôle absolu sur le résultat. En fait, Arfib se trouve parmi les chercheurs qui ont essayé de proposer des transformations intéressantes possibles, et en même temps il a cherché à minimiser les effets indésirables occasionnés par le noyau reproduisant .
a) La dilatation/contraction dun signal dans le temps avec des grains de Gabor.
Lapproche du changement temporel dun signal en utilisant de grains de Gabor est très semblable à dautres approches faites par des techniques danalyse-synthèse telles que le Vocodeur de Phase , les ondelettes, la technique de Jones et Parks, etc. Le but de Daniel Arfib à été de créer une méthode qui fonctionne de manière indépendante de la nature de la source, et qui peut être exécutée par de petits ordinateurs (Arfib, 1991). Le problème principal trouvé est le même quavec le Vocodeur de Phase: on peut écarter les fenêtres danalyse et effectuer ainsi une dilatation temporelle, mais on aura une mauvaise reconstruction des phases et le subséquent effet sonore, non voulu, dun filtre en peigne. La solution donnée par Arfib est de multiplier les phases par le ratio intégral du changement temporel (ou taux du changement temporel) avant deffectuer la transformation de Fourier inverse et additionner les nouveaux grains. Pour des ratios non intégrales, Arfib a trouvé le moyen de déduire la valeur du tournage de la phase pour chaque déplacement de fenêtre. Cette technique est plus pratique que lalgorithme utilisé par le Vocodeur de Phase, où on doit effectuer une FFT pour chaque point du signal afin de pouvoir suivre la reconstruction des phases (avec la technique dArfib on a besoin deffectuer une FFT seulement tous les 128 points pour une FFT de 1024 points). Lautre différence est que le Vocodeur de Phase doit effectuer un filtrage bandpass du signal avant de le reconstruire.
a.1) Effets de la taille de la fenêtre sur le changement temporel de la parole.
Les expériences effectuées par Arfib avec la parole ont donné des résultats intéressants. En utilisant une fenêtre de taille 128 ou 256 points pour effectuer un changement temporel dun taux de 8, on a obtenu une granulation rauque sur le timbre de la parole. Par contre, avec des fenêtres plus longues au-dessus de 1024 points (2048 et 4096), on a obtenu un effet de réverbération semblable à des échos successifs tellement proches quils se fusionnent.
Quand on effectue une dilatation de la parole dans le temps, il faut savoir que si le taux de dilatation est excessif, la parole deviendra incompréhensible car la transformation déforme les consonnes au point que lon ne peut plus les reconnaître. Une technique intéressante est daffecter davantage les voyelles, et même si on affecte seulement les voyelles et on laisse les consonnes intactes, on aura une transformation intéressante du point de vue musical.
Les effets sonores de la fenêtre sur la re-synthèse peuvent être très intéressants du point du vue musical comme on la remarqué, alors, pourquoi na-t-on pas pu imaginer des transitions possibles entre leffet de granulation rauque et leffet déchos réverbérants?. Il faudrait simplement changer la taille de la fenêtre dans le temps, et on pourrait ainsi effectuer des transformations de timbre très intéressantes. Je ne suis mathématicien et je ne peut pas savoir sil est possible de modifier la taille de la fenêtre en gardant le rapport des phases, ou au moins, de minimiser des effets sonores indésirables avec un algorithme, mais jimagine que ce doit être faisable.
b) Transposition de fréquence sans changement de durée avec des grains de Gabor.
Leffet ici est exactement le même quavec le Vocodeur de Phase (Voir Vocodeur de Phase). La différence principale est la manière deffectuer le changement de léchantillonnage du signal. Ici on interpole avec un filtre de réponse fini (FIR). On peut obtenir de mauvais effets de aliasing si on sous-échantillonne.
c) Filtrage avec convolution linéaire par FFT.
Le filtrage le plus commun et le plus simple est la réalisation dune convolution circulaire sur le signal pour altérer les amplitudes données par lanalyse. Ceci se fait par une multiplication du fenêtrage du signal initial avec la réponse spectrale des filtres. Avec la convolution linéaire, on effectue cette même multiplication mais on prend seulement la moitié de la période du signal pour quil ny ait pas un chevauchement entre ses différentes périodes.
d) Séparation Source-Résonance.
La voix humaine peut être décomposée en deux éléments essentiels qui ont un rapport direct. La source, constituée par les cordes vocales qui produisent des vibrations de différentes fréquences; et la boîte de résonance, constituée par la tête, la bouche et le nez, qui détermine lenveloppe spectrale de la source par un filtrage formantique (Figure 9). Dans la musique par ordinateur, ce filtrage peut se réaliser à laide dun filtre récursif de réponse impulsionelle infinie (IIR) ou par un filtre non récursif de réponse impulsionelle finie (FIR).
Pour réaliser une séparation source-réponse dans une granulation de signal de type Gabor, on doit séparer chaque grain en deux grains différents, lun qui agit comme la source et lautre qui agit comme le filtre résonateur. Les méthodes traditionnelles pour réaliser cette opération sont la prédiction linéaire (LPC) et le cepstrum. Avec une granulation de signal de type Gabor, lopération qui sépare la source de la réponse est de type discret, car on peut affecter chaque paire de grains de lanalyse, et donc, on peut avoir des transformations qui changent de manière plus fine dans le temps.
Figure 9.- Séparation entre source et résonance dun signal périodique (Arfib, 1991).
Avec la séparation dun signal en deux signaux granulaires différents on peut réaliser des transformations musicales très utiles, par exemple, on peut faire une transposition de la voix sans modifier sa durée et son enveloppe spectrale. Ceci est facilement réalisable car on doit seulement transposer les grains de la source et laisser les grains de lenveloppe spectrale intactes. On résout ainsi le problème de la transposition sans changement de durée typique, où lenveloppe spectrale est déformée à cause du changement du taux déchantillonnage (voir vocodeur de phase). On peut aussi faire varier les deux spectres de façon souple et indépendante et avoir des effets de glissandi, ou dune voix transformée quand on altère lenveloppe spectrale. On peut aussi utiliser la source dun son et la résonance dun autre son et effectuer une synthèse croisée. La différence avec le Vocodeur de Phase sur ce point, est quici on établit un croisement entre la moitié dun signal et la moitié de lautre, alors quavec le Vocodeur de Phase on fait une analyse LPC dun signal et une analyse FFT dun autre signal, et on effectue ensuite une convolution. La technique de Arfib est peut-être plus intéressante, car les deux signaux ont plus dindépendance.
e) Modification des phases.
On peut modifier la valeur des phases après lanalyse et modifier ainsi le signal sonore. Par exemple, si on met toutes les valeurs des phases à zéro, on aura un effet de filtre en peigne au moment de la reconstruction du signal. On peut expérimenter avec dautres valeurs mais il faut prendre en considération que lorsquon altère les phases dun signal, on risque toujours de générer du bruit. Dautres effets possibles sont différentes variétés de réverbération et des effets chorales.
Théoriquement, on peut affecter la phase de chaque grain de façon indépendante. Ceci fait que lon peut créer des modifications de phases qui varient dans le temps. De cette manière, on pourrait créer des effets qui apparaissent et disparaissent graduellement dans le temps, et des subséquentes variations du timbre. Jignore si Arfib a envisagé cette possibilité.
VI.- Les Ondelettes.
"Les ondelettes sont des fonctions élémentaires ya..b très particulières; ce sont les vibrations les plus courtes et les plus élémentaires que lon puisse envisager" (Meyer, Jaffard, Rioul 1987).
1.- Linvention des ondelettes.
A partir de la critique de Gabor à la théorie de Fourier et de sa conception sur la représentation du signal sonore dans un cadre bi-dimentionel temps-fréquence, on a développé des algorithmes reliés à la transformation de Fourier qui utilisent une fonction fenêtre pour analyser le signal par segments successifs. Des algorithmes de ce type tels que la transformée de Fourier à court terme (STFT) ont prouvé leur efficacité pour décrire lévolution des partiels dun son quelconque (Grey, Moorer 1978). Néanmoins, le fait dêtre obligé de choisir une taille fixe pour la fenêtre danalyse, a limité la résolution des analyses réalisées, car avec une fenêtre longue on obtient une bonne résolution des fréquences, mais on reste aveugle aux discontinuités du signal, et par contre, avec une fenêtre courte on obtient une bonne résolution des changements soudains du signal, mais une mauvaise résolution en fréquence.
Dans les années soixante, les géophysiciens utilisaient lanalyse de Fourier pour effectuer les recherches du pétrole sous terre. Ils envoyaient des vibrations dans la terre pour analyser les échos résultants. Les signaux de réflexion associés aux différentes couches souterraines interféraient entre eux, et il fallait les séparer pour accéder à des informations sur des couches de différentes épaisseurs. Dans les années soixante-dix, le géophysicien Jean Morlet a essayé dutiliser lanalyse de Fourier à fenêtre pour séparer les différents signaux, mais cet algorithme nétait pas précis à cause de la taille fixe de la fenêtre qui donnait une mauvaise résolution globale dans le plan temps-fréquence. Morlet essaya alors de faire varier la taille de la fenêtre (en gardant le même nombre doscillations), en létirant ou en la comprimant comme un accordéon. Quand on étire la fenêtre, les oscillations se dilatent et les fréquences résultantes sont basses; quand on comprime la fenêtre, les oscillations sont aussi comprimées et les fréquences résultantes sont plus hautes. Morlet pouvait alors localiser les hautes fréquences avec les petites fenêtres et étudier les basses fréquences avec les fenêtres plus larges. Il nomma ces nouvelles fonctions ondelettes de forme constante pour les distinguer des fonctions de Gabor (quil appelait ondelettes de Gabor) et des ondelettes utilisées en géophysique (Burke Hubbard, 1995).
Dans les années quatre-vingt, Morlet a travaillé à côté dAlex Grossmann pour affiner sa théorie. Ils ont trouvé quon pouvait transformer un signal en ondelettes et puis reconstruire exactement le même signal à partir des ondelettes. De plus, ils se sont aperçus quun grande avantage de cette technique était quune petite erreur ou une modification dans lanalyse nétait pas amplifiée de façon disproportionnée. Toutefois, leur méthode de reconstruction était plus lourde que celle de la transformation de Fourier, car ils avaient une transformée à deux variables (temps et fréquence), mais Morlet et Grossmann ont trouvé un moyen deffectuer une reconstruction approximative par une intégrale simple (Grossmann & Morlet, 1985).
Au fur et à mesure que la recherche sur les ondelettes à évolué, beaucoup de chercheurs ont manifesté leur intérêt et ont contribué à linvention de différents types de transformées et de différents types de "grains" élémentaires. Des nos jours, les ondelettes sont très utilisées pour analyser diverses types de signaux; elles sont surtout utilisées dans le champ de la vision, car elles servent à extraire le bruit dun signal, à renforcer les détails dune image floue, à la compression des images, à étudier des objets fractaux, etc.
2.- Utilisation des ondelettes pour lanalyse et la synthèse des signaux sonores.
a) Définition des ondelettes.
Les ondelettes sont des fonctions élémentaires ya..b. Il y a plusieurs familles dondelettes ya..b qui correspondent à des décompositions différentes; elles ont des propriétés différentes et permettent de faire des analyses différentes. Chaque famille dondelettes est générée par une seule ondelette mère y(t) dite analysante et définie par: y(t) = cos (5t) x e -t2/2
Les ondelettes de Morlet ont été construites à partir de londelette analysante y par translation en temps et par contraction ou dilatation en temps.
On a vu au début de ce chapitre quavec lalgorithme de Fourier à fenêtre glissante on décompose un signal sonore sur des fonctions élémentaires ya..b. qui dérivent toutes dune même "fonction fenêtre mère" y(t). Le procédé est très similaire à celui des ondelettes, mais la différence est quavec lalgorithme de Fourier on réalise cette décomposition par translation en temps et par modulation en temps. La fonction analysante (ou fenêtre danalyse) de Fourier reste fixe, pendant que les fréquences analysées par la fonction changent (Figure 10). Linconvénient de cette méthode est que si lon a une fréquence trop basse et la fenêtre nest pas assez large, la fonction ne peut plus reconnaître la fréquence du segment du signal analysé. Avec les ondelettes on na pas ce problème, car elles sadaptent aux fréquences du signal en sétirant ou en se comprimant, toujours en gardant le même nombre doscillations.
Lavantage principal des ondelettes sur la transformée de Fourier à court terme est la possibilité deffectuer une analyse multirésolution, cest-à-dire, une analyse à différentes échelles. Pour ce faire, on comprime ou on étire une ondelette mère selon la taille de lintervalle que lon veut étudier. Cette analyse agit comme un "microscope mathématique", car les ondelettes sadaptent automatiquement aux différentes composantes du signal: les ondelettes larges donnent une image approximative du signal, tandis que les ondelettes étroites permettent de "zoomer" dans les détails. La possibilité davoir différents niveaux de résolution à différentes échelles (on utilise en général cinq niveaux de résolution, chacun étant deux fois plus fin que le précèdent) fait que lon parle souvent doctaves. Doubler la résolution équivaut à augmenter la fréquence des ondelettes par deux (dune octave). Ceci peut être un avantage dans lanalyse musicale dun signal; par exemple, quand on veut localiser correctement les intervalles doctave dans une séquence harmonique. Toutefois, les ondelettes peuvent aussi décomposer un signal en choisissant dautres fonctions élémentaires (ou "grains"). De cette manière, on peut effectuer des analyses pour détecter dautres intervalles ou dautres structures pré-définies.
Le désavantage des ondelettes par rapport à lanalyse de Fourier est que linformation sur les fréquences nest quapproximative; une ondelette na pas comme un sinus ou un cosinus une fréquence précise (Burke Hubbard, 1991). Toutefois, les ondelettes sont capables de ressortir les variations du signal et avoir en même temps une bonne approximation dans le domaine des fréquences, pendant que lanalyse de Fourier à court terme est incapable de faire les deux choses en même temps.
Lanalyse par ondelettes associe à un signal réel une fonction qui dépend de deux variables: temps et échelle. La grille danalyse des ondelettes (Figure 11) diffère donc de la grille danalyse de la transformée de Fourier à court terme (STFT), car la fonction de la STFT dépende des variables: temps et fréquence. Dans la conception dune banque de filtres (voir Vocodeur de Phase), les ondelettes peuvent être interprétées comme réponses impulsionelles de filtres Q-constantes (D¶/¶ = constante), et les grains élémentaires de la STFT comme des réponses impulsionelles de filtres avec une largeur de bande constante (D¶ = constante). Si lon considère quune voix est équivalente à un filtre, avec les ondelettes la voix peut être définie par la sortie (output) du filtre avec sa réponse impulsionelle donnée par le grain correspondant. La largeur de bande des filtres dans une analyse par ondelettes va changer selon des grains, pendant que la largeur de bande des filtres dans la STFT sera toujours fixe. Par sa nature, la STFT tend à décomposer un signal arbitraire en composantes harmoniques (car les filtres sont équidistants et ont une largeur de bande fixe) tandis que la transformée en ondelettes a lavantage dêtre en mesure de choisir la fonction élémentaire (ou "grain") de décomposition.
Figure 10.- La transformée de Fourier à fenêtre glissante (TFG) et la transformée en ondelettes (TO) sont deux méthodes de représentation temps-fréquence dun signal qui consistent à le décomposer en somme des fonctions élémentaires y a.b.(t), qui dérivent toutes dune même fonction "mère" y(t) par translation dans le deux cas, par modulation en temps (y a.b.(t) = y(t - b) x cos (2pat)) pour la TFG, et par contraction et dilatation en temps pour la TO. (Meyer, Jaffard, Rioul, 1987).
Figure 11.- Grille de la transformée en ondelettes, où a0 et t0 sont des nombres réels qui dépendent du choix de londelette.
b) Propriétés de la transformée en ondelettes.
"La transformée en ondelettes est une fonction S(a, b) qui associe aux paramètres a et b la valeur du coefficient Ca.b. de londelette ya..b. dans la décomposition du signal. La quantité b est le paramètre de localisation temporelle, tandis que 1/a est le paramètre de fréquence. Le coefficient Ca.b. est égal à la somme en continu du produit du signal par londelette ya..b." (Meyer, Jaffard, Rioul, 1987).
b.1) Coefficients.
Donnons quelques propriétés des coefficients dans la transformée en ondelettes:
Le coefficient Ca.b. est très petit dans les zones où le signal analysé s(t) est très régulier. Un intervalle constant du signal donne un coefficient nul. Les nombres nuls concentrent linformation du signal dans quelques coefficients. Cela peut être utile pour la compression de sons ou dimages, pour obtenir une plus grande vitesse de calcul, et pour lanalyse des signaux qui ont des singularités ou des discontinuités.
Les grains élémentaires en général ne sont pas orthogonaux (Kronland-Martinet, 1991), et dans ce cas, les coefficients obtenus avec le même type de calcul ne permettent pas de reconstruire le signal original. Néanmoins, la reconstitution du signal dans une base non orthogonale est possible si lon mesure lerreur au moment de reconstruire le signal. En outre, dans certaines circonstances imposées sous les grains on peut construire des bases orthonormales qui correspondent à la grille danalyse de la transformée en ondelettes préalablement définie. Lorthogonalité peut être utile car elle fournit une reconstruction parfaite du signal originel en évitant la redondance au cours de lencodage. Dautre part, avec une transformation en ondelettes orthogonales, signal et bruit peuvent se dissocier, car on comprime lénergie du signal en un nombre assez restreint de gros coefficients. Lénergie du bruit blanc est dispersée sur toute la transformée et donne des petits coefficients quon peut éliminer.
Le seule désavantage des coefficients des ondelettes est quils sont plus difficiles à interpréter que les coefficients de Fourier. "Les coefficients de Fourier ne sont pas que des concepts, ils sont physiques et réels comme une table; en revanche, les ondelettes nont pas dexistence physique" (Meyer, 1992).
b.2) Linéarité.
La transformée en ondelettes de même que la STFT sont linéaires. Cette propriété est très utile car la transformée de laddition des signaux est égale à laddition de leur transformées. Ceci est convenable pour lanalyse des signaux polyphoniques (Kronland-Martinet, 1991).
b.3) Conservation de lénergie.
Lénergie (la valeur moyenne du carré de lamplitude) ne change pas. Il sensuit quon peut transformer un signal en ondelettes et puis reconstruire exactement le même signal à partir des ondelettes.
b.4) Comportement de la transformée sous translation et dilatation du signal.
La transformée en ondelettes dun signal change dune manière simple si le signal est déplacé ou remis en échelle (elle est covariante sous translation en temps). La STFT est covariante sous translation en fréquence mais elle nest pas covariante sous translation en temps.
c) Les ondelettes et la perception auditive.
La transformation en ondelettes est bien adaptée pour effectuer des analyses acoustiques des signaux sonores car elle peut se servir des échelles logarithmiques pour les "grains" danalyse. A partir des études sur le fonctionnement de louïe, on a constaté quelle réalise un traitement du signal sonore de type logarithmique. Le son voyage à travers le canal externe de loreille et fait vibrer le tympan, celui-ci, transmet ces vibrations aux osselets (marteau, enclume et étrier), létrier transmet la motion à une membrane, ce qui cause la propagation de londe dans le fluide de la cochlée qui stimule les petites poils de la membrane basilaire. Les nerfs attachés à ces poils transmettent une stimulation au cerveau. Quand une fréquence périodique sinusoïdale audible arrive dans louïe interne, elle excite les extrémités des nerfs dans des endroits de la membrane qui sont proportionnels à la fréquence du ton (Roederer, 1975). Quand des impulsions élémentaires (impulsions qui font intervenir toutes les fréquences) arrivent à louïe interne, chaque point de la membrane basilaire décrit une courbe en fonction du temps qui est une ondelette. Cette ondelette se dilate lorsque la fréquence augmente, ce qui semble mieux correspondre à une modélisation par ondelettes quà une modélisation par la transformée de Fourier à fenêtre glissante (puisque celle-ci fait intervenir des modulations). La propriété de dilatation des ondelettes donne le résultat dune modélisation psychoacoustique de la réponse à lexcitation impulsionelle sur divers points de la membrane (Meyer, Jaffard Rioul, 1987).
Les caractéristiques des ondelettes ont conduit certains chercheurs à les utiliser pour de tâches en rapport avec la perception psychoacoustique. Ellis et Vercoe (1991) ont développé un modèle de séparation auditive basé en ondelettes. Ils ont utilisé une transformée constante Q car elle simule la transformation en fréquence effectuée par la cochlée. Cette analyse consiste en une banque de filtres bandpass (des filtres FIR) où chaque filtre a une largeur de bande légèrement différente. La largeur de bande des filtres augmente avec une montée de fréquence, et on a comme conséquence une analyse de type logarithmique. Ceci est pratique quand on veut séparer de basses fréquences (qui ont une bonne définition en fréquence) des composantes spectrales aiguës (qui ont une bonne définition en temps mais mauvaise en fréquence). Cette technique est très efficace pour analyser la parole, puisque les filtres pour les hautes fréquences détectent la variation rapide des harmoniques et ils permettent aussi de détecter les régions formantiques malgré leur manque de résolution en fréquence. La transformée de Fourier à court terme avec ses filtres de largeur de bande fixe ne pourrait pas fonctionner pour séparer deux signaux sonores différents, car la réponse impulsionelle des filtres est la même dans tout le rang des fréquences.
d) Lanalyse des signaux sonores.
La transformée en ondelettes est bien localisée autant dans le domaine du temps que dans le domaine de la fréquence. Ceci permet lanalyse des sons naturels de tout type avec une grande précision. Lanalyse par ondelettes permet une interprétation physique des phénomènes sonores en termes de distribution dénergie. Pour obtenir une représentation réaliste du modulos de la transformation, il est recommandable de séparer les composants positifs des composants négatifs pour éviter des battements de fréquence. Ceci nest pas faisable avec une analyse de Fourier à courte terme. Un autre avantage de lanalyse par ondelettes est quelle permet une localisation en temps qui saméliore au fur et à mesure que lon progresse vers des petites échelles.
d.1) Lanalyse musicale.
On a déjà mentionné que lon peut construire des ondelettes adaptées à lanalyse de différentes structures dintervalles de fréquence. Ceci peut être très utile pour détecter des motifs harmoniques dans des enregistrements de musique instrumentale. Par exemple, une ondelette avec deux chocs dans le domaine de la fréquence qui sont séparés dune intervalle doctave permet de détecter la récurrence doctaves. Quand on analyse une séquence harmonique de différents intervalles avec une ondelette de ce type, lénergie locale dans le plan temps-échelle est plus grande pendant les instants où le signal contient des octaves (Kronland-Martinet, 1988).
On peut utiliser les ondelettes pour la détection dattaques de notes. Des essais de détection dattaques ont été faits dans un contexte de transcription automatique (Foster et al 82). Crawford et Findlay ont proposé lutilisation des ondelettes pour identifier lattaque des notes des sons polyphoniques, et ils ont réalisé des expériences avec des instruments solo (Crawford, Findlay, 1996). Lanalyse par ondelettes est très efficace quand on a différentes mélodies avec des timbres différents et dont les notes se chevauchent. On peut choisir une fonction élémentaire de décomposition basée sur une structure de demi-tons et savoir quel instrument a joué une note à un instant donné, puisque les ondelettes sont capables de détecter linstant temporel en même temps que la structure spectrale des notes. Les ondelettes ont été aussi utilisées pour lanalyse fréquentielle du rythme (Leigh M. Smith, 1996). Leigh a employé la transformée en ondelettes continue (CWT) pour analyser le mouvement expressif des accents agogiques et dynamiques qui produisent de multiples signaux rythmiques à court terme et qui varient en amplitude et en fréquence sur différentes échelles temporelles. Cette technique permet de détecter des motifs rythmiques musicaux et détudier avec précision notre perception du rythme.
d.2) Estimation des paramètres.
Il est parfois utile dextraire certains paramètres des signaux sonores qui décrivent des phénomènes physiques. La détection des composantes spectrales et de lois de modulation en amplitude (AM) et en fréquence (FM) servent pour simuler ensuit le signal par synthèse en utilisant des techniques additives et de Fréquence Modulée (Chowning, 1973). Il est possible destimer la fréquence des composantes spectrales en prenant la moyenne de la fréquence instantanée de la transformée en ondelettes sur un intervalle convenable. On peut extraire ainsi les lignes spectrales des composantes modulées en amplitude pour découvrir les lois de modulation. Pour lanalyse des sons FM, on peut extraire les points essentiels de la transformée en ondelettes qui décrivent le plan moyen de la trajectoire, nommé ridge. La restriction de la transformée au ridge donne un squelette de la transformée et avec lui on peut extraire le carrier, la modulation de la fréquence et la variation de lindex de modulation (Kronland-Martinet, 1991).
e) La re-synthèse et la transformation des signaux sonores.
On peut re-synthétiser un signal sonore à partir dun son analysé par ondelettes en utilisant deux méthodes différentes: par synthèse granulaire et par synthèse additive généralisée. Ces deux méthodes nous permettent deffectuer des modifications intimes des sons par laltération des paramètres de la re-synthèse.
e.1) Re-synthèse granulaire.
Une formule de reconstruction du signal donné par Kronland-Martinet (1988) suggère une technique de synthèse granulaire qui consiste en une somme de tous les grains constitués par les ondelettes dilatées et déplacées avec un grain complexe équivalent aux coefficients obtenus par lanalyse. Une application digitale effectuée par lui associe une ondelette avec un poids approprié à chaque point de la grille danalyse. Ces ondelettes chevauchées dans le temps peuvent être envisagées comme des "grains élémentaires". Ces grains auront toujours des formes un peu différentes à cause des modifications de phase occasionnées par la complexité des coefficients (Figure 12). La re-synthèse est effectuée par des modules constitués par quatre générateurs dondelettes (Figure 13). F. Boyer a développé ces unités et les a intégrées au programme Music V (Mathews, M. V. 1969). Dans cette application, un instrument complet est constitué par une série de modules, où chacun deux représente une voix différente de lanalyse (Il doit y avoir autant de modules que de voix existantes dans lanalyse).
Figure 12.- Re-synthèse granulaire par somme sur une série dondelettes dilatées et tranlsatées avec des coefficients de valeur complexe dérivés de la transformée. (K-Martinet).
Figure 13.- Module pour la re-synthèse granulaire. La fréquence dépend des paramètres de dilatation associés avec la voix en considération. Un instrument complet requiert autant de modules que de voix dans lanalyse. (K-Martinet, 1991).
e.2) Synthèse additive généralisée.
Dautres formules de reconstruction du signal existent; Boyer et Kronland-Martinet (1989) en ont proposée une, qui implique seulement les valeurs de la transformée en ondelettes en un instant donné pour reconstruire la valeur correspondante du signal. Dans ce cas, pour chaque paramètre déchelle de la grille danalyse il est nécessaire dutiliser les coefficients de tous les paramètres temporels de t (Boyer, Kronland-Martinet, 1989). Cette situation est très semblable à celle du Vocodeur de Phase où le problème se réduit à lidentification de la fréquence instantanée. La re-synthèse est nommée additive généralisé puisque les oscillateurs sont modulés autant en amplitude quen phase (Figure 14).
Figure 14.- Module de synthèse additive généralisé. Linstrument complet requiert autant de modules quil y a de voix dans la synthèse. (K-Martinet).
e.3) Transformation des sons.
Les techniques décrites nous permettent de transformer le signal sonore par la modification de trois différentes classes de paramètres: 1.- les coefficients obtenus par lanalyse; 2.- la géométrie de la grille utilisée pour la re-synthèse; 3.- dans le cas de la re-synthèse granulaire, londelette utilisée pour la re-synthèse.
Filtrage du signal.
On peut par exemple extraire une note ou un accord donné dun son si lon force presque tous les coefficients à zéro (à lexception de certains coefficients associés à certains paramètres déchelle); on peut effectuer un filtrage highpass si lon prend seulement les voix qui correspondent aux petites échelles, un filtrage bandpass si lon prend seulement les voix des grandes échelles, ou simplement sélectionner différentes voix distribuées dans les différentes échelles de fréquence et éliminer les autres; on peut aussi construire un "equalisateur déchelle" avec gains qui varient dans le temps sans problèmes de stabilité. Tous ces procédés sont encadrés dans la technique additive généralisée et ils sont de caractère linéaire.
Transposition temporelle.
Kronland-Martinet (1991) a effectué des transpositions temporelles différentes pour chaque voix dans lanalyse. Ce concept est très intéressant et ne paraît pas avoir été développé avec dautres techniques danalyse-synthèse. Ici les composantes spectrales de différentes voix se propagent à différentes vitesses. Le résultat est un signal sonore qui se propage en clusters, ce qui donne un effet sonore "aquatique". On peut bien sûr réaliser la transposition typique sans changement de durée effectué par dautres techniques danalyse-synthèse.
Transposition en fréquence sans modification de durée.
Boyer et Kronland-Martinet (1989) ont réalisé une addition des transpositions multiples (qui sont en rapport harmonique) pour chaque échelle du signal de manière synchrone. Ceci donne des effets de brillance (brightness ) très intéressants. Ce procédé est de caractère non-linéaire, car on effectue une modification indépendante pour le modulos et pour la phase des coefficients des ondelettes. Cette caractéristique de non-linearité fait aussi partie dautres types de transformations telles que la transposition temporelle sans changement de fréquence et la synthèse croisée.
Synthèse-Croisée.
On peut effectuer une synthèse croisée si on prend le modulos des coefficients obtenus dun son et les phases des coefficients extraits dun autre son. Linterprétation des phases comme agent excitateur, et du modulos comme agent résonateur, nous amène naturellement à une "hybridation sonore" (Kronland-Martinet, 1991).
3.- Remarques.
Lanalyse par ondelettes sest révélé un outil remarquable pour lanalyse des signaux sonores à cause de sa double capacité de résolution dans les domaines du temps et de la fréquence. Sa caractéristique essentielle qui est dêtre une technique temps-échelle, lui donne la capacité deffectuer des analyses logarithmiques proches à notre perception auditive; de plus, sa capacité deffectuer des analyses multirésolution progressives fait de cette analyse un instrument idéal pour la détection des motifs dun signal et pour étudier des objets de type fractal. Des techniques danalyse-synthèse comme la STFS ne sont pas capables danalyser des sons complexes qui ont des discontinuités drastiques dans le temps; or, on sait que la plupart des sons dans la nature ont un comportement de ce type. Beaucoup de ces sons ont sûrement des structures de type fractal, et les ondelettes sont très appropriées pour pouvoir les étudier. Toutefois, la résolution de lanalyse par ondelettes en fréquence nest pas optimale dans toutes les échelles, et on a parfois besoin davoir des informations précises sur les harmoniques aiguës dun signal (les petites échelles en ondelettes ont une mauvaise résolution en fréquence). Pour cet effet, les techniques avec un filtre de largeur de bande constante sont plus appropriées que les ondelettes.
Lanalyse par ondelettes a prouvé également quelle est un outil puissant pour la synthèse et la modification des signaux sonores. Il y a plusieurs types de coefficients dus à lexistence de diverses méthodes de transformation en ondelettes et de différentes classes de fonctions élémentaires (ou "grains"). Les différentes façons de manipuler ces coefficients donnent une grande diversité de transformations sonores. Ces coefficients ont parfois des caractéristiques qui permettent deffectuer des opérations quon ne peut pas réaliser avec dautres techniques, comme lélimination de régions de bruit dans le signal par exemple. La re-synthèse par ondelettes a dautres avantages comme lutilisation dun nombre de voix réduit.
Le grand problème de se servir des ondelettes pour la re-synthèse et la transformation des signaux sonores est la difficulté dinterpréter les coefficients. Pour cette raison, et peut-être aussi à cause des lourdes équations qui comportent les différentes transformées, on na presque pas développé des applications musicales. Dailleurs, même celles qui ont été réalisées nont pas été à la portée des compositeurs de musique électroacoustique. Il est tout de même curieux que, vu quon a tellement parlé des ondelettes comme lespoir des techniques danalyse-synthèse, jusquà maintenant on na pas encore développé un outil avec une interface aimable pour les musiciens. Il faut espérer quon le fera bientôt, car ce sont les musiciens en collaboration avec les chercheurs qui font avancer le développement des outils musicaux de synthèse.
4.- Au delà des ondelettes.
"Alors quun unique algorithme (lanalyse de Fourier) convient à tous les signaux stationnaires, les signaux transitoires forment un univers si riche et si complexe quune seule méthode danalyse ne peut en venir à bout" (Meyer, 1992).
Les ondelettes ne sont pas la panacée des techniques danalyse-synthèse. On a déjà mentionné que pour analyser un signal stationnaire, il nest pas raisonnable de lanalyser avec des petites ondelettes qui nont pas une bonne localisation en fréquence. La détermination imprécise des hautes fréquences constitue le principal défaut des ondelettes, particulièrement pour lanalyse de sons musicaux. Certains chercheurs ont reconsidéré lanalyse de Fourier dun nouvel oeil et se sont inspirés du côté temporel des ondelettes pour essayer de créer des systèmes de représentation du signal offrant une bonne sélectivité en fréquence et une grande souplesse.
Un des premiers systèmes de représentation hybrides a été crée par Coifman et Meyer en 1989. Ils ont nommé leurs "grains élémentaires" paquets dondelettes. Un paquet dondelettes peut être défini comme le produit dune ondelette par une fonction oscillante, où londelette révèle les changements brusques pendant que loscillation révèle les variations régulières (Burke, 1995).
Avec les paquets dondelettes on fait varier indépendamment la taille de la "fenêtre", la fréquence et la position, tandis quavec les ondelettes, les "fenêtres" pour les fréquences aiguës sont toujours brèves, et les "fenêtres" pour les fréquences basses sont toujours longues. Le problème avec cette nouvelle technique, beaucoup plus complexe et subtil que lanalyse de Fourier à fenêtre, est que lon ne sait pas encore bien interpréter les coefficients. Toutefois, ces paquets dondelettes ont déjà été utilisés pour étudier le phénomène de turbulence, pour comprimer des images, etc. Je pense que cette technique serait idéale pour lanalyse des sons avec des caractéristiques de transitoires dattaque importantes et des régions spectrales stationnaires, qui ne sont pas bien localisées en temps et en fréquence par lanalyse de Fourier à fenêtre glissante (à cause de la fenêtre fixe) et par les ondelettes traditionnelles (à cause dune mauvaise définition en fréquence pour les composantes aiguës). Il faudra attendre pour voir comment les chercheurs qui sintéressent au domaine sonore utilisent cette technique.
Une autre famille hybride dondelettes a été créée par Coifman et Meyer. Les ondelettes de Malvar sont basées sur lanalyse de Fourier à fenêtre Gaussienne, mais puisque cette analyse ne peut pas être orthogonale, la forme de la fenêtre a été modifiée et les fonctions trigonométriques qui la remplissent, adaptées. La fonction de londelette de Malvar commence par une attaque, elle forme ensuite un plateau et termine en decrescendo (Figure 15). La fonction est remplie soit de sinus, soit de cosinus, et elle a lavantage davoir une signification physique beaucoup plus réelle que les ondelettes, car elle ressemble à une note dun son instrumental naturel qui comporte une attaque, une période stationnaire et un amortissement (Meyer, 1992). On peut faire varier la taille de la fenêtre, et ces variations sont beaucoup plus souples que celles des ondelettes normales, car ici la taille de la fenêtre ne dépend pas du nombre doscillations comprises à lintérieur. Avec une ondelette de Malvar, la durée de lattaque de la période stationnaire et de lamortissement peuvent varier de façon indépendante. Cette souplesse est très semblable aux fonctions donde formantique (ou FOFs) (Rodet, 1979/84), où lenveloppe des "grains" peut varier encore plus librement. Toutefois, les FOFs ne sont pas des grains danalyse.
Figure 15.- Une ondelette de Malvar.
Avec les ondelettes de Malvar créées par Coifman et Meyer, on utilise un algorithme de segmentation automatique qui cherche à chaque fois le découpage le plus court. Malgré cette automatisation, ces ondelettes marchent assez bien pour analyser la parole. Des chercheurs comme Victor Wickerhauser les ont utilisées pour séparer de la parole les parties avec voix et les parties sans voix, et pour obtenir de petites segments ou unités similaires aux phonèmes (Burke, 1995). Selon Meyer, "la possibilité de découper un signal dune façon non uniforme aidera les chercheurs qui analysent la musique ou la parole....car ceux-ci considèrent en priorité la dynamique du signal en fonction du temps avant de sintéresser à son contenu fréquentiel global" (Meyer, 1992).
Lanalyse par ondelettes de Malvar est prometteuse pour lanalyse des signaux musicaux, mais comme on lavait déjà mentionné, en question de techniques danalyse il ny a pas dabsolu. La technique idéale nexiste pas, car le principe dincertitude de Heisenberg va toujours agir sur les analyses faites. Les techniques hybrides sadaptent peut-être mieux que les ondelettes normales à une analyse plus équilibrée des domaines temps-fréquence en musique, mais si on a un signal stationnaire, on s'adressera peut-être toujours à lanalyse de Fourier à court terme. Toutefois, on peut toujours mélanger toutes les techniques dans un même algorithme pour les rendre plus efficaces et anéantir un peu le principe dincertitude. Coifman en a inventé une, nommée Best Basis. Cette géniale méthode choisit automatiquement le type danalyse qui convient à un instant donné sur le signal. Si on a un trait périodique, lalgorithme choisit lanalyse de Fourier à court terme; si on a une segment irrégulier ou de type fractal, lalgorithme prend lanalyse par ondelettes, et si ni lanalyse de Fourier, ni celle des ondelettes ne convient pas tout à fait, alors Best Basis se sert de lun de deux algorithmes hybrides quon vient de décrire. Je pense que cette philosophie dhybridation pour lanalyse des signaux sonores (musicaux ou non musicaux) constitue lavenir dans les techniques danalyse-synthèse.
En question de synthèse, je crois que les "grains" des techniques hybrides peuvent être mieux adaptés que les ondelettes traditionnelles pour réaliser une re-synthèse granulaire (Boyer et Kronland-Martinet, 1989), parce que leur caractéristique est davoir des fonctions élémentaires plus semblables à des sons musicaux. Cependant, il faudra attendre pour savoir comment les chercheurs utilisent et développent ces techniques.
VI.- La synthèse granulaire fréquentielle synchrone.
On a parlé au deuxième chapitre de la classification que fait Roads des différentes techniques granulaires. La méthode de chevauchement des flots de fréquence-synchrone (pitch synchronous granular synthesis) peut être encadrée soit dans le groupe des techniques granulaires danalyse synthèse (car elle effectue lanalyse des signaux), soit dans le groupe des techniques granulaires par formants, puisque la répétition synchrone des impulsions fréquentielles peut créer des effets damplitude modulée qui sont caractéristiques des sons formantiques. Toutefois, cette deuxième facette sera analysé dans le prochain chapitre.
1.- La méthode de Poli et Piccialli.
De Poli et Piccialli (1991) ont développé une méthode de synthèse granulaire pour des sons fréquentiels avec lutilisation dun modèle source-filtre. Leur méthode est bien adaptée à une série de techniques de synthèse (telles que la synthèse substractive et formantique) ainsi quà la compression temporelle des signaux sonores. Une des différences entre cette méthode et dautres techniques danalyse-synthèse étudiées dans ce chapitre est que chaque canal de la représentation dune banque de filtres est décimé temporellement (cest-à-dire, quil y a une compression du taux déchantillonnage) pour pouvoir réduire la redondance du procès danalyse. Pour la re-synthèse, les chenaux déchantillons décimés (ou grains décimés) sont remis au taux déchantillonnage dorigine et alimentés dans un filtre bandpass. Les opérations de décimation et dinterpolation des échantillons ne sont pas linéaires; elles produisent alisasing et imaging, et pour résoudre ce problème il faut reconstruire le signal avec des filtres de quadrature miroir (quadrature mirror filters ou QMF).
Pour effectuer la re-synthèse, chaque canal du modèle fonctionne comme un filtre de synthèse qui est excité par des impulsions équidistantes avec une amplitude et une phase convenables. La sortie (output) du synthétiseur donne comme résultat la convolution entre lentrée (input) et la réponse impulsionelle du filtre. Dans le cas où lon utilise des filtres de réponse finie (des filtres FIR), la sortie de chaque canal consiste en une séquence de "grains complexes" (De Poli et Piccialli, 1991). La méthode de De Poli et Piccialli peut avoir aussi une autre interprétation de la STFT; au lieu davoir une représentation dune banque de filtres, on peut penser en termes dune analyse de Fourier discrète par segments. Ces segments sont obtenus par la multiplication du signal par une fonction fenêtre. Linterprétation est la même que celle du Vocodeur de Phase (voir linterprétation de Fourier du Vocodeur de Phase), où lon chevauche les fenêtres danalyse dans le temps, et ensuite on les additionne pour effectuer la re-synthèse du signal. Ce procédé est nommé aussi overlap and add (OLA).
Linterprétation du modèle source-filtre proposé par De Poli et Piccialli est constitué par des signaux quasi périodiques comme source dexcitation (un train de pulsations), et des filtres linéaires qui varient dans le temps comme lenveloppe spectrale des pulsations. La fréquence des excitations quasi-périodiques est modifiée selon le ton du son désiré, et la largeur de bande du filtre (normalement un filtre avec phase linéaire qui varie dans le temps; un filtre FIR) change dans le temps, ce qui permet une modification du spectre du son. Toutefois, en réalité il ny a pas des filtres. Les caractéristiques des filtres sont simulées par la forme donde des grains qui constituent le train de pulsations, et donc, la variation de la forme donde va déterminer lenveloppe spectrale du son. Le but de cette technique de synthèse granulaire nest pas de reconstruire le signal de manière exacte (même sil est possible de le faire), mais plutôt de modifier les paramètres dexcitation et denveloppe spectrale pour synthétiser des sons nouveaux. Ces paramètres peuvent être estimés par une analyse linéaire prédictive (LPC) ou par une déconvolution homomorphique (De Poli et Piccialli, 1991).
Le modèle source-filtre est structuré par une banque des filtres FIR en parallèle qui sont excités par un train de pulsations, où chaque pulsation est en synchronie avec chaque période du signal. Cette structure permet davoir un bon contrôle des paramètres et rend le calcul efficient. Les pulsations, ou "grains", peuvent être localisés dans le cadre temps-fréquence, ce qui donne la possibilité dutiliser chaque grain pour contrôler une zone particulière de fréquence dans le spectre. La grille de représentation granulaire dépend ici directement du son, tandis quavec la STFT et la transformée en ondelettes, les grains sont définis dans des grilles qui sont indépendantes du son (Figure 16). Cette caractéristique peut donner des avantages par rapport aux deux dernières techniques: 1.- dans la synthèse granulaire fréquentielle, la forme du grain varie dans les différentes couches des filtres ainsi que dans le temps, et on a comme conséquence un nombre de grains inférieur; 2.- laspect temporel est facilement séparé du côté spectral, tandis quavec les deux autres représentations, ces deux domaines sont fusionnés en magnitude et en phase; 3.- a cause des caractéristiques décrites auparavant, la synthèse granulaire fréquentielle bénéficie dun contrôle naturel de la synthèse, et la modélisation de la forme donde du grain devient plus simple (De Poli et Piccialli, 1991).
Figure 16.- Grille de Synthèse Fréquentielle Synchrone. Les grains sont synchronisés en correspondance avec le début de chaque période de la fréquence du son. Dans cet exemple la durée de la période augmente. (De Poli et Piccialli, 1991).
a) La forme donde des grains.
a.1) Structure directe du filtre.
Dans cette technique, lenveloppe spectrale du son est déterminée par la transformation de Fourier du grain, tandis que les articulations fréquentielles du son sont déterminées par la localisation temporelle du grain. La forme donde du grain sera définie par des modélisations de filtres FIR standard. Toutefois, les filtres peuvent aussi être obtenus par une méthode fenêtre, où lon multiplie la réponse impulsionelle par une fenêtre convenable. De Poli et Piccialli utilisent une fenêtre triangulaire, car leurs fonctions sont presque toujours continues et ont des dérivatifs continus (De Poli et Piccialli, 1991). On peut modéliser différents types de filtres, tels que des filtres linéaires en phase (qui sont essentiels quand on a plusieurs filtres en parallèle) ou des filtres avec phase minimale (qui servent pour la structure directe et sont plus économiques).
Le modèle créé par de Poli et Piccialli est amiable et transparent, car selon eux, lutilisateur nest pas forcé de connaître lanalyse de Fourier en profondeur, et il peut se servir des outils construits pour dessiner la fréquence spectrale désirée (au moyen dun éditeur graphique).
a.2) Structure parallèle des filtres.
Dans la structure en parallèle, chaque séquence de grains contrôle une différente partie du spectre. On peut modéliser une forme donde spécifique à chaque instant, mais il faut créer quelques prototypes donde, et à partir de ceux-ci, effectuer des transformations pour obtenir les différents types donde dont on a besoin. On peut aussi utiliser des formes donde standard comme un exponentiel décroisant, une gaussienne, ou dautres fenêtres qui fonctionnent comme enveloppes et qui sont utilisées dans lanalyse des signaux.
a.3) Transformations des formes donde.
Les équations utilisées pour la transformation des prototypes de formes donde sont assez complexes. Un musicien qui na pas une formation mathématique et de traitement du signal, pourra difficilement savoir comment effectuer ces transformations et quels sont leurs effets. Seulement avec un interface intelligent et aimable, on peut travailler avec cette technique, mais même ainsi, la correspondance entre forme donde et spectre nest pas du tout évidente pour le utilisateur non spécialisé. Pour obtenir plus dinformation sur les différentes transformations et ses équations il est conseillé de consulter directement la source: De Poli et Piccialli. 1991. "Pitch-synchronous granular synthesis". Dans G. de Poli, A. Piccialli & C. Roads, éditeurs, The representation of musical signals. MIT Press.
2.- Remarques.
La technique de De Poli et Piccialli est très proche des techniques granulaires formantiques, car sa conception est basée sur la séparation entre la source dexcitation qui donne la périodicité et la fréquence fondamentale du son, et le filtre ou enveloppe spectrale, que détermine les différentes fréquences du spectre. De ce fait, De Poli et Piccialli ont même développé une application de synthèse par formantes que lon analysera dans le prochain chapitre.
Le problème davoir peu de renseignements sur linterface développée pour lapplication de cette méthode et linsuffisance dinformation sur les expériences sonores réalisées, fait quil soit difficile de critiquer cette technique. Cependant, si lon fait une comparaison avec les techniques de synthèse formantiques qui utilisent des FOF, il me semble que celles-ci peuvent être plus puissantes, car elles bénéficient autant le domaine spectral que le domaine temporel du son. Avec la synthèse granulaire fréquentielle synchrone, on sintéresse uniquement au côté spectral et par la création de sons plutôt stationnaires. Il est bien de pouvoir synthétiser des sons de ce type, mais on a des techniques granulaires formantiques qui peuvent le faire, et qui sont en même temps capables deffectuer des transitions vers le domaine du discontinu (Eckel et Rocha Iturbide, 1995).
Il est intéressant de constater la grande ressemblance qui existe entre les grains de la synthèse fréquentielle synchrone et les FOFs, des "grains" qui constituent des fonctions élémentaires avec un contenu spectral déterminé par leur enveloppe, leur largeur de bande et leur amplitude, et dont la fréquence fondamentale est déterminé par leur périodicité (voir chapitre suivant). Néanmoins, une grande différence est que la structure des FOF détermine directement le spectre du son, tandis que les grains dans la synthèse granulaire fréquentielle synchrone dépendent de la modélisation du filtre. Les particules sonores de cette dernière technique doivent être forcément de nature plus simple. On verra dans le chapitre suivant comment les FOF ont une enveloppe complexe constituée de trois différentes parties qui peuvent varier dans le temps avec une finesse incroyable. Dautre part, même si les FOF ont été utilisées principalement pour simuler des synthétiseurs à formants en parallèle, on a essayé aussi de les intégrer aux techniques danalyse-synthèse (dAlessandro, Rodet, 1989). Il y a encore des recherches à faire, mais ces grains pourraient être mieux adaptés pour effectuer la synthèse fréquentielle synchrone, et donner en même temps la possibilité deffectuer des dé-synchronisations afin déliminer le statisme sonore.
VII.- Au delà de la granulation par analyse-synthèse.
1.- À la recherche de ponts entre la granulation par analyse-synthèse et les techniques traditionnelles de synthèse granulaire.
Les techniques de granulation par analyse-synthèse et les techniques de synthèse granulaire traditionnelles (QSGS, AGS, Granular Sampling), ont une même conception discrète de base: elles utilisent des particules élémentaires (ou "grains") pour la génération des signaux sonores. Toutefois, ces deux groupes de techniques ont différentes façons de construire ou de reconstruire le signal sonore, et chacun envisage une synthèse de sons très différente. La granulation par analyse-synthèse est centrée sur le contrôle fin des composantes spectrales (domaine de la fréquence), tandis que les techniques granulaires traditionnelles sont centrées sur le contrôle des particules élémentaires dans le temps (domaine du temps), et elles ne soccupent pas davoir un contrôle précis du spectre. Le défaut du premier groupe de techniques est quil ne considère pas, ou quil na pas la faculté dune plus grande flexibilité pour le contrôle des "particules élémentaires" dans le domaine temporel, et le défaut du deuxième groupe est dêtre incapable de créer des sons en ayant un contrôle fin du domaine spectral.
Un des buts de ce travail est détablir des ponts entre le domaine spectral et le domaine temporel dans la synthèse sonore au moyen des techniques granulaires, car leur caractère essentiel discret permet denvisager la création de sons bien déployés, autant dans le domaine de la fréquence que dans le domaine du temps. Néanmoins, il faut utiliser certains techniques granulaires quand on veut travailler de manière précise sur le domaine des fréquences, et dautres techniques quand on veut travailler sur laspect de la texture, de la masse, et du rythme. Or, y a-t-il des ponts possibles entre les différentes techniques granulaires, ou est-ce que lon pourrait choisir une seule technique et lutiliser pour travailler autant dans le micro-temps que dans le macro-temps et pour générer des sons spectraux, mais aussi des sons dont les composantes se déplacent plus librement dans lespace au cours du temps?. Les techniques de synthèse granulaire traditionnelle quon a étudié dans le deuxième chapitre ne pourraient pas réaliser cette tâche, car elles ont une orientation non-analytique (Vaggione, 1993). Alors, est-ce que les techniques danalyse-synthèse en seraient capables?.
Les recherches effectués dans le domaine de la granulation par analyse-synthèse ont été concentrées sur laspect du timbre dans le micro-temps, et les algorithmes crées pour effectuer des transformations sonores par la modification de lanalyse ont été presque toujours contraintes par les complications qui surviennent au moment de reconstruire le signal. Ces deux aspects, à mon avis, constituent les limitations principales de ce groupe de techniques. Le travail dans le macro-temps a été limité à des dilatations temporelles, ou au traitement de sons longs (où la quantité de mémoire RAM nécessaire devient prohibitive). Dans le cas de la dilatation, la transformation temporelle des sons ne produit pas de variations de timbre intéressantes. La synthèse de type spectral dans le macro-temps est plus efficace au moyen dautres techniques non analytiques, telles que la synthèse additive. La variation des composantes spectrales dans cette dernière technique est très flexible grâce à des logiciels développés pour contrôler lévolution précise de chaque partiel. Bien entendu, il sagit ici dune technique non analytique, et en ce sens, les techniques danalyse-synthèse constituent un complément essentiel pour elle. Mais que faire si on veut obtenir des effets de caractère morphologique, ou qui se trouvent entre la continuité spectral des ondes et le domaine discontinu des grains?. Malheureusement, ni la synthèse additive, ni les techniques danalyse-synthèse nont permis jusquà présent un travail sur les deux terrains.
Dans le deuxième chapitre, jai proposé dutiliser la synthèse granulaire traditionnelle dune manière semblable à la synthèse additive. Ceci permettrait davoir des sons spectraux qui peuvent évoluer vers des sons avec des caractéristiques de texture, et même vers une discontinuité totale qui devient rythme. Cependant, dans le champ spectral on a toujours des effets de modulation quon ne peut pas contrôler. Avec les techniques granulaires danalyse-synthèse, on peut éviter ce type deffets, mais on ne peut pas traiter les fenêtres danalyse comme si elles étaient des grains qui peuvent se déplacer librement, car on perd le contrôle sur les phases, et on a comme conséquence des effets sonores indésirables. Néanmoins, lidée davoir un contrôle aléatoire sur les fenêtres danalyse a déjà existé, et a été appliqué dans certaines conditions où leffet de bruit devient désirable. Xavier Serra et Julius Smith (1990) ont proposé une technique de synthèse par modélisation spectrale qui utilise une combinaison de décomposition déterministe et statistique. Ils utilisent la partie déterministe pour les composantes de type Fourier qui évoluent dans le temps, et la partie statistique pour recréer les éléments de bruit présents dans la portion dattaque ou pendant la production dun son (par exemple le bruit produit par un arc, par le souffle de la voix, etc) et qui ne peuvent pas être analysés de façon déterministe avec la transformée de Fourier (Vaggione, 1993). Avec ce procédé, on a confronté le dualisme acoustique (au niveau du micro-temps) entre le contrôle continu par analyse de grains, et le contrôle discontinu des grains, et on a obtenu de bons résultats. Alors, pourquoi ne pas développer cette idée et lappliquer aussi dans le domaine du macro-temps?.
2.- Lecture discontinue de fenêtres.
Des transitions entre des sons spectraux et des ébranlements sonores (Xenakis, 1971) seraient possibles en utilisant des techniques danalyse-synthèse. Il faudrait simplement avoir deux différents types de contrôle sur les fenêtres danalyse ou "grains élémentaires": lun qui corresponde aux algorithmes typiques avec lesquels on maîtrise les variations des fréquences dans le temps (sans désarroi des phases), et lautre, complètement libre, avec lequel on peut faire évoluer chaque grain de façon totalement indépendante au moyen des algorithmes stochastiques, de chaos, etc.
Imaginons une analyse de Fourier à court terme avec une fenêtre de 1024 points. Si on a un taux déchantillonnage de 44.1 Khz, notre taille de fenêtre est équivalente à un "grain" de 23.2 millièmes de seconde. Si on réalise une dilatation non linéaire, les valeurs de dilatation commencent à changer dans le temps, et on commence à écarter les fenêtres en ayant toujours un taux qui varie, mais de façon constant. Si on applique tout dun coup un algorithme qui fait que les fenêtres sécartent de façon discontinue et on commence aussi à changer la fréquence de chaque fenêtre, on aura des artefacts sonores, mais ensuite, les fenêtres deviendront des grains autonomes et on aura une synthèse granulaire asynchrone. En ce qui concerne la région où lon a une désorganisation des phases, je pense que lon doit pouvoir prévoir de manière statistique le type de bruit que lon aura par rapport à lalgorithme que lon veut utiliser.
Serra et Smith (Serra & Smith, 1990) ont utilisé un contrôle statistique sur les fenêtres danalyse en utilisant toujours la même taille de fenêtre. Néanmoins, on pourrait aussi faire varier la taille au moment où lon commence à séparer les fenêtres de façon discontinue; de cette manière on pourrait les agrandir en même temps quelles sécartent et avoir alors des "grains" de plus en plus grands, et qui pourraient devenir des textures, et ensuite des motifs rythmiques. Les ondelettes de Malvar seraient peut-être idéales pour effectuer ce type de processus, car elles constituent des grains avec des caractéristiques musicales (leur attaque, corps et chute sont similaires aux notes des instruments), et en plus, leur taille change au cours du temps, de même que leur enveloppe.
Le processus que je viens de décrire nest pas le seul possible. Lidée dappliquer des algorithmes stochastiques aux "grains élémentaires" danalyse peut être réalisé de différentes manières. Par exemple, avec les ondelettes, on a plusieurs échelles de "grains" de différente longueur (cest-à-dire, différentes couches de "grains", chaque couche ayant des grains de longueur différente). On pourrait déconstruire un signal sonore de manière granulaire avant deffectuer la re-synthèse, en éliminant de façon statistique des grains de différentes échelles. Cette granulation pourrait se faire de façon progressive entre les différentes échelles, et on pourrait ainsi avoir des effets de filtrage par zones spectrales; seulement, ici le filtrage est discret et discontinue, car on laisse toujours quelques grains dans les régions quon est en train de filtrer. Ce processus de type "passoire" fait partie dune transformation dans le micro-temps, mais on pourrait aussi effectuer des dilatations et des contractions différentes pour chaque couche, en même temps que lon effectue la déconstruction granulaire, ou au contraire, on pourrait combiner leffet "aquatique" de changement temporel (effectué par Kronland-Martinet) avec une surproduction dondelettes contrôlées de manière stochastique, en utilisant différents algorithmes et différentes densités sur chaque couche de grains.
On peut imaginer dautres types de contrôle de "grains élémentaires" danalyse. Par exemple, lidée davoir différentes techniques danalyse combinées dans un même algorithme (Best Basis ), qui a été proposée par Coifman (1992), pourrait être utilisée en musique pour lanalyse, la transformation, et la re-synthèse. Ainsi, on aurait une gamme de grains assez différents au moment de reconstruire le signal. Il y a enfin une grande variété de possibilités pour le mélange des transformations courantes des techniques danalyse-synthèse et des transformations des techniques granulaires traditionnelles. Mais est-ce que cette mixture pourrait vraiment nous conduire à la création dune synthèse globale, avec laquelle nous serions capables de travailler dans les différentes échelles du temps simultanément?.
3.- À la recherche des techniques danalyse-synthèse qui fonctionnent dans les différentes échelles temporelles.
On a étudié les problèmes quon a rencontré avec lanalyse dun signal sonore, particulièrement ceux qui concernent le principe dincertitude de Heisenberg. Dautre part, on sait que lanalyse globale dun signal déployé autant dans le micro-temps que dans le macro-temps sera toujours difficile, car linteraction entre les différentes échelles temporelles est de caractère non-linéaire, et on doit en plus tenir compte du contexte musical (Vaggione, 1993). Toutefois, on a vu aussi quune série de techniques nouvelles (ondelettes) et leur hybridation peuvent être dune aide précieuse pour améliorer la situation. Le principe dincertitude sera toujours là, mais des "grains élémentaires" tels que les ondelettes qui fonctionnent dans différentes échelles temporelles (et qui sont précises en temps), en combinaison avec des grains plus précis dans le domaine de la fréquence, peuvent être combinés pour obtenir une analyse plus précise et globale.
En ce qui concerne la transformation et la re-synthèse dun signal sonore, on a les mêmes problèmes que pour lanalyse, mais notre attitude est beaucoup plus détendue et flexible, car ce qui nous intéresse est la création de sons nouveaux tout en gardant un contrôle complet au moment de les réaliser, en ayant toutefois une certain marge derreur qui peut être prévisible avec un peu dexpérience. Linteraction non-linéaire entre les différentes échelles rend difficile la tâche deffectuer une synthèse globale dans le micro et le macro-temps. Selon Vaggione, on ne peut pas avoir une syntaxe commune pour travailler dans les différents domaines du temps (Vaggione, 1993). Il est vrai que si lon veut unir les techniques danalyse-synthèse (qui fonctionnent mieux dans le micro-temps), aux techniques de synthèse granulaire traditionnelles (qui fonctionnent mieux dans le macro-temps) il faut recourir à une série dalgorithmes de contrôle différents qui ont des conceptions de syntaxe différentes. Ceci rend possible la création dune technique de synthèse qui englobe les domaines temps-fréquence de façon équilibrée. Toutefois, on aura toujours des effets non contrôlables, mais que lon peut plus ou moins prévoir et utiliser en notre faveur. Peut-être que ces moments dindétermination inévitables - où lon nest ni dans le domaine du contrôle fin des fréquences, ni dans le domaine du contrôle stochastique des textures, des masses, et du rythme - pourraient être observés, acceptés, et mis en valeur musicale avec une philosophie cageienne.
Deux dernières remarques: il nest obligé que le contrôle des "grains" dans le macro-temps soit de caractère stochastique; on peut avoir des structures granulaires prototypes préconçues et qui sont déclenchées par des algorithmes de base qui peuvent à leur tour être transformés. On développera ce sujet dans le chapitre six sur les différents mécanismes de contrôle des grains. Dautre part, mes propositions dans cette dernière section du chapitre demeureront théoriques (et peut-être utopiques?) car malheureusement, je ne suis ni mathématicien, ni spécialiste en traitement de signal, et par conséquent, je nai aucun moyen de les mettre en forme. Jespère tout de même quelles auront quelque utilité, et quun chercheur sy intéressera et en tiendra compte delles pour réaliser des expériences. Néanmoins, lidée dincorporer le micro-temps avec le macro-temps dans une même technique de synthèse a été développée de façon théorique et pratique par moi et par Gerhard Eckel au moyen de la synthèse granulaire formantique (Eckel, Rocha Iturbide, 1995). Cette technique (qui nappartient pas aux techniques danalyse-synthèse) fonctionne bien dans les domaines du temps et de la fréquence, et elle pourrait être incorporée aux techniques danalyse-synthèse (Rodet et dAlessandro, 1989) et servir de "lapis philosophale" pour la création dune synthèse multi-échelles. Cette méthode sera traitée en détail dans le chapitre suivant.