Les qualités les plus importantes d’un système de synthèse vocale sont le naturel et l’intelligibilité. Le naturel décrit à quel point la sortie ressemble à la parole humaine, tandis que l’intelligibilité est la facilité avec laquelle la sortie est comprise. Le synthétiseur vocal idéal est à la fois naturel et intelligible. Les systèmes de synthèse vocale essaient généralement de maximiser les deux caractéristiques.
Les deux technologies principales générant des formes d’onde de la parole synthétique sont la synthèse concaténative et la synthèse de formants., Chaque technologie a des forces et des faiblesses, et les utilisations prévues d’un système de synthèse détermineront généralement quelle approche est utilisée.
synthèse de Concaténationmodifier
la synthèse Concaténative est basée sur la concaténation (ou l’enchaînement) de segments de discours enregistrés. Généralement, la synthèse concaténative produit le discours synthétisé le plus naturel., Cependant, les différences entre les variations naturelles de la parole et la nature des techniques automatisées de segmentation des formes d’onde entraînent parfois des problèmes audibles dans la sortie. Il existe trois sous-types principaux de synthèse concaténative.
unit selection synthesisEdit
Unit selection synthesis utilise de grandes bases de données de discours enregistrés. Lors de la création de la base de données, chaque énoncé enregistré est segmenté en tout ou partie des éléments suivants: téléphones individuels, diphones, demi-téléphones, Syllabes, morphèmes, mots, phrases et phrases., En règle générale, la division en segments se fait à l’aide d’un reconnaissance vocale spécialement modifié réglé sur un mode « alignement forcé » avec une correction manuelle par la suite, en utilisant des représentations visuelles telles que la forme d’onde et le spectrogramme. Un index des unités dans la base de données vocale est ensuite créé en fonction de la segmentation et des paramètres acoustiques tels que la fréquence fondamentale (hauteur), la durée, la position dans la syllabe et les téléphones voisins. Au moment de l’exécution, l’énoncé cible souhaité est créé en déterminant la meilleure chaîne d’unités candidates à partir de la base de données (Sélection d’unités)., Ce processus est généralement réalisé à l’aide d’un arbre de décision spécialement pondéré.
la sélection de L’unité offre le plus grand naturel, car elle n’applique qu’une petite quantité de traitement numérique du signal (DSP) à la parole enregistrée. Le DSP rend souvent le son de la parole enregistrée moins naturel, bien que certains systèmes utilisent une petite quantité de traitement du signal au point de concaténation pour lisser la forme d’onde. La sortie des meilleurs systèmes de sélection d’unités est souvent indiscernable des voix humaines réelles, en particulier dans les contextes pour lesquels le système TTS a été réglé., Cependant, la naturalité maximale nécessite généralement des bases de données vocales à sélection d’unité très volumineuses, dans certains systèmes allant dans les gigaoctets de données enregistrées, représentant des dizaines d’heures de parole. En outre, les algorithmes de sélection d’unités ont été connus pour sélectionner des segments à partir d’un endroit qui se traduit par une synthèse moins qu’idéale (par exemple, des mots mineurs deviennent peu clairs) même lorsqu’un meilleur choix existe dans la base de données. Récemment, des chercheurs ont proposé diverses méthodes automatisées pour détecter les segments non naturels dans les systèmes de synthèse vocale à sélection d’unités.,
diphone synthesisEdit
Diphone synthesis utilise une base de données vocale minimale contenant tous les diphones (transitions son-son) se produisant dans une langue. Le nombre de diphones dépend de la phonotactique de la langue: par exemple, l’Espagnol compte environ 800 diphones et l’Allemand environ 2500. Dans la synthèse de diphone, un seul exemple de chaque diphone est contenu dans la base de données vocale. Lors de l’exécution, la prosodie cible d’une phrase est superposée à ces unités minimales au moyen de techniques de traitement numérique du signal telles que le codage prédictif linéaire, PSOLA ou MBROLA., ou des techniques plus récentes telles que la modification de hauteur dans le domaine source à l’aide de la Transformée de cosinus discrète. La synthèse Diphone souffre des problèmes sonores de la synthèse concaténative et de la nature robotisée de la synthèse formante, et a peu d’avantages de l’une ou l’autre approche autre que la petite taille. En tant que tel, son utilisation dans des applications commerciales diminue, bien qu’il continue d’être utilisé dans la recherche car il existe un certain nombre d’implémentations logicielles disponibles gratuitement. Un exemple précoce de synthèse de Diphone est un robot d’enseignement, leachim, qui a été inventé par Michael J. Freeman., Leachim contenait des informations sur le programme d’études de la classe et certaines informations biographiques sur les 40 étudiants qu’il était programmé pour enseigner. Il a été testé dans une classe de quatrième année dans le Bronx, New York.
synthesisEdit spécifique à un domaine
la synthèse spécifique à un domaine concatène des mots et des phrases préenregistrés pour créer des énoncés complets. Il est utilisé dans des applications où la variété de textes que le système produira est limitée à un domaine particulier, comme les annonces d’horaires de transit ou les rapports météorologiques., La technologie est très simple à mettre en œuvre et est utilisée commercialement depuis longtemps dans des appareils tels que les horloges parlantes et les calculatrices. Le niveau de naturel de ces systèmes peut être très élevé car la variété des types de phrases est limitée et ils correspondent étroitement à la prosodie et à l’intonation des enregistrements originaux.
étant donné que ces systèmes sont limités par les mots et les phrases de leurs bases de données, ils ne sont pas à usage général et ne peuvent synthétiser que les combinaisons de mots et de phrases avec lesquelles ils ont été préprogrammés., Le mélange des mots dans la langue naturellement parlée peut cependant encore poser des problèmes à moins que les nombreuses variations ne soient prises en compte. Par exemple, dans les dialectes Non rhotiques de l’anglais, le « r » dans des mots comme « clear » /ˈkləə/ n’est généralement prononcé que lorsque le mot suivant a une voyelle comme première lettre (par exemple, « clear out » est réalisé comme /klkləəˈˈtt/). De même en français, de nombreuses consonnes finales ne deviennent plus silencieuses si elles sont suivies d’un mot qui commence par une voyelle, un effet appelé liaison., Cette alternance ne peut pas être reproduite par un simple système de concaténation de mots, ce qui nécessiterait une complexité supplémentaire pour être sensible au contexte.
formant synthesisEdit
Formant synthesis n’utilise pas d’échantillons de parole humaine lors de l’exécution. Au lieu de cela, la sortie de la parole synthétisée est créée en utilisant la synthèse additive et un modèle acoustique (synthèse de modélisation physique). Des paramètres tels que la fréquence fondamentale, la voix et les niveaux de bruit varient au fil du temps pour créer une forme d’onde de la parole artificielle., Cette méthode est parfois appelée synthèse basée sur des règles; cependant, de nombreux systèmes concaténatifs ont également des composants basés sur des règles.De nombreux systèmes basés sur la technologie de synthèse de formants génèrent un discours artificiel à consonance robotique qui ne serait jamais confondu avec un discours humain. Cependant, le naturel maximal n’est pas toujours l’objectif d’un système de synthèse vocale, et les systèmes de synthèse formante présentent des avantages par rapport aux systèmes concaténatifs. La parole synthétisée par un Formant peut être intelligible de manière fiable, même à des vitesses très élevées, évitant ainsi les problèmes acoustiques qui affligent couramment les systèmes concaténatifs., La parole synthétisée à grande vitesse est utilisée par les malvoyants pour naviguer rapidement sur les ordinateurs à l’aide d’un lecteur d’écran. Les synthétiseurs formants sont généralement des programmes plus petits que les systèmes concaténatifs car ils n’ont pas de base de données d’échantillons de parole. Ils peuvent donc être utilisés dans les systèmes embarqués, où la mémoire et la puissance du microprocesseur sont particulièrement limitées. Parce que les systèmes à base de formants ont un contrôle complet de tous les aspects du discours de sortie, une grande variété de prosodies et d’intonations peuvent être produites, transmettant non seulement des questions et des déclarations, mais une variété d’émotions et de tons de voix.,
des exemples de contrôle d’intonation non en temps réel mais très précis dans la synthèse de formants incluent le travail effectué à la fin des années 1970 pour le jouet Texas Instruments Speak & Spell, et au début des années 1980 sur les machines d’arcade Sega et dans de nombreux Atari, Inc. jeux d’arcade utilisant les puces TMS5220 LPC. Créer une intonation appropriée pour ces projets a été laborieux, et les résultats doivent encore être appariés par des interfaces de synthèse vocale en temps réel.,
synthèse Articulatoiredit
la synthèse articulatoire fait référence aux techniques informatiques de synthèse de la parole basées sur des modèles du tractus vocal humain et des processus d’articulation qui s’y produisent. Le premier synthétiseur articulatoire régulièrement utilisé pour des expériences de laboratoire a été développé aux laboratoires Haskins au milieu des années 1970 par Philip Rubin, Tom Baer et Paul Mermelstein. Ce synthétiseur, connu sous le nom D’ASY, était basé sur des modèles de voies vocales développés aux Laboratoires Bell dans les années 1960 et 1970 par Paul Mermelstein, Cecil Coker et ses collègues.,
Jusqu’à récemment, les modèles de synthèse articulatoire n’ont pas été incorporés dans les systèmes de synthèse vocale commerciaux. Une exception notable est le système NeXT-based initialement développé et commercialisé par Trillium Sound Research, une entreprise dérivée de l’Université de Calgary, où une grande partie de la recherche originale a été menée. Après la disparition des différentes incarnations de NeXT (commencé par Steve Jobs à la fin des années 1980 et fusionné avec Apple Computer en 1997), le logiciel Trillium a été publié sous la Licence Publique Générale GNU, le travail se poursuivant sous le nom de gnuspeech., Le système, commercialisé pour la première fois en 1994, fournit une conversion texte-parole complète basée sur l’articulation à l’aide d’un guide d’ondes ou d’un analogue de ligne de transmission des voies buccales et nasales humaines contrôlé par le « modèle de région distinctive »de Carré.
des synthétiseurs plus récents, développés par Jorge C. Lucero et ses collègues, intègrent des modèles de biomécanique du pli vocal, d’aérodynamique glottale et de propagation des ondes acoustiques dans les cavités bronqui, traquea, nasale et buccale, et constituent ainsi des systèmes complets de simulation de la parole basée sur la physique.,
synthèse basée sur HMMMODIFIER
la synthèse basée sur HMM est une méthode de synthèse basée sur des modèles de Markov cachés, également appelée synthèse paramétrique statistique. Dans ce système, le spectre de fréquence (tractus vocal), la fréquence fondamentale (Source vocale) et la durée (prosodie) de la Parole sont modélisés simultanément par HMMs. Les formes d’onde vocales sont générées à partir de HMMs eux-mêmes en fonction du critère de maximum de vraisemblance.
sinewave synthesisEdit
la synthèse Sinewave est une technique de synthèse de la parole en remplaçant les formants (bandes principales d’énergie) par des sifflets à tonalité pure.,
synthèse basée sur L’apprentissage Profondmodifier
Formulationmodifier
étant donné un texte d’entrée ou une séquence d’unité linguistique Y {\displaystyle Y} , le discours cible X {\displaystyle X} peut être dérivé par
X = arg max max P ( X | Y , θ ) {\displaystyle X=\arg \max p(X|y,\theta)}
où θ {\displaystyle \THETA } est le paramètre du modèle.
En règle générale, le texte d’entrée sera d’abord transmis à un générateur d’entités acoustiques, puis les entités acoustiques seront transmises au vocodeur neuronal. Pour le générateur de caractéristiques acoustiques, la fonction de perte est généralement la perte L1 ou L2., Ces fonctions de perte imposent une contrainte selon laquelle les distributions de caractéristiques acoustiques de sortie doivent être gaussiennes ou Laplaciennes. En pratique, étant donné que la bande de voix humaine varie d’environ 300 à 4000 Hz, la fonction de perte sera conçue pour avoir plus de pénalité sur cette plage:
L o s s = α perte humaine + ( 1 − α ) perte autre {\displaystyle perte=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}}
où perte humaine {\displaystyle {\text{loss}}_{\text{human}}} est la perte de la bande vocale humaine et α {\displaystyle \Alpha } est un scalaire généralement autour de 0,5., La caractéristique acoustique est généralement un spectrogramme ou un spectrogramme à l’échelle Mel. Ces caractéristiques capturent la relation temps-fréquence du signal vocal et il suffit donc de générer des sorties intelligentes avec ces caractéristiques acoustiques. La fonction cepstrum de fréquence Mel utilisée dans la tâche de reconnaissance vocale ne convient pas à la synthèse vocale car elle réduit trop d’informations.
brève histoireModifier
en septembre 2016, DeepMind a proposé WaveNet, un modèle génératif profond de formes d’onde audio brutes., Cela montre à la communauté que les modèles basés sur l’apprentissage profond ont la capacité de modéliser des formes d’onde brutes et de générer de la parole à partir de fonctionnalités acoustiques telles que des spectrogrammes ou des spectrogrammes à l’échelle mel, ou même à partir de certaines fonctionnalités linguistiques prétraitées. Début 2017, Mila (Institut de recherche) a proposé char2wav, un modèle pour produire une forme d’onde brute dans une méthode de bout en bout. En outre, Google et Facebook ont proposé Tacotron et VoiceLoop, respectivement, pour générer des fonctionnalités acoustiques directement à partir du texte d’entrée., Plus tard dans la même année, Google a proposé Tacotron2 qui combinait le vocodeur WaveNet avec L’architecture Tacotron révisée pour effectuer une synthèse vocale de bout en bout. Tacotron2 peut générer un discours de haute qualité s’approchant de la voix humaine. Depuis lors, les méthodes de bout en bout sont devenues le sujet de recherche le plus chaud parce que de nombreux chercheurs du monde entier commencent à remarquer la puissance du synthétiseur vocal de bout en bout.,
avantages et désavantagesmodifier
Les avantages des méthodes de bout en bout sont les suivants:
- Il suffit D’un seul modèle pour effectuer l’analyse de texte, la modélisation acoustique et la synthèse audio, c’est-à-dire synthétiser la parole directement à partir de caractères
- moins d’ingénierie de fonctionnalités
- plus robuste que les modèles à plusieurs étages car aucune erreur de Composant ne peut compliquer
- puissant modèle capable de capturer les structures internes cachées des données
- Capable de générer un discours intelligible et naturel
- pas besoin de maintenir une grande base de données, c’est-à-dire,
- Les discours de sortie ne sont pas robustes lorsque les données ne sont pas suffisantes
- manque de contrôlabilité par rapport aux approches paramétriques concaténatives et statistiques traditionnelles
- ont tendance à apprendre la prosodie plate en faisant la moyenne sur les données d’entraînement
- ont tendance à produire des caractéristiques acoustiques lissées résoudre le problème de l’inférence lente, Microsoft Research et Baidu Research ont tous deux proposé d’utiliser des modèles non auto – régressifs pour accélérer le processus d’inférence., Le modèle FastSpeech proposé par Microsoft utilise L’architecture Transformer avec un modèle de durée pour atteindre l’objectif. En outre, le modèle de durée qui emprunte aux méthodes traditionnelles rend la production de la parole plus robuste.
– problème de Robustesse
Les chercheurs ont constaté que le problème de robustesse est fortement lié aux échecs d’alignement de texte, ce qui pousse de nombreux chercheurs à réviser le mécanisme d’attention qui utilise la forte relation locale et les propriétés monotones de la parole.,
– problème de contrôlabilité
pour résoudre le problème de contrôlabilité, de nombreux travaux sur l’auto-encodeur variationnel sont proposés.
– problème de prosodie plate
GST-Tacotron peut légèrement atténuer le problème de prosodie plate, cependant, cela dépend toujours des données d’entraînement.
– problème de sortie acoustique lissée
pour générer des caractéristiques acoustiques plus réalistes, la stratégie D’apprentissage GAN peut être appliquée.
Cependant, en pratique, le vocodeur neuronal peut bien se généraliser même lorsque les fonctionnalités d’entrée sont plus fluides que les données réelles.,
apprentissage semi-supervisémodifier
actuellement, l’apprentissage auto-supervisé gagne beaucoup d’attention en raison d’une meilleure utilisation des données non étiquetées. La recherche montre qu’avec l’aide de la perte auto-supervisée, le besoin de données appariées diminue.
zero-shot speaker adaptationmodifier
L’adaptation Zero-shot speaker est prometteuse car un seul modèle peut générer de la parole avec différents styles et caractéristiques de haut-parleurs. En juin 2018, Google a proposé d’utiliser un modèle de vérification de haut-parleur pré-formé comme encodeur de haut-parleur pour extraire l’intégration de haut-parleur., L’encodeur de haut-parleur devient alors une partie du modèle de synthèse vocale neuronale et il peut décider du style et des caractéristiques du discours de sortie. Cela montre à la communauté qu’il n’est possible d’utiliser qu’un seul modèle pour générer un discours de plusieurs styles.
vocoderEdit neuronal
p θ ( x ) = ∏ t = 1 T P ( x T / x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, x_{t-1})}
Où θ {\displaystyle \theta } est le paramètre du modèle incluant de nombreuses couches de convolution dilatées., Par conséquent, chaque échantillon audio x T {\displaystyle x_ {t}} est donc conditionné sur les échantillons à tous les timesteps précédents. Cependant, la nature auto-régressive de WaveNet rend le processus d’inférence considérablement lent. Pour résoudre le problème d’inférence lente qui provient de la caractéristique Auto-régressive du modèle WaveNet, WaveNet parallèle est proposé. Parallel WaveNet est un modèle basé sur un flux autorégressif inverse qui est formé par distillation des connaissances avec un modèle WaveNet de professeur pré-formé., Étant donné que le modèle basé sur un flux autorégressif inverse n’est pas auto-régressif lors de l’inférence, la vitesse d’inférence est plus rapide que le temps réel. Dans le même temps, Nvidia a proposé un modèle WaveGlow basé sur le flux qui peut également générer de la parole avec une vitesse plus rapide que celle du temps réel. Cependant, malgré la vitesse d’inférence élevée, Parallel WaveNet a la limitation du besoin d’un modèle WaveNet pré-entraîné et WaveGlow prend de nombreuses semaines pour converger avec des périphériques informatiques limités. Ce problème est résolu par Parallel WaveGAN qui apprend à produire de la parole par perte spectrale multi-résolution et stratégie D’apprentissage GANs.,
l’Adaptation aux nouvelles données est plus facile