Sprachsynthese

Die wichtigsten Eigenschaften eines Sprachsynthesesystems sind Natürlichkeit und Verständlichkeit. Natürlichkeit beschreibt, wie eng die Ausgabe wie menschliche Sprache klingt, während Verständlichkeit die Leichtigkeit ist, mit der die Ausgabe verstanden wird. Der ideale Sprachsynthesizer ist sowohl natürlich als auch verständlich. Sprachsynthesesesysteme versuchen normalerweise, beide Eigenschaften zu maximieren.

Die beiden primären Technologien, die synthetische Sprachwellenformen erzeugen, sind die verkettete Synthese und die Formantensynthese., Jede Technologie hat Stärken und Schwächen, und die beabsichtigte Verwendung eines Synthesesystems bestimmt typischerweise, welcher Ansatz verwendet wird.

Verkettungssynthesedit

Hauptartikel: Verkettungssynthese

Die Verkettungssynthese basiert auf der Verkettung (oder Aneinanderreihung) von Segmenten aufgezeichneter Sprache. Im Allgemeinen erzeugt die verkettete Synthese die natürlichste synthetisierte Sprache., Unterschiede zwischen natürlichen Sprachvariationen und der Art der automatisierten Techniken zum Segmentieren der Wellenformen führen jedoch manchmal zu hörbaren Störungen in der Ausgabe. Es gibt drei Hauptuntertypen der verkettenativen Synthese.

Unit selection synthesisEdit

Unit selection synthesis verwendet große Datenbanken mit aufgezeichneter Sprache. Während der Datenbankerstellung wird jede aufgezeichnete Äußerung in einige oder alle der folgenden Bereiche unterteilt: einzelne Telefone, Zifferblätter, Halbtelefone, Silben, Morpheme, Wörter, Phrasen und Sätze., Typischerweise erfolgt die Aufteilung in Segmente unter Verwendung eines speziell modifizierten Spracherkenners, der auf einen Modus „erzwungene Ausrichtung“ mit einer manuellen Korrektur eingestellt ist, wobei visuelle Darstellungen wie Wellenform und Spektrogramm verwendet werden. Ein Index der Einheiten in der Sprachdatenbank wird dann basierend auf der Segmentierung und den akustischen Parametern wie Grundfrequenz (Tonhöhe), Dauer, Position in der Silbe und benachbarten Telefonen erstellt. Zur Laufzeit wird die gewünschte Zielaussage erstellt, indem die beste Kette von Kandidateneinheiten aus der Datenbank bestimmt wird (Einheitenauswahl)., Dieser Prozess wird typischerweise unter Verwendung eines speziell gewichteten Entscheidungsbaums erreicht.

Die Auswahl der Einheit bietet die größte Natürlichkeit, da nur eine geringe Menge an digitaler Signalverarbeitung (DSP) auf die aufgezeichnete Sprache angewendet wird. DSP macht aufgenommene Sprache oft weniger natürlich, obwohl einige Systeme eine kleine Menge an Signalverarbeitung am Punkt der Verkettung verwenden, um die Wellenform zu glätten. Die Ausgabe der besten Einheitsauswahlsysteme ist oft nicht von echten menschlichen Stimmen zu unterscheiden, insbesondere in Kontexten, für die das TTS-System abgestimmt wurde., Maximale Natürlichkeit erfordert jedoch in der Regel, dass Sprachdatenbanken mit Einheitenauswahl sehr groß sind, und zwar in einigen Systemen, die bis in die Gigabyte aufgezeichneter Daten reichen und Dutzende von Stunden Sprache darstellen. Es ist auch bekannt, dass Einheitsauswahlalgorithmen Segmente von einem Ort auswählen, der zu einer weniger als idealen Synthese führt (z. B. werden kleinere Wörter unklar), selbst wenn eine bessere Wahl in der Datenbank vorhanden ist. Kürzlich haben Forscher verschiedene automatisierte Methoden vorgeschlagen, um unnatürliche Segmente in Sprachsynthesesesystemen mit Einheitsauswahl zu erkennen.,

Diphone synthesisEdit

Diphone synthesis verwendet eine minimale Sprachdatenbank, die alle Diphones (Sound-to-Sound-Übergänge) enthält, die in einer Sprache vorkommen. Die Anzahl der Diphones hängt von der Phonotaktik der Sprache ab: Zum Beispiel hat Spanisch etwa 800 Diphones und Deutsch etwa 2500. Bei der Diphonsynthese ist nur ein Beispiel für jedes Diphone in der Sprachdatenbank enthalten. Zur Laufzeit wird die Zielprosodie eines Satzes diesen minimalen Einheiten mittels digitaler Signalverarbeitungstechniken wie linearer prädiktiver Codierung, PSOLA oder MBROLA überlagert., oder neuere Techniken wie Tonhöhenmodifikation im Quellbereich mit diskreter Kosinustransformation. Die Diphonsynthese leidet unter den klanglichen Störungen der Verkettungssynthese und der roboterklingenden Natur der Formantsynthese und hat nur wenige der Vorteile eines der beiden Ansätze außer der geringen Größe. Daher nimmt seine Verwendung in kommerziellen Anwendungen ab, obwohl sie weiterhin in der Forschung verwendet wird, da es eine Reihe frei verfügbarer Softwareimplementierungen gibt. Ein frühes Beispiel für die Diphonsynthese ist ein Lehrroboter, Leachim, der von Michael J. Freeman erfunden wurde., Leachim enthielt Informationen über den Lehrplan der Klasse und bestimmte biografische Informationen über die 40 Schüler, für die es programmiert war. Es wurde in einem Klassenzimmer der vierten Klasse in der Bronx, New York, getestet.

Domänenspezifische Syntheseedit

Domänenspezifische Synthese verkettet vordefinierte Wörter und Phrasen, um vollständige Äußerungen zu erstellen. Es wird in Anwendungen verwendet, bei denen die Vielfalt der Texte, die das System ausgibt, auf eine bestimmte Domäne beschränkt ist, wie z. B. Durchgangszeitplanankündigungen oder Wetterberichte., Die Technologie ist sehr einfach zu implementieren und wird seit langem in Geräten wie sprechenden Uhren und Taschenrechnern kommerziell eingesetzt. Die Natürlichkeit dieser Systeme kann sehr hoch sein, da die Vielfalt der Satztypen begrenzt ist und sie eng mit der Prosodie und Intonation der Originalaufnahmen übereinstimmen.

Da diese Systeme durch die Wörter und Phrasen in ihren Datenbanken begrenzt sind, sind sie nicht universell einsetzbar und können nur die Kombinationen von Wörtern und Phrasen synthetisieren, mit denen sie vorprogrammiert wurden., Das Mischen von Wörtern innerhalb der natürlich gesprochenen Sprache kann jedoch immer noch Probleme verursachen, es sei denn, die vielen Variationen werden berücksichtigt. Zum Beispiel wird in nicht-rhotischen Dialekten des Englischen das „r“ in Wörtern wie „klar“ /klklɪə /normalerweise nur ausgesprochen, wenn das folgende Wort einen Vokal als ersten Buchstaben hat (z. B. „clear out“ wird als/ ˌklɪəɹˈʌʊt /realisiert). Ebenso werden im Französischen viele letzte Konsonanten nicht mehr still, wenn ein Wort folgt, das mit einem Vokal beginnt, ein Effekt, der Liaison genannt wird., Dieser Wechsel kann nicht durch ein einfaches Wortverkettungssystem reproduziert werden, was zusätzliche Komplexität erfordern würde, um kontextsensitiv zu sein.

Formant synthesisEdit

Formant synthesis verwendet zur Laufzeit keine menschlichen Sprachbeispiele. Stattdessen wird die synthetisierte Sprachausgabe unter Verwendung der additiven Synthese und eines akustischen Modells (physikalische Modellierungssynthese) erstellt. Parameter wie Grundfrequenz, Voicing und Geräuschpegel werden im Laufe der Zeit variiert, um eine Wellenform künstlicher Sprache zu erzeugen., Diese Methode wird manchmal als regelbasierte Synthese bezeichnet; Viele verkettende Systeme haben jedoch auch regelbasierte Komponenten.Viele Systeme, die auf der Formantsynthesetechnologie basieren, erzeugen künstliche, robotisch klingende Sprache, die niemals mit menschlicher Sprache verwechselt werden würde. Maximale Natürlichkeit ist jedoch nicht immer das Ziel eines Sprachsynthesesystems, und Formantensynthesesysteme haben Vorteile gegenüber Verkettungssystemen. Formant-synthetisierte Sprache kann auch bei sehr hohen Geschwindigkeiten zuverlässig verständlich sein und die akustischen Störungen vermeiden, die häufig verkettende Systeme plagen., Hochgeschwindigkeits-synthetisierte Sprache wird von Sehbehinderten verwendet, um Computer mit einem Bildschirmleser schnell zu navigieren. Formant-Synthesizer sind normalerweise kleinere Programme als verkettete Systeme, da sie keine Datenbank mit Sprachbeispielen haben. Sie können daher in eingebetteten Systemen eingesetzt werden, in denen Speicher-und Mikroprozessorleistung besonders begrenzt sind. Da formantenbasierte Systeme die vollständige Kontrolle über alle Aspekte der Ausgabesprache haben, kann eine Vielzahl von Melodien und Intonationen ausgegeben werden, die nicht nur Fragen und Aussagen, sondern eine Vielzahl von Emotionen und Stimmtönen vermitteln.,

Beispiele für Nicht-Echtzeit -, aber hochgenaue Intonationskontrolle in der Formantsynthese umfassen die Arbeit, die in den späten 1970er Jahren für das Texas Instruments toy Speak & Spell, und in den frühen 1980er Jahren Sega arcade machines und in vielen Atari, Inc. arcade-Spiele mit den TMS5220 LPC-Chips. Die Erstellung der richtigen Intonation für diese Projekte war mühsam, und die Ergebnisse müssen noch durch Echtzeit-Text-to-Speech-Schnittstellen abgeglichen werden.,

Artikulationssynthesedit

Die Artikulationssynthese bezieht sich auf Computertechniken zur Synthese von Sprache basierend auf Modellen des menschlichen Stimmtrakts und den dort ablaufenden Artikulationsprozessen. Der erste artikulatorische Synthesizer, der regelmäßig für Laborexperimente verwendet wird, wurde Mitte der 1970er Jahre von Philip Rubin, Tom Baer und Paul Mermelstein in den Haskins Laboratories entwickelt. Dieser Synthesizer, bekannt als ASY, basierte auf Vokaltraktmodellen, die in den 1960er und 1970er Jahren von Paul Mermelstein, Cecil Coker und Kollegen in den Bell Laboratories entwickelt wurden.,

Bis vor kurzem wurden artikulatorische Synthesemodelle nicht in kommerzielle Sprachsynthesesysteme integriert. Eine bemerkenswerte Ausnahme ist das NeXT-basierte System, das ursprünglich von Trillium Sound Research, einem Spin-off-Unternehmen der University of Calgary, entwickelt und vermarktet wurde, wo ein Großteil der ursprünglichen Forschung durchgeführt wurde. Nach dem Untergang der verschiedenen Inkarnationen von NeXT (von Steve Jobs in den späten 1980er Jahren gestartet und 1997 mit Apple Computer verschmolzen) wurde die Trillium-Software unter der GNU General Public License veröffentlicht, wobei die Arbeit als gnuspeech fortgesetzt wurde., Das 1994 erstmals auf den Markt gebrachte System bietet eine vollständige artikulatorische Text-zu-Sprache-Konvertierung unter Verwendung eines Wellenleiters oder eines Übertragungsleitungsanalogs der menschlichen Mund-und Nasenwege, die vom Carré-Modell „Distinctive Region“gesteuert werden.

Neuere Synthesizer, die von Jorge C. Lucero und Kollegen entwickelt wurden, integrieren Modelle der Stimmfaltenbiomechanik, der glottalen Aerodynamik und der akustischen Wellenausbreitung in den Bronqui -, Traquea -, Nasen-und Mundhöhlen und bilden somit vollständige Systeme der physikbasierten Sprachsimulation.,

HMM-basierte Syntheseedit

Die HMM-basierte Synthese ist eine Synthesemethode, die auf versteckten Markov-Modellen basiert und auch als statistische parametrische Synthese bezeichnet wird. In diesem System werden das Frequenzspektrum (Stimmtrakt), die Grundfrequenz (Sprachquelle) und die Dauer (Prosodie) der Sprache gleichzeitig von HMMs modelliert. Sprachwellenformen werden aus HMMs selbst basierend auf dem Maximum-Likelihood-Kriterium generiert.

Sinus-Syntheseedit

Sinus-Synthese ist eine Technik zur Synthese von Sprache, indem die Formanten (Hauptbänder der Energie) durch reine Tonpfeifen ersetzt werden.,

Deep learning-based synthesisEdit

FormulationEdit

Bei einem Eingabetext oder einer Folge von Spracheinheiten Y {\displaystyle Y} kann die Zielsprache X {\displaystyle X} abgeleitet werden durch

X = arg ⁡ max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

wobei θ {\displaystyle \theta } ist der Modellparameter.

Typischerweise wird der Eingabetext zuerst an einen akustischen Merkmalsgenerator übergeben, dann werden die akustischen Merkmale an den neuronalen Vocoder übergeben. Für den akustischen Merkmalsgenerator ist die Verlustfunktion typischerweise L1 – oder L2-Verlust., Diese Verlustfunktionen schränken ein, dass die akustischen Merkmalsverteilungen der Ausgabe Gauß-oder Laplazian sein müssen. In der praxis, da die menschliche stimme band reicht von etwa 300 zu 4000 Hz, die verlust funktion wird entwickelt, um haben mehr straf auf diese palette:

l o s s = α verlust menschlichen + ( 1 − α ) verlust andere {\displaystyle verlust=\alpha {\text{verlust}}_{\text{mensch}}+(1-\alpha ){\text{verlust}}_{\text{andere}}}

wo verlust menschlichen {\displaystyle {\text{verlust}}_{\text{human}}} ist der Verlust von Human voice band und α {\displaystyle \alpha } ist ein Skalar typischerweise um 0,5., Das akustische Merkmal ist typischerweise Spektrogramm oder Spektrogramm in Mel-Skala. Diese Merkmale erfassen das Zeit-Frequenz-Verhältnis des Sprachsignals und somit genügt es, mit diesen akustischen Merkmalen intelligente Ausgänge zu erzeugen. Die in der Spracherkennungsaufgabe verwendete Mel-Frequenz-Cepstrum-Funktion ist für die Sprachsynthese nicht geeignet, da sie zu viele Informationen reduziert.

Kurze Geschichtedit

Im September 2016 schlug DeepMind WaveNet vor, ein deep generatives Modell von Raw-Audio-Wellenformen., Dies zeigt der Community, dass Deep Learning – basierte Modelle die Fähigkeit haben, rohe Wellenformen zu modellieren und bei der Erzeugung von Sprache aus akustischen Merkmalen wie Spektrogrammen oder Spektrogrammen im Mel-Maßstab oder sogar aus einigen vorverarbeiteten Sprachmerkmalen eine gute Leistung zu erbringen. Anfang 2017 schlug Mila (Forschungsinstitut) char2wav vor, ein Modell zur Erzeugung einer rohen Wellenform in einer End-to-End-Methode. Außerdem schlugen Google und Facebook Tacotron bzw. VoiceLoop vor, um akustische Funktionen direkt aus dem Eingabetext zu generieren., Später im selben Jahr schlug Google Tacotron2 vor, das den WaveNet Vocoder mit der überarbeiteten Tacotron-Architektur kombinierte, um eine Ende-zu-Ende-Sprachsynthese durchzuführen. Tacotron2 kann qualitativ hochwertige Sprache erzeugen, die sich der menschlichen Stimme nähert. Seitdem wurden End-to-End-Methoden zum heißesten Forschungsthema, da viele Forscher auf der ganzen Welt die Leistung des End-to-End-Sprachsynthesizers bemerken.,

Vorteile und Nachteiligkeitedit

Die Vorteile von End-to-End-Methoden sind wie folgt:

Benötigt nur ein einziges Modell, um Textanalyse, akustische Modellierung und Audiosynthese durchzuführen, dh die Synthese von Sprache direkt aus Zeichen
Weniger Feature Engineering
ermöglicht auf einfache Weise eine umfassende Konditionierung verschiedener Attribute, z., lautsprecher oder sprache
Anpassung an neue daten ist einfacher
Robuster als mehrstufige modelle, weil keine komponente fehler kann verbindung
Leistungsstarke modell kapazität zu erfassen die versteckte interne strukturen von daten
In der lage zu erzeugen verständlich und natürliche sprache
Keine notwendigkeit zu pflegen eine große datenbank, dh,leiden unter langsamem Inferenzproblem
Ausgabeprobleme sind nicht robust, wenn Daten nicht ausreichen
Mangelnde Steuerbarkeit im Vergleich zu herkömmlichen verkettenden und statistischen parametrischen Ansätzen
Neigen dazu, den flachen Prosody durch Mittelwertbildung über Trainingsdaten zu lernen
Neigen dazu, geglättete akustische Merkmale auszugeben, da der l1 – oder l2-Verlust verwendet wird

ChallengesEdit

-Langsames Inferenzproblem

Um das Problem langsames Inferenzproblem, Microsoft Research und Baidu Research schlugen beide vor, nicht automatisch regressive Modelle zu verwenden, um den Inferenzprozess zu beschleunigen., Das von Microsoft vorgeschlagene FastSpeech-Modell verwendet eine Transformatorarchitektur mit einem Dauermodell, um das Ziel zu erreichen. Außerdem macht das Dauermodell, das von traditionellen Methoden leiht die Sprachproduktion robuster.

– Robustheitsproblem

Forscher fanden heraus, dass das Robustheitsproblem stark mit den Textausrichtungsfehlern zusammenhängt, und dies treibt viele Forscher dazu an, den Aufmerksamkeitsmechanismus zu überarbeiten, der die starke lokale Beziehung und die monotonen Eigenschaften von Sprache verwendet.,

– Steuerbarkeitsproblem

Um das Steuerbarkeitsproblem zu lösen, werden viele Arbeiten über Variations-Auto-Encoder vorgeschlagen.

– Flat prosody Problem

GST-Tacotron kann das Flat Prosody Problem etwas lindern, es hängt jedoch immer noch von den Trainingsdaten ab.

– Geglättetes akustisches Ausgabeproblem

Um realistischere akustische Merkmale zu erzeugen, kann eine GAN-Lernstrategie angewendet werden.

In der Praxis kann neuronaler Vocoder jedoch auch dann gut verallgemeinern, wenn die Eingabefunktionen glatter sind als echte Daten.,

Semi-supervised learningEdit

Derzeit selbst überwachtes Lernen gewinnen viel Aufmerksamkeit wegen der besseren Nutzung nicht gekennzeichneten Daten. Untersuchungen zeigen, dass mit Hilfe des selbstüberwachten Verlusts der Bedarf an gepaarten Daten abnimmt.

Zero-Shot-Lautsprecheranpassungedit

Die Zero-Shot-Lautsprecheranpassung ist vielversprechend, da ein einzelnes Modell Sprache mit verschiedenen Lautsprecherstilen und-eigenschaften erzeugen kann. Im Juni 2018 schlug Google vor, ein vortrainiertes Lautsprecherüberprüfungsmodell als Lautsprechercodierer zu verwenden, um die Lautsprechereinbettung zu extrahieren., Der Lautsprechercodierer wird dann Teil des neuronalen Text-to-Speech-Modells und kann den Stil und die Charakteristik der Ausgabesprache bestimmen. Dies zeigt der Community, dass nur die Verwendung eines einzelnen Modells zum Generieren von Sprache mit mehreren Stilen möglich ist.

Neuronale vocoderEdit

p θ ( x ) = ∏ t = 1 T p ( x t | x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\vec {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, x_{t-1})}

Wobei θ {\displaystyle \theta } der Modellparameter ist, der viele erweiterte Faltungsschichten enthält., Daher ist jedes Audio-Sample x t {\displaystyle x_{t}} daher bei allen vorherigen Zeitschritten von den Samples abhängig. Die auto-regressive Natur von WaveNet macht den Inferenzprozess jedoch dramatisch langsam. Um das langsame Inferenzproblem zu lösen, das von der auto-regressiven Eigenschaft des WaveNet-Modells herrührt, wird Paralleles WaveNet vorgeschlagen. Parallel WaveNet ist ein invers autoregressives flussbasiertes Modell, das durch Wissensdestillation mit einem vortrainierten Lehrer WaveNet-Modell trainiert wird., Da das inverse autoregressive flussbasierte Modell bei der Durchführung von Inferenzen nicht automatisch regressiv ist, ist die Inferenzgeschwindigkeit schneller als in Echtzeit. In der Zwischenzeit schlug Nvidia ein Flow-basiertes WaveGlow-Modell vor, das auch Sprache mit schneller als Echtzeit-Geschwindigkeit erzeugen kann. Trotz der hohen Inferenzgeschwindigkeit hat Parallel WaveNet jedoch die Einschränkung, dass ein vortrainiertes WaveNet-Modell erforderlich ist, und die Konvergenz von WaveGlow mit begrenzten Computergeräten dauert viele Wochen. Dieses Problem wird durch Parallel WaveGAN gelöst, das lernt, Sprache durch spektralen Verlust mit mehreren Auflösungen und GANs-Lernstrategie zu erzeugen.,