Spraaksynthese

de belangrijkste eigenschappen van een spraaksynthesesysteem zijn natuurlijkheid en verstaanbaarheid. Natuurlijkheid beschrijft hoe nauw de output klinkt als menselijke spraak, terwijl begrijpelijkheid het gemak is waarmee de output wordt begrepen. De ideale spraaksynthesizer is zowel natuurlijk als verstaanbaar. Spraaksynthesesystemen proberen meestal beide kenmerken te maximaliseren.

de twee primaire technologieën die synthetische spraakgolfvormen genereren zijn concatenatieve synthese en formante synthese., Elke technologie heeft sterke en zwakke punten, en het beoogde gebruik van een synthesesysteem zal typisch bepalen welke aanpak wordt gebruikt.

Concatenatiesynthesedit

hoofdartikel: Concatenatieve synthese

Concatenatieve synthese is gebaseerd op de aaneenschakeling (of aaneenschakeling) van segmenten van opgenomen spraak. Over het algemeen produceert concatenatieve synthese de meest natuurlijk klinkende gesynthetiseerde spraak., Echter, verschillen tussen natuurlijke variaties in spraak en de aard van de geautomatiseerde technieken voor het segmenteren van de golfvormen soms resulteren in hoorbare storingen in de output. Er zijn drie belangrijke subsoorten van concatenatieve synthese.

eenheidsselectie synthesedit

Eenheidsselectie synthese maakt gebruik van grote databases van opgenomen spraak. Tijdens het aanmaken van een database wordt elke opgenomen uiting gesegmenteerd in een aantal of alle van de volgende: individuele telefoons, diphones, halve telefoons, lettergrepen, morfemen, woorden, zinnen en zinnen., Typisch, de indeling in segmenten wordt gedaan met behulp van een speciaal aangepaste spraakherkenner ingesteld op een “geforceerde uitlijning” modus met enige handmatige correctie daarna, met behulp van visuele representaties zoals de golfvorm en spectrogram. Een index van de eenheden in de spraakdatabase wordt dan gemaakt op basis van de segmentatie en akoestische parameters zoals de fundamentele frequentie (toonhoogte), duur, positie in de lettergreep, en naburige telefoons. Tijdens het uitvoeren wordt de gewenste doeluitgave gecreëerd door de beste keten van kandidaat-eenheden uit de database te bepalen (unit selection)., Dit proces wordt meestal bereikt met behulp van een speciaal gewogen beslissingsboom.

Eenheidsselectie biedt de grootste natuurlijkheid, omdat het slechts een kleine hoeveelheid digitale signaalverwerking (DSP) toepast op de opgenomen spraak. DSP maakt vaak opgenomen spraak minder natuurlijk, hoewel sommige systemen een kleine hoeveelheid signaalverwerking gebruiken op het punt van aaneenschakeling om de golfvorm glad te maken. De output van de beste unit-selectie systemen is vaak niet te onderscheiden van echte menselijke stemmen, vooral in contexten waarvoor het TTS-systeem is afgestemd., Echter, maximale natuurlijkheid vereisen meestal eenheid – selectie spraak databases te zijn zeer groot,in sommige systemen variërend in de gigabytes aan opgenomen gegevens, die tientallen uren van spraak. Ook is het bekend dat algoritmen voor eenheidsselectie segmenten selecteren van een plaats die resulteert in minder dan ideale synthese (bijvoorbeeld kleine woorden worden onduidelijk), zelfs wanneer er een betere keuze bestaat in de database. Onlangs hebben onderzoekers verschillende geautomatiseerde methoden voorgesteld om onnatuurlijke segmenten in eenheidsselectie spraaksynthesesystemen te detecteren.,

diphonesynthesedit

Diphonesynthese gebruikt een minimale spraakdatabase met alle diphones (geluid-naar-geluidovergangen) die in een taal voorkomen. Het aantal diphones is afhankelijk van de phonotactiek van de taal: bijvoorbeeld, Spaans heeft ongeveer 800 diphones, en Duits ongeveer 2500. In de diphonesynthese is slechts één voorbeeld van elke diphone opgenomen in de spraakdatabase. Tijdens runtime wordt de doelprosodie van een zin op deze minimale eenheden gelegd door middel van digitale signaalverwerkingstechnieken zoals lineaire voorspellende codering, PSOLA of MBROLA., of meer recente technieken zoals toonhoogte wijziging in het brondomein met behulp van discrete cosinus transformatie. Diphone synthese lijdt aan de sonische glitches van concatenatieve synthese en de robotklinkende aard van formant synthese, en heeft weinig van de voordelen van een andere aanpak dan klein formaat. Als zodanig neemt het gebruik ervan in commerciële toepassingen af, hoewel het nog steeds wordt gebruikt in onderzoek omdat er een aantal vrij beschikbare software-implementaties zijn. Een vroeg voorbeeld van diphonesynthese is een leerrobot, leachim, uitgevonden door Michael J. Freeman., Leachim bevatte informatie over het lesprogramma van de klas en bepaalde biografische informatie over de 40 studenten die het was geprogrammeerd om les te geven. Het werd getest in een klas in de Bronx, New York.

domeinspecifieke synthesedit

domeinspecifieke synthese verbindt vooraf opgenomen woorden en zinnen om volledige uitingen te creëren. Het wordt gebruikt in toepassingen waar de verscheidenheid aan teksten die het systeem zal uitvoeren beperkt is tot een bepaald domein, zoals aankondigingen van transitschema ‘ s of weerberichten., De technologie is zeer eenvoudig te implementeren, en is in commercieel gebruik voor een lange tijd, in apparaten zoals praten klokken en rekenmachines. Het niveau van natuurlijkheid van deze systemen kan zeer hoog zijn omdat de verscheidenheid aan zinsdelen beperkt is, en ze sluiten nauw aan bij de prosodie en intonatie van de originele opnames.

omdat deze systemen beperkt zijn door de woorden en zinnen in hun databases, zijn ze niet algemeen en kunnen ze alleen de combinaties van woorden en zinnen samenstellen waarmee ze voorgeprogrammeerd zijn., Het mengen van woorden binnen natuurlijk gesproken taal kan echter nog steeds problemen veroorzaken, tenzij er rekening wordt gehouden met de vele variaties. Bijvoorbeeld, in niet-rhotische dialecten van het Engels wordt de” r “in woorden als” clear “meestal alleen uitgesproken als het volgende woord een klinker als eerste letter heeft (bijvoorbeeld” clear out ” wordt gerealiseerd als /klkləəˈt/). Ook in het Frans worden veel Laatste medeklinkers niet langer stil als ze worden gevolgd door een woord dat begint met een klinker, een effect dat liaison wordt genoemd., Deze afwisseling kan niet worden gereproduceerd door een eenvoudige woordcombinatie, die extra complexiteit vereist om contextgevoelig te zijn.

Formant synthesedit

Formant synthesedit Gebruikt geen menselijke spraakmonsters tijdens runtime. In plaats daarvan wordt de gesynthetiseerde spraakuitvoer gemaakt met behulp van additieve synthese en een akoestisch model (physical modelling synthesis). Parameters zoals fundamentele frequentie, intonatie en geluidsniveaus worden in de loop van de tijd gevarieerd om een golfvorm van kunstmatige spraak te creëren., Deze methode wordt soms op regels gebaseerde synthese genoemd, maar veel concatenatieve systemen hebben ook op regels gebaseerde componenten.Veel systemen op basis van formant synthese technologie genereren kunstmatige, robotachtig klinkende spraak die nooit zou worden verward met menselijke spraak. Echter, maximale natuurlijkheid is niet altijd het doel van een spraaksynthese systeem, en formant synthese systemen hebben voordelen ten opzichte van concatenatieve systemen. Formant-gesynthetiseerde spraak kan betrouwbaar verstaanbaar zijn, zelfs bij zeer hoge snelheden, het vermijden van de akoestische storingen die gewoonlijk pest concatenatieve systemen., High-speed gesynthetiseerde spraak wordt gebruikt door visueel gehandicapten om snel te navigeren computers met behulp van een schermlezer. Formant synthesizers zijn meestal kleinere programma ‘ s dan concatenatieve systemen omdat ze geen database van spraak samples hebben. Ze kunnen daarom worden gebruikt in embedded systemen, waar geheugen en microprocessorvermogen bijzonder beperkt zijn. Omdat formant-gebaseerde systemen hebben volledige controle over alle aspecten van de output spraak, een breed scala aan prosodies en intonaties kan worden uitgevoerd, het overbrengen van niet alleen vragen en verklaringen, maar een verscheidenheid van emoties en tonen van de stem.,

voorbeelden van niet-real-time maar zeer nauwkeurige intonatie controle in formant synthese zijn het werk gedaan in de late jaren 1970 voor de Texas Instruments toy Speak & Spell, en in de vroege jaren 1980 Sega arcade machines en in vele Atari, Inc. arcade games met behulp van de Tms5220 LPC Chips. Het creëren van de juiste intonatie voor deze projecten was nauwgezet, en de resultaten moeten nog worden geëvenaard door Realtime tekst-naar-spraak interfaces.,

Articulatory synthesedit

Articulatory synthesis verwijst naar computationele technieken voor het synthetiseren van spraak op basis van modellen van het menselijke stemkanaal en de articulatieprocessen die daar optreden. De eerste articulatorische synthesizer die regelmatig voor laboratoriumexperimenten werd gebruikt, werd in het midden van de jaren zeventig ontwikkeld door Philip Rubin, Tom Baer en Paul Mermelstein. Deze synthesizer, bekend als ASY, was gebaseerd op vocal tract modellen ontwikkeld door Bell Laboratories in de jaren 1960 en 1970 door Paul Mermelstein, Cecil Coker, en collega ‘ s.,

tot voor kort werden articulatoire synthesemodellen niet opgenomen in commerciële spraaksynthesesystemen. Een opmerkelijke uitzondering is het NeXT-based systeem oorspronkelijk ontwikkeld en op de markt gebracht door Trillium Sound Research, een spin-off bedrijf van de Universiteit van Calgary, waar veel van het oorspronkelijke onderzoek werd uitgevoerd. Na de ondergang van de verschillende incarnaties van NeXT (gestart door Steve Jobs in de late jaren 1980 en samengevoegd met Apple Computer in 1997), werd de Trillium software gepubliceerd onder de GNU General Public License, met werk voortgezet als gnuspeech., Het systeem, voor het eerst op de markt gebracht in 1994, biedt volledige articulatoire-gebaseerde tekst-naar-spraak conversie met behulp van een golfgeleider of transmissie-lijn analoog van de menselijke orale en nasale traktaten gecontroleerd door Carré ‘ s “onderscheidende regio model”.meer recente synthesizers, ontwikkeld door Jorge C. Lucero en collega ‘ s, bevatten modellen van vocal fold biomechanica, glottale aerodynamica en akoestische golfvoortplanting in de bronqui, traquea, nasale en orale holtes, en vormen dus volledige systemen van op fysica gebaseerde spraaksimulatie.,

HMM-gebaseerde synthesedit

HMM-gebaseerde synthese is een synthesemethode gebaseerd op verborgen Markov-modellen, ook wel statistische parametrische synthese genoemd. In dit systeem worden het frequentiespectrum (stemkanaal), de fundamentele frequentie (stembron) en de duur (prosodie) van spraak gelijktijdig gemodelleerd door HMMs. Spraakgolfvormen worden gegenereerd uit Hmm ‘ s zelf op basis van het maximale waarschijnlijkheidscriterium.

Sinewave synthesedit

Sinewave synthesedit is een techniek voor het synthetiseren van spraak door de formanten (hoofdbanden van energie) te vervangen door zuivere toonfluitjes.,

deep learning-based synthesizedit

Formulatiedit

gegeven een invoertekst of een reeks van linguïstische eenheid Y {\displaystyle Y} , kan de doelspeech X {\displaystyle X} worden afgeleid door

X = arg max max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

waar θ {\displaystyle \Theta } is de modelparameter.

gewoonlijk wordt de invoertekst eerst doorgegeven aan een akoestische functiegenerator, waarna de akoestische functies worden doorgegeven aan de neurale vocoder. Voor de akoestische functiegenerator is de verliesfunctie meestal L1 of L2 verlies., Deze verlies functies stellen een beperking dat de output akoestische functie distributies moet Gaussian of Laplacian zijn. In de praktijk, omdat de menselijke stem band varieert van ongeveer 300 tot 4000 Hz, het verlies van de functie worden ontworpen om meer penality op deze bereik:

l o s s = α verlies human + ( 1 − α ) verlies uit de andere {\displaystyle verlies=\alpha {\text{verlies}}_{\text{menselijke}}+(1-\alpha ){\text{verlies}}_{\text{andere}}}

waar verlies van de menselijke {\displaystyle {\text{verlies}}_{\text{menselijke}}} is het verlies van de menselijke stem band en α {\displaystyle \alpha } is een scalaire meestal rond de 0.5., De akoestische functie is typisch Spectrogram of spectrogram in Mel schaal. Deze functies leggen de tijd-frequentie relatie van het spraaksignaal vast en daarmee is het voldoende om intelligente uitgangen te genereren met deze akoestische functies. De Mel-frequentie cepstrum-functie die bij de spraakherkenningstaak wordt gebruikt, is niet geschikt voor spraaksynthese omdat het te veel informatie vermindert.

Brief historyEdit

in September 2016 stelde DeepMind WaveNet voor, een deep generative model van raw audio golfvormen., Dit toont de Gemeenschap dat deep learning-gebaseerde modellen de mogelijkheid hebben om ruwe golfvormen te modelleren en goed presteren op het genereren van spraak van akoestische kenmerken zoals spectrograms of spectrograms in mel-schaal, of zelfs van sommige vooraf verwerkte taalkundige kenmerken. Begin 2017 stelde Mila (research institute) char2wav voor, een model om ruwe golfvormen te produceren in een end-to-end methode. Ook, Google en Facebook voorgesteld Tacotron en VoiceLoop, respectievelijk, om akoestische functies rechtstreeks uit de invoertekst te genereren., Later in hetzelfde jaar stelde Google Tacotron2 voor, die de wavenet vocoder combineerde met de herziene Tacotronarchitectuur om end-to-end spraaksynthese uit te voeren. Tacotron2 kan hoogwaardige spraak genereren die de menselijke stem benadert. Sindsdien werden end-to-end methoden het heetste onderzoeksonderwerp omdat veel onderzoekers over de hele wereld de kracht van de end-to-end spraaksynthesizer beginnen op te merken.,

voor-en nadelen edit

De voordelen van end-to-end methoden zijn als volgt:

heeft slechts één model nodig om tekstanalyse, akoestische modellering en audiosynthese uit te voeren, d.w.z. spraak rechtstreeks uit karakters synthetiseren
minder feature engineering
zorgt gemakkelijk voor rijke conditionering op verschillende attributen, bijv., luidspreker of taal
aanpassing aan nieuwe gegevens is eenvoudiger
robuuster dan meertrapsmodellen, omdat geen enkele component fout
kan compounden krachtige modelcapaciteit om de verborgen interne structuren van gegevens vast te leggen
in staat om begrijpelijke en natuurlijke spraak te genereren
geen behoefte om een grote database te onderhouden, d.w.z.,
gebrek aan controleerbaarheid in vergelijking met traditionele concatenatieve en statistische parametrische benaderingen
neigen om de vlakke prosodie te leren door middel van het gemiddelde over trainingsgegevens
neigen om vloeiende akoestische kenmerken uit te voeren omdat het L1 – of L2-verlies wordt gebruikt

ChallengesEdit

-Slow inference problem

m het probleem van de langzame gevolgtrekking op te lossen, stelden Microsoft Research en Baidu Research beide voor om niet-Auto-regressieve modellen te gebruiken om het gevolgproces sneller te maken., Het FastSpeech-model dat door Microsoft wordt voorgesteld, gebruikt Transformatorarchitectuur met een duurmodel om het doel te bereiken. Bovendien maakt het duurmodel dat leent van traditionele methoden de spraakproductie robuuster.

– Robuustheidsprobleem

onderzoekers vonden dat het robuustheidsprobleem sterk gerelateerd is aan de fouten bij het uitlijnen van tekst, en dit drijft veel onderzoekers ertoe het aandachtsmechanisme te herzien dat gebruik maakt van de sterke lokale relatie en monotone eigenschappen van spraak.,

– Controleerbaarheidsprobleem

om het controleerbaarheidsprobleem op te lossen, worden veel werken over variationele auto-encoder voorgesteld.

– probleem met platte prosodie

GST-Tacotron kan het probleem met platte prosodie enigszins verlichten, maar het hangt nog steeds af van de trainingsgegevens.

– Smoothed acoustic output problem

om meer realistische akoestische functies te genereren, kan GAN-leerstrategie worden toegepast.

in de praktijk kan neurale vocoder echter goed generaliseren, zelfs wanneer de invoerfuncties soepeler zijn dan echte gegevens.,

Halfgecontroleerd leren edit

op dit moment krijgt zelfgecontroleerd leren veel aandacht door beter gebruik te maken van niet-gelabelde gegevens. Onderzoek toont aan dat met behulp van self-supervised loss, de behoefte aan gepaarde gegevens afneemt.

Zero-shot luidsprekeradaptatiedit

Zero-shot luidsprekeradaptatie is veelbelovend omdat een enkel model spraak kan genereren met verschillende luidsprekerstijlen en-kenmerken. In juni 2018 stelde Google voor om een vooraf opgeleid speakerverificatiemodel te gebruiken als luidsprekercodeerder om de inbedding van luidsprekers te extraheren., De luidspreker encoder wordt dan een deel van de neurale tekst-naar-spraak model en het kan de stijl en karakteristiek van de output spraak bepalen. Dit laat de Gemeenschap zien dat alleen het gebruik van een enkel model om spraak van meerdere stijl te genereren mogelijk is.

neurale vocoderEdit

p θ ( x ) = ∏ t = 1 t p ( x t / x 1 , . . . , x t – 1) {\displaystyle p_{\theta }(\mathbf {x}) =\prod _{t=1}^{t}p(x_{t}|x_{1},…, x_{t-1})}

waarbij θ {\displaystyle \ theta } de modelparameter is, inclusief vele verwijde convolutielagen., Daarom is elk audiomonster x t {\displaystyle x_{t}} daarom geconditioneerd op de samples tijdens alle voorgaande timesteps. Echter, de auto-regressieve aard van WaveNet maakt de gevolgtrekking proces dramatisch traag. Om de langzame gevolgtrekking probleem dat afkomstig is van de auto-regressieve karakteristiek van WaveNet model op te lossen, Parallel WaveNet wordt voorgesteld. Parallel WaveNet is een inverse autoregressieve flow-gebaseerd model dat wordt getraind door kennisdistillatie met een voorgetraind wavenet-model., Aangezien inverse autoregressieve flow-based model niet-auto-regressief is bij het uitvoeren van gevolgtrekking, is de gevolgsnelheid sneller dan real-time. In de tussentijd, NVIDIA voorgesteld een stroom-gebaseerde WaveGlow model dat ook spraak kan genereren met sneller dan real-time snelheid. Ondanks de hoge inferentiesnelheid heeft parallel WaveNet echter de beperking van de behoefte aan een vooraf opgeleid WaveNet-model en WaveGlow duurt vele weken om te convergeren met beperkte computerapparatuur. Deze kwestie wordt opgelost door parallelle WaveGAN die leert om toespraak door multi-resolutie spectraal verlies en GANs het leren strategie te produceren.,