de viktigaste egenskaperna hos ett talsyntessystem är naturlighet och begriplighet. Naturlighet beskriver hur nära utgången låter som mänskligt tal, medan begriplighet är den lätthet med vilken utgången förstås. Den idealiska talsyntesen är både naturlig och begriplig. Talsyntessystem försöker vanligtvis maximera båda egenskaperna.
de två primära teknologierna som genererar syntetiska talvågformer är konkatenativ syntes och formant syntes., Varje teknik har styrkor och svagheter, och den avsedda användningen av ett syntessystem kommer vanligtvis att avgöra vilket tillvägagångssätt som används.
Concatenation synthesisEdit
Concatenative synthesis är baserad på sammanslagning (eller sammanbindning) av segment av inspelat tal. I allmänhet producerar konkatenativ syntes det mest naturliga ljudande syntetiserade talet., Skillnader mellan naturliga variationer i tal och arten av de automatiserade teknikerna för segmentering av vågformerna resulterar emellertid ibland i hörbara glitches i utgången. Det finns tre huvudsakliga subtyper av konkatenativ syntes.
enhetsval synthesisEdit
enhetsvalssyntes använder stora databaser med inspelat tal. Under databas skapande, är varje inspelad yttrande segmenteras i några eller alla av följande: enskilda telefoner, telefoner, halv-telefoner, stavelser, morphemes, ord, fraser och meningar., Typiskt görs uppdelningen i segment med hjälp av en speciellt modifierad taligenkännare inställd på ett ”tvångsinriktning” – läge med viss manuell korrigering efteråt, med hjälp av visuella representationer som vågform och spektrogram. Ett index av enheterna i taldatabasen skapas sedan baserat på segmentering och akustiska parametrar som den grundläggande frekvensen (tonhöjd), varaktighet, position i stavelsen och närliggande telefoner. Vid körning skapas önskat måluttalande genom att bestämma den bästa kedjan av kandidatenheter från databasen (enhetsval)., Denna process uppnås vanligtvis med hjälp av ett speciellt vägt beslutsträd.
enhetsval ger den största naturligheten, eftersom den endast gäller en liten mängd digital signalbehandling (DSP) för det inspelade talet. DSP gör ofta inspelat tal ljud mindre naturligt, även om vissa system använder en liten mängd signalbehandling vid sammanfogningspunkten för att släta vågformen. Utgången från de bästa enhetsvalssystemen är ofta omöjlig att skilja från verkliga mänskliga röster, särskilt i sammanhang för vilka TTS-systemet har ställts in., Men maximal naturlighet kräver vanligtvis enhetsval taldatabaser att vara mycket stora, i vissa system som sträcker sig in i gigabyte av inspelade data, som representerar dussintals timmar av tal. Enhetsvalsalgoritmer har också varit kända för att välja segment från en plats som resulterar i mindre än idealisk syntes (t.ex. mindre ord blir oklara) även när ett bättre val finns i databasen. Nyligen har forskare föreslagit olika automatiserade metoder för att upptäcka onaturliga segment i enhetsval talsyntessystem.,
Diphone synthesisEdit
Diphone synthesis använder en minimal taldatabas som innehåller alla diphones (ljud-till-ljud övergångar) som förekommer på ett språk. Antalet telefoner beror på språkets fonotaktik: till exempel har spanska cirka 800 telefoner och tyska ca 2500. I diphone-syntes finns endast ett exempel på varje diphone i taldatabasen. Vid körning läggs målet prosodi av en mening på dessa minimala enheter med hjälp av digitala signalbehandlingstekniker som linjär prediktiv kodning, PSOLA eller MBROLA., eller nyare tekniker som pitch modifiering i källdomänen med diskreta cosinus transform. Diphone synthesis lider av sonic glitches of concatenative synthesis och den robotic-sounding naturen av formant synthesis, och har få av fördelarna med antingen tillvägagångssätt annat än liten storlek. Som sådan minskar dess användning i kommersiella applikationer, även om den fortsätter att användas i forskning eftersom det finns ett antal fritt tillgängliga mjukvaruimplementeringar. Ett tidigt exempel på Diphone synthesis är en undervisningsrobot, leachim, som uppfanns av Michael J. Freeman., Leachim innehöll information om klasskurrikulär och viss biografisk information om de 40 studenter som den var programmerad att undervisa. Det testades i ett klassrum i fjärde klass i Bronx, New York.
domänspecifik synthesisEdit
domänspecifik syntes sammanfogar förinspelade ord och fraser för att skapa fullständiga uttalanden. Den används i applikationer där de olika texter som systemet kommer att mata är begränsad till en viss domän, som transiteringsschemat meddelanden eller väderrapporter., Tekniken är mycket enkel att genomföra, och har varit i kommersiell användning under lång tid, i enheter som talande klockor och räknare. Nivån på naturen hos dessa system kan vara mycket hög eftersom de olika meningstyperna är begränsade, och de matchar noggrant prosodi och intonation hos de ursprungliga inspelningarna.
eftersom dessa system begränsas av ord och fraser i sina databaser är de inte allmänna ändamål och kan bara syntetisera kombinationerna av ord och fraser som de har förprogrammerats med., Blandning av ord inom naturligt talat språk kan dock fortfarande orsaka problem om inte de många variationerna beaktas. Till exempel, i icke-rhotiska dialekter av engelska är ”r” i ord som ”clear” /փklփə/ vanligtvis endast uttalas när följande ord har en vokal som sin första bokstav (t.ex. ”clear out” realiseras som /expressione/). På samma sätt på franska blir många slutliga konsonanter inte längre tysta om de följs av ett ord som börjar med en vokal, en effekt som kallas samverkan., Denna växling kan inte reproduceras med ett enkelt ordkonkatenationssystem, vilket skulle kräva ytterligare komplexitet att vara kontextkänslig.
formant synthesisEdit
formant synthesis använder inte mänskliga talprover vid körning. Istället skapas den syntetiserade talutgången med hjälp av additiv syntes och en akustisk modell (fysisk modelleringssyntes). Parametrar som grundläggande frekvens, uttryck och bullernivåer varieras över tiden för att skapa en vågform av artificiellt tal., Denna metod kallas ibland regelbaserad syntes; men många konkatenativa system har också regelbaserade komponenter.Många system baserade på formant syntes teknik genererar artificiell, Robot klingande tal som aldrig skulle misstas för mänskligt tal. Maximal naturlighet är dock inte alltid målet för ett talsyntessystem, och formant syntessystem har fördelar jämfört med konkatenativa system. Formant-syntetiserat tal kan vara tillförlitligt begripligt, även vid mycket höga hastigheter, vilket undviker de akustiska glitches som vanligtvis pestar sammanfogande system., Höghastighets syntetiserat tal används av synskadade för att snabbt navigera datorer med en skärmläsare. Formant synthesizers är vanligtvis mindre program än konkatenativa system eftersom de inte har en databas med talprover. De kan därför användas i inbyggda system, där minne och mikroprocessorkraft är särskilt begränsade. Eftersom formant-baserade system har fullständig kontroll över alla aspekter av produktionen tal, kan en mängd olika prosodier och intonationer matas ut, förmedla inte bara frågor och uttalanden, men en mängd olika känslor och toner av röst.,
exempel på icke-realtid men mycket noggrann intonationskontroll i formant syntes inkluderar arbetet i slutet av 1970-talet för Texas Instruments toy Speak & stava, och i början av 1980-talet Sega arcade maskiner och i många Atari, Inc. arkadspel med Tms5220 LPC Chips. Att skapa korrekt intonation för dessa projekt var noggrant, och resultaten har ännu inte matchats av realtid text-till-tal-gränssnitt.,
Articulatory synthesisEdit
Articulatory synthesis refererar till beräkningsmetoder för att syntetisera tal baserat på modeller av det mänskliga vokalområdet och de artikulationsprocesser som förekommer där. Den första articulatory synthesizer som regelbundet används vid laborationer har utvecklats på Haskins Laboratorier i mitten av 1970-talet av Filip Rubin, Tom Baer, och Paul Mermelstein. Denna synthesizer, känd som ASY, baserades på vokalbanemodeller som utvecklades på Bell Laboratories på 1960-och 1970-talet av Paul Mermelstein, Cecil Coker och kollegor.,
fram till nyligen har artikulatoriska syntesmodeller inte införlivats i kommersiella talsyntessystem. Ett anmärkningsvärt undantag är Nästa-baserat system som ursprungligen utvecklades och marknadsförs av Trillium Sund Forskning, ett avknoppningsföretag från Universitetet i Calgary, där en stor del av den ursprungliga forskningen genomfördes. Efter att de olika inkarnationerna av NeXT (startades av Steve Jobs i slutet av 1980-talet och slogs samman med Apple Computer 1997) publicerades Trillium-programvaran under GNU General Public License, med arbete som fortsätter som gnuspeech., Systemet, som först marknadsförs i 1994, ger fullständig artikulatorisk baserad text-till-tal-omvandling med hjälp av en vågledare eller överföringslinjeanalog av de mänskliga orala och nasala trakterna som styrs av Carrés ”distinkta regionmodell”.
nyare synthesizers, utvecklad av Jorge C. Lucero och kollegor, införliva modeller av vocal fold biomekanik, glottal aerodynamik och akustisk vågutbredning i bronqui, traquea, nasala och orala håligheter, och därmed utgör hela system för fysikbaserad talsimulering.,
hmm-baserad synthesisEdit
hmm-baserad syntes är en syntesmetod baserad på dolda Markov-modeller, även kallad statistisk parametrisk syntes. I detta system modelleras frekvensspektrum (vokalkanal), grundläggande frekvens (röstkälla) och varaktighet (prosodi) av tal samtidigt av HMMs. Talvågformer genereras från hmms själva baserat på kriteriet maximal sannolikhet.
sinewave synthesisEdit
sinewave synthesis är en teknik för att syntetisera tal genom att ersätta formanterna (huvudband av energi) med ren ton visselpipor.,
Deep learning-based synthesisEdit
FormulationEdit
givet en inmatningstext eller någon sekvens av språklig enhet Y {\displaystyle Y} , måltalet X {\displaystyle X} kan härledas av
X = arg max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}
var θ {\displaystyle \Theta } är modellparametern.
typiskt kommer inmatningstexten först att skickas till en akustisk funktionsgenerator, sedan skickas de akustiska funktionerna till neural vocoder. För den akustiska funktionsgeneratorn är Förlustfunktionen typiskt L1 eller L2-förlust., Dessa förlustfunktioner begränsar att de utgående akustiska funktionsfördelningarna måste vara gaussiska eller Laplacian. I praktiken, eftersom det mänskliga röstbandet sträcker sig från cirka 300 till 4000 Hz, kommer förlustfunktionen att vara utformad för att ha mer straffbarhet på detta intervall:
L o S S = α loss human + ( 1 − α ) loss other {\displaystyle loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}}
där loss human {\displaystyle {\text{loss}}_{\text{Human}}} är förlusten från mänskligt Röstband och α {\displaystyle \Alpha } är en skalär typiskt runt 0.5., Den akustiska funktionen är typiskt spektrogram eller spektrogram i Mel skala. Dessa funktioner fångar talsignalens tidsfrekvensrelation och det är därför tillräckligt att generera intelligenta utgångar med dessa akustiska egenskaper. Funktionen Mel-frequency cepstrum som används i taligenkänningsuppgiften är inte lämplig för talsyntes eftersom det minskar för mycket information.
Brief historyEdit
i September 2016 föreslog DeepMind WaveNet, en djup generativ modell av råa ljudvågformer., Detta visar samhället att djupa inlärningsbaserade modeller har förmågan att modellera råa vågformer och prestera bra på att generera tal från akustiska funktioner som spektrogram eller spektrogram i mel-skala, eller till och med från vissa förbehandlade språkliga funktioner. I början av 2017 föreslog Mila (research institute) char2wav, en modell för att producera rå vågform i en end-to-end-metod. Dessutom föreslog Google och Facebook tacotron respektive VoiceLoop för att generera akustiska funktioner direkt från inmatningstexten., I det senare samma år föreslog Google Tacotron2 som kombinerade WaveNet vocoder med den reviderade tacotronarkitekturen för att utföra end-to-end talsyntes. Tacotron2 kan generera högkvalitativt tal som närmar sig den mänskliga rösten. Sedan dess blev end-to-end-metoder det hetaste forskningsämnet eftersom många forskare runt om i världen börjar märka kraften i end-to-end talsyntesen.,
fördelar och nackdelarredigera
fördelarna med end-to-end-metoder är följande:
- behöver bara en enda modell för att utföra textanalys, akustisk modellering och ljudsyntes, dvs syntetisera tal direkt från tecken
- mindre funktionsteknik
- möjliggör enkelt rik konditionering på olika attribut, t. ex., högtalare eller språk
- anpassning till nya data är lättare
- mer robusta än flerstegsmodeller eftersom ingen komponentens fel kan sammanfoga
- kraftfull modellkapacitet för att fånga de dolda interna strukturerna av data
- kan generera begripliga och naturliga tal
- inget behov av att upprätthålla en stor databas, dvs.,lider av långsam inferens problem
- Output tal är inte robust när data inte är tillräckliga
- brist på styrbarhet jämfört med traditionella konkatenativa och statistiska parametriska metoder
- tenderar att lära sig den platta prosodi genom att medelvärdera över träningsdata
- tenderar att mata ut jämnas akustiska funktioner eftersom L1 eller L2 förlust används
ChallengesEdit
– långsam inferens problem
att lös det långsamma inferensproblemet, Microsoft Research och Baidu Research föreslog båda att använda icke-Auto-regressiva modeller för att göra inferensprocessen snabbare., Den FastSpeech modell som föreslagits av Microsoft använder transformator arkitektur med en varaktighet modell för att uppnå målet. Dessutom gör tidsmodellen som lånar från traditionella metoder talproduktionen mer robust.
– Robusthetsproblem
forskare fann att robusthetsproblemet är starkt relaterat till textjusteringsfel, och detta driver många forskare att revidera uppmärksamhetsmekanismen som utnyttjar den starka lokala relationen och monotoniska egenskaperna hos tal.,
– Kontrollerbarhets problem
för att lösa styrbarhetsproblemet föreslås många arbeten om variational auto-encoder.
– Flat prosody problem
GST-Tacotron kan lätt lindra det platta prosody problemet, men det beror fortfarande på träningsdata.
– utjämnad akustisk utgång problem
för att generera mer realistiska akustiska funktioner, gan lärande strategi kan tillämpas.
men i praktiken kan neural vocoder generalisera bra även när inmatningsfunktionerna är smidigare än riktiga data.,
semi-övervakad learningEdit
för närvarande får självövervakad inlärning mycket uppmärksamhet på grund av bättre utnyttjande av omärkta data. Forskning visar att med hjälp av självövervakad förlust minskar behovet av parade data.
Zero-shot speaker adaptationEdit
Zero-shot speaker anpassning är lovande eftersom en enda modell kan generera tal med olika högtalarstilar och karakteristiska. I juni 2018 föreslog Google att använda förutbildad högtalarverifieringsmodell som högtalarkodare för att extrahera högtalarinbäddning., Högtalarkodaren blir då en del av den neurala text-till-tal-modellen och den kan bestämma stilen och karaktäristiken för utmatningstalet. Detta visar samhället att det bara är möjligt att använda en enda modell för att generera tal med flera stilar.
Neural vocoderEdit
p θ ( x) = 1 t p ( x t / x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, x_{t-1})}
där θ {\displaystyle \theta } är modellparametern inklusive många dilaterade konvolutionsskikt., Därför är varje ljudprov x t {\displaystyle x_{t}} därför konditionerat på proverna vid alla tidigare tidpunkter. Den automatiska regressiva naturen hos WaveNet gör emellertid inferensprocessen dramatiskt långsam. För att lösa det långsamma inferensproblemet som kommer från den automatiska regressiva egenskapen hos WaveNet-modellen, föreslås parallell WaveNet. Parallel WaveNet är en omvänd autoregressiv flödesbaserad modell som utbildas genom kunskaps destillation med en förutbildad lärare WaveNet modell., Eftersom omvänd autoregressiv flödesbaserad modell är icke-auto-regressiv vid inferens är inferenshastigheten snabbare än i realtid. Under tiden föreslog Nvidia en flödesbaserad WaveGlow-modell som också kan generera tal med snabbare än realtidshastighet. Trots den höga inferenshastigheten har parallell WaveNet begränsningen av behovet av en förutbildad WaveNet-modell och WaveGlow tar många veckor att konvergera med begränsade datorer. Denna fråga löses av parallell WaveGAN som lär sig att producera tal genom multi-resolution spectral loss och GANs learning strategy.,