de vigtigste kvaliteter af et talesyntesesystem er naturlighed og forståelighed. Naturlighed beskriver, hvor tæt output lyder som menneskelig tale, mens forståelighed er den lethed, hvormed output forstås. Den ideelle talesynthesi .er er både naturlig og forståelig. Talesyntesesystemer forsøger normalt at maksimere begge egenskaber.

de to primære teknologier, der genererer syntetiske talebølgeformer, er sammenkædet syntese og formant syntese., Hver teknologi har styrker og svagheder, og de tilsigtede anvendelser af et syntesesystem vil typisk bestemme, hvilken tilgang der anvendes.

Sammenkædning syntesedit

Hovedartikel: Sammenkædning syntese

Sammenkædning syntese er baseret på sammenkædning (eller snor sammen) af segmenter af optaget tale. Generelt producerer konkatenativ syntese den mest naturligt klingende syntetiserede tale., Forskelle mellem naturlige variationer i tale og arten af de automatiserede teknikker til segmentering af bølgeformerne resulterer dog undertiden i hørbare fejl i output. Der er tre hovedundertyper af konkatenativ syntese.

enhedsvalg syntetiseredit

enhedsvalgsyntese bruger store databaser med optaget tale. Under databaseoprettelse er hver Optaget udtale opdelt i nogle eller alle følgende: individuelle telefoner, diphones, halvtelefoner, stavelser, morfemer, ord, sætninger og sætninger., Opdelingen i segmenter udføres typisk ved hjælp af et specielt modificeret talegenkendelsessæt til en “tvungen justering” – tilstand med en vis manuel korrektion bagefter ved hjælp af visuelle repræsentationer såsom bølgeform og spektrogram. Derefter oprettes et indeks over enhederne i taledatabasen baseret på segmenterings-og akustiske parametre som den grundlæggende frekvens (tonehøjde), varighed, position i stavelsen og tilstødende telefoner. Ved kørselstid oprettes den ønskede måludtalelse ved at bestemme den bedste kæde af kandidatenheder fra databasen (valg af enhed)., Denne proces opnås typisk ved hjælp af et specielt vægtet beslutningstræ.enhedsvalg giver den største naturlighed, fordi det kun gælder en lille mængde digital signalbehandling (DSP) til den optagede tale. DSP gør ofte optaget talelyd mindre naturlig, selvom nogle systemer bruger en lille mængde signalbehandling på sammenkædningspunktet for at glatte bølgeformen. Udgangen fra de bedste enhedsvalgssystemer kan ofte ikke skelnes fra rigtige menneskelige stemmer, især i sammenhænge, som TTS-systemet er indstillet til., Imidlertid kræver maksimal naturlighed typisk, at taledatabaser til enhedsvalg er meget store, i nogle systemer, der spænder ind i gigabyte af registrerede data, der repræsenterer snesevis af timers tale. Enhedsalgoritmer har også været kendt for at vælge segmenter fra et sted, der resulterer i mindre end ideel syntese (f.eks. mindre ord bliver uklare), selv når der findes et bedre valg i databasen. For nylig har forskere foreslået forskellige automatiserede metoder til at detektere unaturlige segmenter i enhedsvalg talesyntesesystemer.,

Diphone synthesisEdit

Diphone synthesis bruger en minimal taledatabase, der indeholder alle diphones (lyd-til-lyd-overgange), der forekommer på et sprog. Antallet af diphones afhænger af sprogets fonotaktik: for eksempel har spansk omkring 800 diphones og tysk omkring 2500. I diphone-syntese findes kun et eksempel på hver diphone i taledatabasen. Ved runtime overlejres målprosodien af en sætning på disse minimale enheder ved hjælp af digitale signalbehandlingsteknikker såsom lineær forudsigelig kodning, PSOLA eller mbrola., eller nyere teknikker såsom tonehøjdeændring i kildedomænet ved hjælp af diskret cosinuetransformation. Diphone syntese lider af de soniske glitches af concatenative syntese og robot-klingende karakter af formant syntese, og har få af fordelene ved enten tilgang end Lille størrelse. Som sådan er brugen i kommercielle applikationer faldende, selvom den fortsat bruges i forskning, fordi der er en række frit tilgængelige soft .areimplementeringer. Et tidligt eksempel på Diphone syntese er en undervisningsrobot, leachim, der blev opfundet af Michael J. Freeman., Leachim indeholdt oplysninger om læseplanerne og visse biografiske oplysninger om de 40 studerende, som det var programmeret til at undervise. Det blev testet i en fjerde klasse klasseværelse i Bron., ne. York.

Domænespecifik syntetisedit

Domænespecifik syntese sammenkæder forudindspillede ord og sætninger for at skabe komplette udtryk. Det bruges i applikationer, hvor forskellige tekster systemet vil output er begrænset til et bestemt domæne, ligesom transit tidsplan meddelelser eller vejrudsigter., Teknologien er meget enkel at implementere og har været i kommerciel brug i lang tid i enheder som talende Ure og regnemaskiner. Niveauet af naturlighed af disse systemer kan være meget højt, fordi forskellige sætningstyper er begrænsede, og de passer tæt sammen med prosodien og intonationen af de originale optagelser.

da disse systemer er begrænset af ordene og sætningerne i deres databaser, er de ikke generelle formål og kan kun syntetisere kombinationerne af ord og sætninger, som de er forprogrammeret med., Blanding af ord inden for naturligt talesprog kan dog stadig forårsage problemer, medmindre der tages hensyn til de mange variationer. For eksempel I ikke-rhotiske dialekter af engelsk er “r” i ord som “clear” /klkl // normalt kun udtalt, når følgende ord har en vokal som sit første bogstav (f. “clear out” er realiseret som /klkltt/). Ligeledes på fransk bliver mange endelige konsonanter ikke længere tavse, hvis de efterfølges af et ord, der begynder med en vokal, en effekt kaldet liaison., Denne vekselvirkning kan ikke gengives med et simpelt ord-Sammenkædning system, hvilket ville kræve yderligere kompleksitet for at være kontekstfølsom.

Formant synthesisEdit

Formant synthesis bruger ikke menneskelige taleprøver ved kørsel. I stedet er den syntetiserede tale output skabt ved hjælp af additiv syntese og en akustisk model (fysisk modellering syntese). Parametre som grundlæggende frekvens, voicing og støjniveauer varieres over tid for at skabe en bølgeform af kunstig tale., Denne metode kaldes undertiden regelbaseret syntese; imidlertid, mange sammenkædede systemer har også regelbaserede komponenter.Mange systemer baseret på formant synteseteknologi genererer kunstig, robotklingende tale, der aldrig ville forveksles med menneskelig tale. Imidlertid er maksimal naturlighed ikke altid målet med et talesyntesesystem, og formante syntesesystemer har fordele i forhold til sammenkædede systemer. Formant-syntetiseret tale kan være pålideligt forståelig, selv ved meget høje hastigheder, undgå de akustiske fejl, der ofte plager sammenkædede systemer., Højhastighedssyntetiseret tale bruges af synshandicappede til hurtigt at navigere i computere ved hjælp af en skærmlæser. Formant synthesi .ers er normalt mindre programmer end sammenkædede systemer, fordi de ikke har en database med taleprøver. De kan derfor bruges i indlejrede systemer, hvor hukommelse og mikroprocessoreffekt er særligt begrænset. Fordi formantbaserede systemer har fuldstændig kontrol over alle aspekter af outputtalen, kan en lang række prosodier og intonationer udsendes, hvilket ikke kun formidler spørgsmål og udsagn, men en række følelser og toner af stemme.,

Eksempler på ikke-real-time, men meget præcise intonation kontrol i formant syntese omfatter arbejde, der er udført i slutningen af 1970’erne til Texas Instruments toy Tale & Stav, og i begyndelsen af 1980’erne Sega arcade maskiner og i mange Atari, Inc. arcade spil ved hjælp af tms5220 LPC Chips. Oprettelse ordentlig intonation for disse projekter var omhyggelige, og resultaterne har endnu ikke modsvares af real-time tekst-til-tale-grænseflader.,

Articulatory synthesisEdit

Articulatory syntese refererer til teknikker for at syntetisere tale baseret på modeller af den menneskelige vocal-tarmkanalen og artikulation processer, der foregår der. Den første articulatory synthesizer, som regelmæssigt anvendes til laboratorie-eksperimenter, der blev udviklet på Haskins Laboratorier i midten af 1970’erne af Philip Rubin, Tom Baer, og Paul Mermelstein. Denne synthesizer, der er kendt som ASY, var baseret på vokal-tarmkanalen modeller, der er udviklet på Bell Laboratories i 1960’erne og 1970’erne af Paul Mermelstein, Cecil Coker, og kolleger.,

indtil for nylig er artikulatoriske syntesemodeller ikke blevet inkorporeret i kommercielle talesyntesesystemer. En bemærkelsesværdig undtagelse er det næste-baserede system, der oprindeligt blev udviklet og markedsført af Trillium Sound Research, et spin-off-selskab fra University of Calgary, hvor meget af den oprindelige forskning blev udført. Efter lukningen af de forskellige inkarnationer af Næste (startet af Steve Jobs i slutningen af 1980’erne og fusionerede med Apple Computer i 1997), Trillium software udgivet under GNU General Public License, med arbejde fortsætter som gnuspeech., Systemet, første gang markedsført i 1994, giver fuld articulatory-baseret tekst-til-tale-konvertering ved hjælp af en waveguide eller transmission-line analog af den menneskelige oral og nasal skrifter, der kontrolleres af Carré ‘ s “markant region model”.

nyere synthesizere, der er udviklet af Jorge C. Lucero og kolleger, optage modeller af vocal fold biomekanik, stød, aerodynamik og akustisk bølgeudbredelse i bronqui, traquea, nasal og oral hulrum, og således udgøre en fuld systemer i fysik-baserede tale simulation.,

HMM-baseret syntesedit

HMM-baseret syntese er en syntesemetode baseret på skjulte Markov-modeller, også kaldet statistisk parametrisk syntese. I dette system modelleres frekvensspektret (vokalkanal), grundlæggende frekvens (stemmekilde) og varighed (prosodi) af tale samtidigt af Hmm ‘ er. Talebølgeformer genereres fra Hmm ‘ er selv baseret på kriteriet om maksimal sandsynlighed.

Sinusbølge synthesisEdit

Sinusbølge syntese er en teknik til at syntetisere tale ved udskiftning af formants (vigtigste bands of energy) med ren tone fløjter.,

Dyb læring-baseret synthesisEdit

FormulationEdit

Givet en indgående tekst-eller nogle sekvens af sproglig enhed Y {\displaystyle Y} , målet tale X {\displaystyle X} kan udledes ved at

X = arg ⁡ max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

hvor θ {\displaystyle \theta } er den model parameter.

typisk overføres indtastningsteksten først til en akustisk funktionsgenerator, derefter overføres de akustiske funktioner til den neurale vocoder. For den akustiske funktion generator, Tab funktion er typisk L1 eller L2 tab., Disse tab funktioner sætte en begrænsning, at output akustiske funktion distributioner skal være Gauss eller Laplacian. I praksis, da den menneskelige stemme bandet spænder fra cirka 300 til 4000 Hz, tab funktion vil blive designet til at have mere kriminalitet på dette område:

l o s s = α tab menneskelige + ( 1 − α ) tab af andre {\displaystyle tab=\alpha {\text{tab}}_{\text{menneskelige}}+(1-\alpha ){\text{tab}}_{\text{andre}}}

hvor tab menneskelige {\displaystyle {\text{tab}}_{\text{menneskelige}}}, er tabet af den menneskelige stemme band og α {\displaystyle \alpha } er en skalar typisk omkring 0,5., Den akustiske funktion er typisk spektrogram eller spektrogram i Mel skala. Disse funktioner fanger talesignalets tidsfrekvensrelation, og det er derfor tilstrækkeligt at generere intelligente udgange med disse akustiske funktioner. Den mel-frekvens cepstrum-funktion, der bruges i talegenkendelsesopgaven, er ikke egnet til talesyntese, fordi den reducerer for meget information.

kort historiedit

i September 2016 foreslog DeepMind Waavenet, en dyb generativ model af rå lydbølgeformer., Dette viser samfundet, at dybe læringsbaserede modeller har evnen til at modellere rå bølgeformer og udføre godt på at generere tale fra akustiske funktioner som spektrogrammer eller spektrogrammer i mel-skala, eller endda fra nogle forbehandlede sproglige træk. I begyndelsen af 2017 foreslog Mila (research institute) CHAR2 .av, en model til at producere rå bølgeform i en ende-til-ende-metode. Google og Facebook foreslog også Tacotron og VoiceLoop henholdsvis at generere akustiske funktioner direkte fra inputteksten., I det senere samme år foreslog Google Tacotron2, som kombinerede Waavenet vocoder med den reviderede Tacotron-arkitektur for at udføre ende-til-ende talesyntese. Tacotron2 kan generere tale af høj kvalitet, der nærmer sig den menneskelige stemme. Siden da blev end-to-end-metoder det hotteste forskningsemne, fordi mange forskere over hele verden begynder at bemærke kraften i end-to-end talesynthesi .er.,

Fordele og disadvantagesEdit

fordelene ved ende-til-ende metoder er som følger:

  • Kun brug for en enkelt model til at udføre analysen af teksten, akustisk modellering og audio syntese, dvs at syntetisere tale direkte fra tegn
  • Mindre indslag teknik
  • Let giver mulighed for rig aircondition på forskellige attributter, fx, højttaler eller sprog
  • Tilpasning til nye data er nemmere
  • Mere robust end multi-trins-modeller, fordi ingen af bestanddelene er fejl kan sammensatte
  • Stærk model kapacitet til at fange de skjulte interne strukturer i data
  • i Stand til at generere forståelig og naturlig tale
  • Ingen grund til at opretholde en stor database, dvs,lider af langsom inferens problem
  • Output tale er ikke robuste, når data ikke er tilstrækkeligt
  • Manglende kontrollerbarhed sammenlignet med traditionelle concatenative og parametriske statistiske metoder
  • Tendens til at lære det hjemme prosodi som et gennemsnit over data
  • der en Tendens til output glattede akustiske egenskaber, fordi l1 eller l2 tab er brugt

ChallengesEdit

– Langsom inferens problem.

til At løse den langsomme inferens problem, Microsoft research og Baidu forskning både foreslået at bruge ikke-auto-regressive modeller for at gøre slutning processen hurtigere., FastSpeech-modellen foreslået af Microsoft bruger Transformer-arkitektur med en varighedsmodel for at nå målet. Desuden gør varighedsmodellen, der låner fra traditionelle metoder, taleproduktionen mere robust.

– Robusthed problem.

Forskere har fundet, at den robusthed problemet er stærkt relateret til tekstjustering fejl, og det gør, at mange forskere til at revidere den opmærksomhed mekanisme, der udnytter den stærke lokale forhold og monoton egenskaber for tale.,

– problem med styrbarhed

for at løse problemet med styrbarhed foreslås mange værker om variational auto-encoder.

– Flat prosody problem

GST-Tacotron kan let afhjælpe det flade prosody problem, men det afhænger stadig af træningsdataene.

– udjævnet akustisk udgangsproblem

for at generere mere realistiske akustiske funktioner kan Gan-læringsstrategi anvendes.

i praksis kan neurale vocoder generalisere godt, selv når inputfunktionerne er mere glatte end reelle data.,

Semi-overvåget learningEdit

i øjeblikket får selvstyret læring meget opmærksomhed på grund af bedre udnyttelse af umærkede data. Forskning viser, at ved hjælp af selvstyret tab falder behovet for parrede data.

Nul-shot højttaler adaptationEdit

Nul-shot højttaler tilpasning er lovende, fordi en enkelt model kan generere tale med forskellige højttaler stilarter og karakteristika. I juni 2018 foreslog Google at bruge forududdannet højttalerverifikationsmodel som højttalerkoder til at udtrække højttalerindlejring., Højttalerkoderen bliver derefter en del af den neurale tekst-til-tale-model, og den kan bestemme stilen og karakteristikken for outputtalen. Dette viser samfundet, at det kun er muligt at bruge en enkelt model til at generere tale med flere stilarter.

neurale vocoderEdit

p (( = ) = = t = 1 t p (. t / 1 1,. . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, {_ {t-1})}

hvor Displ {\displaystyle \theta } er modelparameteren, der indeholder mange udvidede foldelag., Derfor er hver lydprøve t t {\displaystyle ._ {t}} derfor betinget af prøverne på alle tidligere timesteps. Imidlertid, den auto-regressive karakter af Waavenet gør inferensprocessen dramatisk langsom. For at løse det langsomme inferensproblem, der kommer fra den autoregressive egenskab ved modelavenet-modellen, foreslås Parallel Waavenet. Parallel parallelavenet er en omvendt autoregressiv Flo.-baseret model, som er uddannet ved viden destillation med en pre-uddannet lærer modelavenet model., Da inverse autoregressiv Flo.-baseret model er ikke-auto-regressiv, når der udføres inferens, inferens hastighed er hurtigere end realtid. I mellemtiden foreslog Nvidia en Flo .baseret Waveglo.-model, som også kan generere tale med hurtigere end realtidshastighed. På trods af den høje inferencehastighed har parallel .avenet imidlertid begrænsningen af behovet for en forududdannet modelavenet-model, og Waveglo.tager mange uger at konvergere med begrænsede computerenheder. Dette problem løses ved Parallel WaveGAN, som lærer at producere tale ved multi-opløsning spektralt tab og GANs læringsstrategi.,

Articles

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *