De viktigste egenskapene til en talesyntese system er naturlighet og forståelighet. Naturlighet beskriver hvor tett produksjonen høres ut som menneskelig tale, mens forståelighet er den letthet med hvilken utgang er forstått. Den ideelle talesyntese er både naturlig og forståelig. Talesyntese-systemer vanligvis prøver å maksimere både egenskaper.

De to primære technologies å generere syntetisk tale bølgeformene concatenative syntese og formant syntese., Hver teknologi har styrker og svakheter, og den tiltenkte bruken av en syntese systemet vil vanligvis finne ut hvilken metode som er brukt.

Sammenkobling synthesisEdit

utdypende artikkel: Concatenative syntese

Concatenative syntese er basert på den sammensetning (eller sette sammen) av segmenter av innspilt tale. Generelt, concatenative syntese produserer mest naturlig klingende syntetiserte talen., Men forskjellene mellom naturlige variasjoner i tale og arten av den automatiserte teknikker for segmentering bølgeformene noen ganger resultere i audible-glitches i utgang. Det er tre viktigste sub-typer av concatenative syntese.

Unit selection synthesisEdit

(Unit selection synthesis bruker store databaser av innspilt tale. I løpet av database skapelse, hver innspilt tale er segmentert til noen eller alle av følgende: individuelle telefoner, diphones, halv-telefoner, stavelser, morphemes, ord, fraser og setninger., Vanligvis inndelingen i segmenter er gjort ved hjelp av et spesielt modifisert talegjenkjenner satt til en «tvunget alignment» – modus med noen manuell korrigering etterpå, ved hjelp av visuelle representasjoner som bølgeform-og spectrogram. En indeks av enhetene i tale database er da opprettet basert på segmentering og akustiske parametere som grunnleggende frekvens (tonehøyde), varighet, posisjon i stavelse, og nærliggende telefoner. Ved kjøretid, ønsket mål uttalelse er opprettet ved å bestemme den beste kjede av kandidat-enheter fra databasen (unit selection)., Denne prosessen er vanligvis oppnådd ved å bruke et utvalg vektet beslutning treet.

Enhet utvalget gir den største naturlighet, fordi det gjelder bare en liten mengde av digital signal processing (DSP) å innspilt tale. DSP ofte gjør innspilt tale lyd mindre naturlig, selv om noen systemer bruker en liten mengde av signalbehandling på det punktet av kjeden for å glatte bølgeform. Produksjonen fra de beste enhet-utvalget systemer er ofte umulig å skille fra ekte menneskelige stemmer, særlig i sammenhenger der TTS-systemet har blitt innstilt., Imidlertid, maksimal naturlighet krever vanligvis enhet-utvalget tale databaser til å være svært store, i noen systemer er alt i gigabyte av registrerte data, som representerer dusinvis av timer med tale. Også, unit selection algoritmer har blitt kjent for å velge segmenter fra et sted som resulterer i mindre enn ideell syntese (f.eks. mindre ord uklart) selv når et bedre valg finnes i databasen. Nylig har forskere har foreslått ulike automatiserte metoder for å oppdage unaturlig segmenter i enhet-utvalget talesyntese systemer.,

Diphone synthesisEdit

Diphone syntese bruker en minimal tale database som inneholder alle diphones (lyd-til-lyd-overganger) som forekommer i et språk. Antall diphones avhenger av phonotactics av språket: for eksempel, spansk, har ca 800 diphones, og tyske ca 2500. I diphone syntese, bare ett eksempel av hver diphone er inneholdt i tale-database. Ved kjøring, målet prosody av en setning er lagt på disse minimal enheter ved hjelp av digital signalbehandling teknikker som lineær prediktiv koding, PSOLA eller MBROLA., eller nyere teknikker som pitch endring i kilden domene ved å bruke discrete cosine transform. Diphone syntese lider av sonic glitches av concatenative syntese og robot-klingende arten av formant syntese, og har noen av fordelene med enten tilnærming annet enn liten størrelse. Som sådan, dens bruk i kommersielle programmer er synkende, selv om det fortsetter å bli brukt i forskning fordi det er en rekke fritt tilgjengelig programvare implementeringer. Et tidlig eksempel på Diphone syntese er en undervisning robot, leachim, som ble oppfunnet av Michael J. Freeman., Leachim inneholdt informasjon om klasse læreplanen og til visse biografiske opplysninger om de 40 elevene som var programmert til å undervise. Den ble testet i en fjerde klasse klasserommet i Bronx, New York.

Domene-spesifikke synthesisEdit

Domene-spesifikke syntese setter sammen forhåndsinnspilt ord og setninger for å lage hele ytringer. Det er brukt i applikasjoner der den utvalg av tekster systemet vil produksjonen er begrenset til et bestemt domene, for eksempel transitt planlegge kunngjøringer eller værmeldinger., Teknologien er veldig enkel å implementere, og som har vært i kommersiell bruk i lang tid, i enheter som snakker klokker og kalkulatorer. Nivået av naturlighet av disse systemene kan være svært høye fordi variasjonen av setningen typer er begrenset, og de stemmer godt overens med prosody og intonasjon av de opprinnelige opptakene.

Fordi disse systemene er begrenset av ord og uttrykk i sine databaser, de er ikke generell, og kan bare lage kombinasjoner av ord og uttrykk som de har blitt forhåndsprogrammert., Blanding av ord i naturlig talt språk, men kan likevel forårsake problemer med mindre de mange variasjonene er tatt hensyn til. For eksempel, i ikke-rhotic varianter av engelsk «r» i ord som «clear» /ˈklɪə/ er vanligvis bare uttalt når følgende ord har en vokal som den første bokstaven (f.eks. «clear out» er realisert som /ˌklɪəɹˈʌʊt/). Likeledes i fransk, mange finale konsonanter blir ikke lenger stille om etterfulgt av et ord som begynner med en vokal, en effekt som kalles mellomledd., Denne vekslingen kan ikke reproduseres av et enkelt ord-kjeden system, noe som vil kreve ytterligere kompleksitet til å være kontekstavhengig.

Formant synthesisEdit

Formant syntese ikke bruke menneskelig tale-eksempler på kjøring. I stedet, den syntetiserte talen er opprettet ved hjelp av additiv syntese og en akustisk modell (fysisk modellering syntese). Parametere som fundamental frekvens, stemthet, og støynivået er variert over tid for å skape en bølgeform av kunstig tale., Denne metoden kalles noen ganger regler-basert synthesizer, men mange concatenative systemer har også regler-baserte komponenter.Mange systemer er basert på formant syntese teknologi generere kunstig, robot-klingende tale som aldri ville bli forvekslet med menneskelig tale. Imidlertid, maksimal naturlighet er ikke alltid målet av en talesyntese system, og formant syntese systemer har fordeler fremfor concatenative systemer. Formant-syntetisk tale kan være en pålitelig måte forståelig, selv ved svært høye hastigheter, unngå akustisk glitches som ofte plager concatenative systemer., Høyhastighets syntetisert tale brukes av synshemmede til å navigere raskt på datamaskiner som bruker en skjermleser. Formant synthesizere er vanligvis mindre programmer enn concatenative systemer fordi de ikke har en database med tale-eksempler. De kan derfor brukes i embedded systemer, hvor minne og mikroprosessoren makt er spesielt begrenset. Fordi formant-baserte systemer har full kontroll over alle aspekter av produksjonen tale, et bredt utvalg av prosodies og intonations kan overføres, formidle ikke bare spørsmål og utsagn, men en rekke følelser og toner av tale.,

Eksempler på ikke-real-time, men svært nøyaktig intonasjon kontroll i formant syntese inkluderer arbeidet som er gjort i slutten av 1970-tallet for Texas Instruments leketøy Snakke & Stav, og tidlig på 1980-tallet Sega arkade maskiner og i mange Atari, Inc. arcade spill ved å bruke TMS5220 LPC Chips. Å opprette riktig intonasjon for disse prosjektene var møysommelig, og resultatene har ennå å bli matchet med sanntid tekst-til-tale-grensesnitt.,

Articulatory synthesisEdit

Articulatory syntese refererer til beregningsorientert teknikker for å syntetisere tale basert på modeller av menneskelig vokal tarmkanalen og artikulasjon prosesser som skjer der. Den første articulatory synthesizer som brukes jevnlig for laboratorie-eksperimenter ble utviklet på Haskins Laboratorier i midten av 1970-tallet av Philip Rubin, Tom Baer, og Paul Mermelstein. Dette synthesizer, kjent som ASY, var basert på vokal tarmkanalen modeller utviklet ved Bell Laboratories i 1960-og 1970-tallet av Paul Mermelstein, Cecil Coker, og kolleger.,

Inntil nylig, articulatory syntese modellene har ikke blitt innlemmet i kommersielle talesyntese systemer. Et unntak er den Neste-basert system som opprinnelig ble utviklet og markedsført av Trillium solid Forskning, en spin-off selskap fra University of Calgary, hvor mye av den opprinnelige forskningen ble utført. Etter bortfallet av ulike inkarnasjoner av Neste (startet av Steve Jobs på slutten av 1980-tallet og sammen med Apple Computer i 1997) Trillium programvare utgitt under GNU General Public License, med arbeid fortsetter som gnuspeech., Systemet, først markedsført i 1994, gir full articulatory-basert tekst-til-tale-konvertering ved hjelp av en waveguide eller overføring-linje analog av human oral og nasal områder kontrollert av Carré er «karakteristiske region-modellen».

nyere synthesizere, utviklet av Jorge C. Lucero og kolleger, innlemme modeller av stemmebåndenes biomekanikk, glottal aerodynamikk og acoustic wave propagation i bronqui, traquea, nese og munnhulen, og dermed utgjør full systemer av fysikk-baserte tale-simulering.,

HMM-basert synthesisEdit

HMM-basert synthesizer er en syntese metode basert på skjulte Markov-modeller, også kalt Parametrisk Statistiske Syntese. I dette systemet, frekvensspekteret (vokal skrift), grunnleggende frekvens (voice kilde) og varighet (prosody) av tale er modellert samtidig av hmm-er. Tale bølgeformene som er generert fra hmm-er selv basert på maximum likelihood-kriteriet.

Sinusbølge synthesisEdit

Sinusbølge syntese er en teknikk for å syntetisere tale ved skifte formants (viktigste band av energi) med ren tone fløyter.,

dybdekunnskap-basert synthesisEdit

FormulationEdit

Gitt et innspill tekst eller en sekvens av språklig enhet Y {\displaystyle Y} , målet tale X {\displaystyle X} kan være avledet av

X = arg ⁡ max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

hvor θ {\displaystyle \theta } er modell parameter.

Vanligvis, skriving vil først bli gitt videre til en akustisk funksjonen generator, så det akustiske egenskaper er gått til nevrale vocoder. For den akustiske funksjonen generator, Tap funksjonen er vanligvis L1 eller L2 tap., Disse tap funksjoner satt en begrensning på at resultatet akustisk har distribusjoner må være Gaussisk eller Laplacian. I praksis, siden den menneskelige stemme bandet varierer fra ca 300 til 4000 Hz, tap av funksjon vil være designet for å ha mer penality på dette området:

l o s s = α tap menneskelige + ( 1 − α ) tap annen {\displaystyle tap=\alpha {\text{tap}}_{\text{menneskelige}}+(1-\alpha ){\text{tap}}_{\text{annen}}}

hvor tap menneskelige {\displaystyle {\text{tap}}_{\text{menneskelige}}} er tap fra menneskelige stemme band og α {\displaystyle \alpha } er en skalar vanligvis rundt 0.5., Den akustiske funksjonen er vanligvis Spectrogram eller spectrogram i Mel skala. Disse funksjonene ta tid-frekvens forhold til tale-signalet og dermed er det tilstrekkelig å generere intelligent utganger med disse akustiske egenskaper. Den Mel-frekvens cepstrum funksjon som brukes i talegjenkjenning oppgave er ikke egnet for talesyntese fordi det reduserer for mye informasjon.

Kort historyEdit

I September 2016, DeepMind foreslått WaveNet, en dyp generativ modell av raw-audio bølgeform., Dette viser samfunnet at dybdekunnskap-baserte modeller har evnen til å modellere raw-kurver og fungerer godt på å generere tale fra akustisk funksjoner som spectrograms eller spectrograms i mel skala, eller til og med fra noen preprocessed språklige funksjoner. I begynnelsen av 2017, Mila (research institute) foreslått char2wav, en modell for å produsere raw-bølgeformen i en ende-til-ende-metoden. Også, Google og Facebook foreslått Tacotron og VoiceLoop, henholdsvis, å generere akustisk funksjoner direkte fra skriving., I den senere samme år, Google foreslått Tacotron2 som kombinerte WaveNet vocoder med revidert Tacotron arkitektur for å utføre ende-til-ende-tale syntese. Tacotron2 kan generere høy kvalitet tale nærmer seg den menneskelige stemmen. Siden da, ende-til-ende metoder ble de hotteste forskning emne, fordi mange forskere rundt om i verden begynner å merke kraften av ende-til-ende-talesyntese.,

Fordeler og disadvantagesEdit

fordelene av ende-til-ende metodene er som følger:

  • Bare trenger en enkel modell for å utføre tekstanalyse, akustisk modellering og lyd syntese, dvs. å syntetisere tale direkte fra tegn
  • Mindre funksjonen engineering
  • Lett lar for rik condition på ulike attributter, f.eks., høyttaler eller språk
  • Tilpasning til nye data er enklere
  • Mer robust enn multi-trinns modeller fordi ingen komponent feil kan sammensatt
  • Kraftig modell kapasitet til å fange opp de skjulte interne strukturer av data
  • er i Stand til å generere forståelig og naturlig tale
  • du trenger Ikke å opprettholde en stor database, dvs.,lider av treg slutning problem
  • Output tale er ikke robust når data er ikke tilstrekkelige
  • Manglende kontrollerbarhet sammenlignet med tradisjonelle concatenative og parametrisk statistiske tilnærminger
  • har en Tendens til å lære flatskjerm prosody ved gjennomsnitt over trening data
  • har en Tendens til utgang glattet akustiske egenskaper fordi l1 eller l2 tap brukes

ChallengesEdit

– Sakte slutning problem

for Å løse den langsomme slutning problem, Microsoft research og Baidu forskning både foreslått bruker ikke auto-regressive modeller for å gjøre den slutning prosessen raskere., Den FastSpeech modell foreslått av Microsoft bruk Transformator arkitektur med en varighet modell for å oppnå målet. Dessuten, varighet modell som låner fra tradisjonelle metoder gjør det tale produksjon mer robust.

– Robusthet problem

Forskerne fant at robustheten problemet er sterkt knyttet til tekstjustering feil, og dette driver mange forskere til å revidere oppmerksomhet mekanisme som utnytter den sterke lokale forhold og monotonic egenskaper for tale.,

– Kontrollerbarhet problem

for Å løse kontrollerbarhet problem, mange verk om variational auto-encoder er foreslått.

– Flatskjerm prosody problem

SKATTE-Tacotron kan litt lindre flatskjerm prosody problem, men det er fortsatt avhengig av treningsdata.

– Glattet akustisk utdata problem

for Å generere mer realistiske akustiske egenskaper, GAN læring strategien kan påføres.

Imidlertid i praksis, nevrale vocoder kan generalisere vel selv når input funksjoner er mer smidig enn reelle data.,

Semi-tilsyn learningEdit

i Dag, selv-overvåket læring få mye oppmerksomhet på grunn av bedre utnytte ikke direkte identifiserbare data. Forskning viser at med hjelp av selv-tilsyn tap, behovet for parede data reduseres.

Null-shot høyttaler adaptationEdit

Null-shot høyttaler tilpasning er lovende fordi en enkel modell kan generere tale med ulike høyttaler stiler og karakteristisk. I juni 2018, Google foreslått å bruke pre-trente høyttaler bekreftelse modell som speaker encoder til å trekke høyttaler for innbygging., Høyttaleren encoder deretter blir en del av det nevrale tekst-til-tale-modell, og det kan bestemme stil og karakteristiske av utgang tale. Dette viser samfunnet at bare ved hjelp av en enkel modell til å generere tale av flere stilen er mulig.

Nevrale vocoderEdit

p θ ( x ) = ∏ t = 1 T p ( x t | x-1 , . . . x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…,x_{t-1})}

Hvor θ {\displaystyle \theta } er modell parameter inkludert mange utvidede ferdige lag., Derfor, hver audio sample x t {\displaystyle x_{t}} er derfor avhengig av prøvene ved alle tidligere timesteps. Imidlertid, auto-regressive arten av WaveNet gjør den slutning prosessen dramatisk treg. For å løse treg slutning problem som kommer fra auto-regressive karakteristisk for WaveNet modell, Parallelt WaveNet er foreslått. Parallelt WaveNet er en invers autoregressive flyt-basert modell som er trent av kunnskap destillasjon med en pre-utdannet lærer WaveNet modell., Siden inverse autoregressive flyt-baserte modellen er ikke-auto-regressive når du utfører slutning, den slutning hastighet er raskere enn sanntid. I mellomtiden, Nvidia foreslått en flow-basert WaveGlow modell som også kan generere tale med raskere enn sanntid hastighet. Imidlertid, til tross for den høye slutning hastighet, parallelt WaveNet har begrensninger i behov av en pre-trente WaveNet modell og WaveGlow tar mange uker å konvergere med begrenset dataenheter. Dette problemet er løst av Parallelle WaveGAN som lærer å produsere tale av multi-oppløsning spektral tap og GANs læringsstrategi.,

Articles

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *