tärkeimmät ominaisuudet puheen synteesi järjestelmä ovat luonnollisuus ja ymmärrettävyys. Luonnollisuus kuvaa, kuinka tarkasti ulostulo kuulostaa ihmisen puheelta, kun taas ymmärrettävyys on sitä helppoutta, jolla ulostulo ymmärretään. Ihanteellinen puhesyntetisaattori on sekä luonnollinen että ymmärrettävä. Puhesynteesijärjestelmät pyrkivät yleensä maksimoimaan molemmat ominaisuudet.

kaksi synteettisiä puheaaltomuotoja tuottavaa ensisijaista teknologiaa ovat kongenatiivinen synteesi ja formanttisynteesi., Jokaisella teknologialla on vahvuuksia ja heikkouksia, ja synteesijärjestelmän Käyttötarkoitus määrittää tyypillisesti, mitä lähestymistapaa käytetään.

Ketjuuntuminen synthesisEdit

Main artikkeli: Concatenative synteesi

Concatenative synteesi perustuu ketjuuntuminen (tai nauhassa yhdessä) segmenttien nauhoitettu puhe. Yleensä concatenatiivinen synteesi tuottaa luonnollisimmalta kuulostavan syntetisoidun puheen., Kuitenkin, erot luonnolliset vaihtelut puheessa ja luonne automatisoituja tekniikoita segmentoida aaltomuodot joskus aiheuttaa kuultavissa glitches lähtö. Concatenatiivisessa synteesissä on kolme keskeistä alatyyppiä.

Yksikkövalintasyntetisedit

yksikkövalintasynteesi käyttää suuria tietokantoja nauhoitetusta puheesta. Aikana tietokannan luominen, jokainen kirjattu lausahdus on segmentoitu joitakin tai kaikki seuraavista: yksittäiset puhelimet, diphones, puoli-puhelimet, tavuja, morphemes, sanoja, lauseita, ja lauseita., Tyypillisesti, jako segmentteihin on tehty käyttäen erityisesti muutettu speech recognizer asettaa ”pakko tasaus” – tilassa joitakin manuaalinen korjaus jälkeenpäin, käyttämällä visuaalisia esityksiä, kuten aaltomuoto ja spektrogrammi. Indeksi yksiköiden puhe tietokanta on sitten luotu perustuu segmentointi ja akustiset parametrit, kuten perusoikeuksien taajuus (pitch), kesto, asema tavu, ja naapurimaiden-puhelimissa. Suorituksen aikana, haluttu kohde lausahdus on luotu määritellä paras ketju ehdokas yksikköä tietokannasta (yksikön valinta)., Tämä prosessi saavutetaan tyypillisesti käyttämällä erityisesti painotettua päätöspuuta.

Yksikkövalinta tarjoaa suurimman luonnollisuuden, koska se koskee tallennettuun puheeseen vain pientä määrää digitaalista signaalinkäsittelyä (DSP). DSP usein tekee tallennetun puheen kuulostavan vähemmän luonnolliselta, vaikka jotkut järjestelmät käyttävät pientä määrää signaalinkäsittelyä concatenation-pisteessä aaltomuodon tasoittamiseksi. Lähdön paras yksikkö-valinta järjestelmissä on usein mahdoton erottaa todellinen ihmisten ääniä, erityisesti niissä yhteyksissä, joihin TTS-järjestelmä on viritetty., Maksimaalinen luonnollisuus edellyttää kuitenkin tyypillisesti yksikkövalintapuhetietokantojen olevan hyvin suuria, joissakin järjestelmissä aina tallennettujen tietojen gigatavuihin, jotka edustavat kymmeniä tunteja puhetta. Myös yksikön valinta algoritmeja on tunnettu valitse segmentit paikasta, joka johtaa vähemmän kuin täydellinen synteesi (esim. pieniä sanoja tullut epäselvä) jopa silloin, kun parempi vaihtoehto on olemassa tietokannassa. Viime aikoina tutkijat ovat ehdottaneet erilaisia automatisoituja menetelmiä, joilla voidaan havaita epäluonnollisia segmenttejä yksikkövalinnan puhesynteesijärjestelmissä.,

Diphone synthesisEdit

Diphone synteesi käyttää minimaalinen puhe tietokanta, joka sisältää kaikki diphones (ääni-to-ääni siirtymät) tapahtuu kielellä. Määrä diphones riippuu phonotactics kieltä: esimerkiksi espanja on noin 800 diphones, ja saksan noin 2500. Diphonin synteesissä puhetietokannassa on vain yksi esimerkki kustakin diphonista. Suorituksen kohde prosodian lause on päälle nämä minimaalinen yksiköiden avulla digitaalinen signaalinkäsittely tekniikoita, kuten lineaarinen ennustava koodaus, PSOLA tai MBROLA., tai uudempia tekniikoita, kuten piki muutos lähde domain käyttäen diskreetti kosinimuunnos. Diphone synteesi kärsii sonic-virheitä concatenative synteesi ja robotti kuulostava luonne formantti synteesi, ja on muutamia etuja joko lähestymistavan kuin pieni koko. Sellaisenaan sen käyttö kaupallisissa sovelluksissa on vähenemässä, vaikka sitä käytetään edelleen tutkimuksessa, koska on olemassa useita vapaasti saatavilla olevia ohjelmistototeutuksia. Varhainen esimerkki Diphonin synteesistä on opetusrobotti leachim, jonka keksi Michael J. Freeman., Leachim sisälsi tietoa luokan opetussuunnitelman ja tietyt henkilötiedot noin 40 opiskelijaa, joille se oli ohjelmoitu opettaa. Sitä testattiin neljännen luokan luokassa Bronxissa New Yorkissa.

Domain-specific synthesisEdit

Domain-specific synteesi yhdistää nauhoitettu sanoja ja lauseita luoda täydellinen ilmauksia. Sitä käytetään sovelluksissa, joissa erilaisia tekstejä järjestelmän lähtö on rajoitettu tietyn toimialueen, kuten transit aikataulu ilmoitukset tai säätiedotuksia., Tekniikka on hyvin yksinkertainen toteuttaa, ja se on ollut kaupallisessa käytössä jo pitkään, laitteet, kuten puhuvat kellot ja laskimet. Taso luonnollisuutta nämä järjestelmät voivat olla hyvin korkea, koska erilaisia lause-tyyppejä on vähän, ja ne vastaavat läheisesti prosodian ja intonaatio alkuperäisen tallenteita.

Koska nämä järjestelmät ovat rajalliset sanoja ja lauseita, niiden tietokantoihin, ne eivät ole yleiskäyttöisiä, ja voi vain koota yhdistelmiä sanoja ja lauseita, jotka ne on ohjelmoitu., Sanojen sekoittuminen luonnollisesti puhuttuun kieleen voi kuitenkin aiheuttaa ongelmia, ellei monia variaatioita oteta huomioon. Esimerkiksi ei-rhotic murteita englanti ”r” – sanat, kuten ”clear” /ˈklɪə/ on yleensä vain korostunut, kun seuraava sana on vokaali kuin sen ensimmäinen kirjain (esimerkiksi ”selkeä” on toteutettu /ˌklɪəɹˈʌʊt/). Samoin ranskan, monet lopullinen konsonantit tullut enää hiljainen, jos sitä seuraa sana, joka alkaa vokaali, vaikutusta kutsutaan yhteyshenkilö., Tämä vuorottelu ei voida jäljentää yksinkertainen sana-ketjutus järjestelmä, joka vaatisi lisää monimutkaisuutta olla tilannekohtainen.

Formanttisyntetisedit

Formanttisynteesi ei käytä ihmisen puhenäytteitä Runtimen aikana. Sen sijaan, syntetisoitu puhe on luotu käyttämällä lisäaineen synteesi ja akustinen malli (fyysinen mallinnus synteesi). Parametrit, kuten perustaajuus, laskutus, ja melutaso ovat vaihdelleet ajan myötä luoda aaltomuodon keinotekoisen puheen., Tätä menetelmää kutsutaan joskus sääntöpohjaiseksi synteesiksi, mutta monissa concatenatiivisissa järjestelmissä on myös sääntöpohjaisia komponentteja.Monet formanttiin synteesiteknologiaan perustuvat järjestelmät tuottavat keinotekoiselta, robottimaiselta kuulostavaa puhetta, jota ei koskaan erehtyisi luulemaan ihmisen puheeksi. Maksimaalinen luonnollisuus ei kuitenkaan aina ole puhesynteesijärjestelmän tavoite, ja formanttisynteesijärjestelmillä on etuja concatenatiivisiin järjestelmiin verrattuna. Formantti-syntetisoitu puhe voidaan luotettavasti ymmärrettävää, jopa hyvin suurilla nopeuksilla välttäen akustinen glitches, että yleisesti rutto concatenative järjestelmissä., Nopea syntetisoitu puhe käyttää näkövammaisia nopeasti navigoida tietokoneissa käyttäen näytön lukija. Formanttisyntetisaattorit ovat yleensä pienempiä ohjelmia kuin concatenatiiviset järjestelmät, koska niissä ei ole puhenäytteiden tietokantaa. Niitä voidaan siis käyttää sulautetuissa järjestelmissä, joissa muistia ja mikroprosessorin tehoa on erityisen vähän. Koska formantti-pohjaisissa järjestelmissä on täysi hallinta kaikki näkökohdat lähtö puheen, erilaisia prosodies ja intonaatioita voi olla lähtö, välittää ei vain kysymyksiin ja lausuntoja, mutta erilaisia tunnetiloja ja äänenpainoja.,

Esimerkkejä ei-reaaliaikaista, mutta erittäin tarkka intonaatio ohjaus formantti synteesi ovat työn 1970-luvun lopulla Texas Instruments lelu Puhua & Loitsu, ja 1980-luvun alussa Sega arcade-koneita, ja monet Atari, Inc. arcade-pelejä käyttäen TMS5220 LPC pelimerkkejä. Asianmukaisen intonaation luominen näihin hankkeisiin oli vaivalloista, eikä tuloksia ole vielä sovitettu reaaliaikaisiin tekstien ja puheen välisiin rajapintoihin.,

Artikulatorinen synthesisEdit

Artikulatorinen synteesi viittaa laskennallisia tekniikoita syntetisointi puhe perustuu malleja ihmisen laulu ruoansulatuskanavan ja artikulaatio prosessit tapahtuvat siellä. Ensimmäinen säännöllisesti laboratoriokokeissa käytetty artikulaatiosyntetisaattori kehitettiin Haskinsin laboratorioissa 1970-luvun puolivälissä Philip Rubinin, Tom Baerin ja Paul Mermelsteinin toimesta. Tämä syntetisaattori, joka tunnetaan nimellä ASY, perustui vocal tract mallit kehitetty Bell Laboratories 1960-ja 1970-luvulla Paul Mermelstein, Cecil Coker, ja työtovereiden.,

viime aikoihin Asti, artikulatorinen synteesi malleja ei ole otettu kaupalliseen puhesynteesi järjestelmien. Merkittävä poikkeus on Seuraava-pohjainen järjestelmä alun perin kehittämä ja markkinoima Trillium Äänen Tutkimus -, spin-off-yritys, University of Calgary, jossa on paljon alkuperäisen tutkimus toteutettiin. Seuraavat kuoleman eri inkarnaatioihin Seuraava (aloitti by Steve Jobs 1980-luvun lopulla ja sulautui Apple Tietokoneen 1997), Trillium ohjelmisto on julkaistu GNU General Public License, että työt jatkuisivat kuten gnuspeech., Järjestelmän markkinoille ensimmäisen kerran vuonna 1994, tarjoaa täyden artikulatorinen-perustuu text-to-speech muuntaminen käyttäen aaltoputki-tai siirto-line analoginen ihmisen suun ja nenän kirjoitusten määräysvallassa Carré on ”erottuva alueen malli”.

uudemmat syntetisaattorit, kehittänyt Jorge C. Lucero ja työtovereiden, sisällyttää malleja vocal taitto biomekaniikan, glottal aerodynamiikka ja akustisen aallon etenemisen bronqui, traquea, nenän ja suun onteloita, ja näin ollen koko järjestelmien fysiikka-pohjainen puheen simulointi.,

HMM-pohjainen synthesisEdit

HMM-pohjaisen synteesin on synteesi menetelmä, joka perustuu hidden Markov models, jota kutsutaan myös Tilastollinen Parametrinen Synteesi. Tässä järjestelmässä, taajuuksien (vocal tract), perustaajuuden (voice source) ja kesto (prosodian) puhe on mallinnettu samanaikaisesti HMMs. Puheaaltomuodot syntyvät hmms: stä itsestään maksimitodennäköisyyskriteerin perusteella.

Siniaalto synthesisEdit

Siniaalto synteesi on tekniikka puheen syntetisointi korvaamalla formantit (tärkeimmät bändit energia), joissa puhdas ääni pillejä.,

Deep learning-pohjainen synthesisEdit

FormulationEdit

Kun syöttää tekstiä tai joitakin järjestyksessä kielellinen yksikkö Y {\displaystyle Y} , kohde-puhe X {\displaystyle X} voidaan johtaa

X = arg ⁡ max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

missä θ {\displaystyle \theta } on malli parametri.

tyypillisesti syöttöteksti siirtyy ensin akustisen ominaisuuden generaattoriin, sitten akustiset ominaisuudet siirtyvät neural vocoderiin. Akustisen ominaisuuden generaattorille Häviöfunktio on tyypillisesti L1-tai L2-häviö., Nämä tappio toiminnot laittaa rajoitus, että lähtö akustinen ominaisuus jakaumat on Gaussin tai Laplacian. Käytännössä, koska ihmisen ääni bändi vaihtelee noin 300-4000 Hz, menetys toiminto on suunniteltu on enemmän penality tällä alueella:

l o s s = α menetys ihmisen + ( 1 − α ) tappio muut {\displaystyle tappio=\alpha {\text{menetys}}_{\text{ihmisen}}+(1-\alpha ){\text{menetys}}_{\text{muut}}}

missä ihmisen menetys {\displaystyle {\text{menetys}}_{\text{ihmisen}}} on menetys ihmisen ääni bändi ja α {\displaystyle \alpha } on skalaari tyypillisesti noin 0.5., Akustinen ominaisuus on tyypillisesti spektrogrammi tai spektrogrammi Mel-asteikolla. Nämä ominaisuudet kaapata puhesignaalin aika-taajuus suhde ja siten riittää tuottamaan älykkäitä lähtöjä näillä akustisilla ominaisuuksilla. Mel-frequency cepstrum ominaisuus käyttää puheentunnistuksen tehtävä ei sovellu puheen synteesi, koska se vähentää liian paljon tietoa.

Lyhyt historyEdit

syyskuussa 2016, DeepMind ehdotettu WaveNet, syvä generatiivinen malli raaka-äänen aaltomuodot., Tämä osoittaa, että yhteisön deep learning-pohjainen malleissa on kyky malli raaka-aaltomuodot ja suorittaa hyvin tuottavan puheen akustisia ominaisuuksia, kuten spektrogrammit tai spektrogrammit vuonna mel mittakaavassa, tai jopa joitakin esikäsiteltyjä kielellisiä piirteitä. Alkuvuodesta 2017, Mila (tutkimuslaitos) ehdotti char2wav, malli tuottaa raaka-käyrä end-to-end menetelmä. Myös Google ja Facebook ehdotti Tacotron ja VoiceLoop, vastaavasti, luoda akustisia ominaisuuksia suoraan syöttää tekstiä., Myöhemmin samana vuonna, Google ehdotti Tacotron2, joka yhdistää WaveNet vocoder tarkistettu Tacotron arkkitehtuuri tehdä end-to-end-puhe synteesi. Tacotron2 voi tuottaa laadukasta puhetta, joka lähestyy ihmisen ääntä. Koska sitten, end-to-end-menetelmiä, tuli kuumin tutkimusaihe, koska monet tutkijat ympäri maailmaa alkaa huomata valtaa end-to-end-puhesyntetisaattori.,

Edut ja disadvantagesEdit

edut end-to-end-menetelmät ovat seuraavat:

  • tarvitset Vain yhden mallin tehdä tekstin analyysi, akustinen mallinnus ja äänen synteesi, eli syntetisointi puheeksi suoraan merkkiä
  • Vähemmän ominaisuus suunnittelu
  • Helposti mahdollistaa rikas ilmastointi erilaisia määritteitä, esim., puhujan tai kielen
  • Mukauttaminen uusiin tietoihin on helpompaa
  • vakaampi kuin monivaiheinen malleja, koska ei ole component virhe voi yhdiste
  • Tehokas malli kapasiteetti kaapata piilotettu sisäisten rakenteiden tiedot
  • Kykenee tuottamaan ymmärrettävää ja luonnollista puhetta
  • Ei tarvitse säilyttää suuri tietokanta, eli,kärsivät hidas päättely ongelma
  • Tuotos puhe eivät ole kestäviä, kun tiedot eivät ole riittävät
  • Puute hallittavuus verrattuna perinteinen concatenative ja tilastollinen parametrinen lähestymistapoja
  • Yleensä oppia taulu prosodian mukaan keskimäärin yli koulutus tiedot
  • Yleensä lähtö tasoitetaan akustiset ominaisuudet, koska l1 tai l2 menetys on käytetty

ChallengesEdit

– Hidas päättely ongelma

ratkaista hidas päättely ongelma, Microsoft research ja Baidu tutkimus sekä ehdotti käyttää ei-auto-regressiivinen malleja, jotta päättelyn prosessi nopeammin., Microsoftin ehdottama FastSpeech-malli käyttää muuntaja-arkkitehtuuria kestomallilla tavoitteen saavuttamiseksi. Lisäksi kesto-malli, joka lainaa perinteisiä menetelmiä tekee puheen tuottaminen vankempi.

– Kestävyys ongelma,

Tutkijat havaitsivat, että luotettavuuden ongelma on vahvasti sidoksissa tekstin tasaus epäonnistumisia, ja tämä ajaa monet tutkijat tarkistamaan huomiota mekanismi, joka hyödyntää vahvaa paikallista osalta ja monotoniset ominaisuudet puheen.,

– Hallittavuus ongelma

ratkaista hallittavuuden ongelma, monta toimii noin variational auto-encoder on ehdotettu.

– Tasainen prosodian ongelma

GST-Tacotron voi hieman lievittää taulu prosodian ongelma, mutta se silti riippuu koulutuksen tiedot.

– tasoitettu akustinen lähtö ongelma

tuottaa realistisempia akustisia ominaisuuksia, GAN oppimisstrategiaa voidaan soveltaa.

käytännössä neural vocoder voi kuitenkin yleistyä hyvin silloinkin, kun syötteen ominaisuudet ovat todellista dataa sujuvampia.,

Semi-valvottu learningEdit

tällä Hetkellä, itse ohjattua oppimista saada paljon huomiota, koska paremmin hyödyntämällä merkitsemättömiä tietoja. Tutkimus osoittaa, että itseohjautuvan menetyksen avulla paritetun tiedon tarve vähenee.

Nolla-shot puhuja adaptationEdit

Nolla-shot puhuja sopeutuminen on lupaava, koska yksi malli voi tuottaa puheen eri puhuja tyylejä ja ominaisuus. Kesäkuussa 2018, Google ehdotti käyttää pre-koulutettu puhuja todentaminen malli kuin puhuja encoder poimia puhuja upottamisen., Puhuja encoder sitten tulee osa hermo text-to-speech-malli, ja se voi päättää, tyyli ja ominaisuus lähtö puheen. Tämä osoittaa yhteisölle, että vain yhden mallin käyttäminen monityylisen puheen tuottamiseen on mahdollista.

Hermo vocoderEdit

p θ ( x ) = ∏ t = 1 T p ( x t | x 1 , . . . x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…,x_{t-1})}

Missä θ {\displaystyle \theta } on malli parametri kuten monet laajentuneet konvoluutio kerroksia., Siksi jokainen ääninäyte x t {\displaystyle x_{t}} on siis riippuvainen siitä, näytteitä, kaikki aiemmat timesteps. Kuitenkin, auto-regressiivinen luonne WaveNet tekee päättelyprosessi dramaattisesti hidas. Voit ratkaista hidas päättely ongelma, joka tulee auto-regressiivinen ominaisuus WaveNet malli, Yhdensuuntaiset WaveNet on ehdotettu. Parallel WaveNet on käänteinen autoregressiivinen flow-pohjainen malli, jota koulutetaan tietämyksen tislauksella ennalta koulutetulla opettaja-wavenet-mallilla., Koska käänteinen autoregressiivinen flow-pohjainen malli on ei-auto-regressiivinen suorittaessaan päättelyä, päättelynopeus on nopeampi kuin reaaliaikainen. Samaan aikaan Nvidia ehdotti flow-pohjaista WaveGlow-mallia, joka voi myös tuottaa puhetta nopeammin kuin reaaliaikainen nopeus. Kuitenkin, huolimatta korkea päättely nopeus, rinnakkaisten WaveNet on rajoitus tarve pre-koulutettu WaveNet malli ja WaveGlow kestää monta viikkoa lähentyvät rajallinen tiedonkäsittelyn laitteet. Tämä ongelma on ratkaistu Samanaikaisesti WaveGAN joka oppii tuottamaan puhetta multi-resoluutio spektrin tappio ja GANs oppimisen strategia.,

Articles

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *