a beszédszintézis rendszer legfontosabb tulajdonságai a természetesség és az érthetőség. A természetesség leírja, hogy a kimenet milyen szorosan hangzik, mint az emberi beszéd, míg az érthetőség az a könnyű, amellyel a kimenetet megértik. Az ideális beszédszintetizátor mind természetes, mind érthető. A beszédszintézis rendszerek általában mindkét tulajdonság maximalizálására törekednek.
a szintetikus beszédhullámokat előállító két elsődleges technológia a konkatenatív szintézis és a formáns szintézis., Minden technológiának vannak erősségei és gyengeségei, és a szintézis rendszer tervezett felhasználása jellemzően meghatározza, hogy melyik megközelítést alkalmazzák.
Concatenation synthesisEdit
a Konkatenatív szintézis a rögzített beszéd szegmenseinek konkatenációján (vagy összekapcsolásán) alapul. Általában a konkatenatív szintézis a legtermészetesebb hangzású szintetizált beszédet hozza létre., A beszéd természetes variációi és a hullámformák szegmentálására szolgáló automatizált technikák jellege közötti különbségek azonban néha hallható hibákat eredményeznek a kimeneten. A konkatenatív szintézis három fő altípusa létezik.
Unit selection synthesisEdit
Unit selection synthesis használ nagy adatbázisok rögzített beszéd. Az adatbázis létrehozása során minden rögzített kijelentés a következők valamelyikére vagy egészére szegmentálódik: egyedi telefonok, diphones, féltelefonok, szótagok, morfémák, szavak, kifejezések és mondatok., A szegmensekre való felosztás általában egy speciálisan módosított beszédfelismerő segítségével történik, amely “kényszerített igazítás” módba van állítva, némi kézi korrekcióval, vizuális ábrázolások, például a hullámforma vagy a spektrogram segítségével. Ezután a beszédadatbázisban található egységek indexe jön létre a szegmentáció és az akusztikai paraméterek alapján, mint például az alapfrekvencia (hangmagasság), az időtartam, a szótag pozíciója, valamint a szomszédos telefonok. Futási időben a kívánt célkifejezés úgy jön létre, hogy meghatározza a jelölt egységek legjobb láncát az adatbázisból (egységkiválasztás)., Ezt a folyamatot általában egy speciálisan súlyozott döntési fa segítségével érik el.
az Egységkiválasztás biztosítja a legnagyobb természetességet, mivel csak kis mennyiségű digitális jelfeldolgozást (DSP) alkalmaz a rögzített beszédre. A DSP gyakran a rögzített beszédhangot kevésbé természetesvé teszi, bár egyes rendszerek kis mennyiségű jelfeldolgozást használnak a konkatenáció pontján a hullámforma simításához. A legjobb egységválasztó rendszerek kimenete gyakran megkülönböztethetetlen a valódi emberi hangoktól, különösen olyan kontextusokban, amelyekre a TTS rendszert hangolták., A maximális természetesség azonban általában megköveteli, hogy az egységválasztó beszédadatbázisok nagyon nagyok legyenek, egyes rendszerekben a rögzített adatok gigabájtjáig terjedjenek, több tucat órányi beszédet képviselve. Az egységkiválasztási algoritmusokról is ismert, hogy szegmenseket választanak ki egy olyan helyről, amely az ideálisnál kevesebb szintézist eredményez (pl. a kisebb szavak tisztázatlanná válnak), még akkor is, ha jobb választás létezik az adatbázisban. A közelmúltban a kutatók különféle automatizált módszereket javasoltak a természetellenes szegmensek kimutatására az egységkiválasztó beszédszintézis rendszerekben.,
Diphone synthesisEdit
a Diphone synthesis egy minimális beszédadatbázist használ, amely tartalmazza az összes nyelvet (hang-hang átmenetek). A diphones száma a nyelv fonotaktikájától függ: például a spanyol körülbelül 800 diphones, a német pedig körülbelül 2500. A diphone szintézisben a beszédadatbázisban csak egy példa található az egyes diphone-okra. Futásidőben a mondat célprozódiája ezeken a minimális egységeken helyezkedik el olyan digitális jelfeldolgozási technikák segítségével, mint a lineáris prediktív kódolás, a PSOLA vagy az MBROLA., vagy újabb technikák, mint például a hangmagasság módosítása a forrástartományban diszkrét koszinusz transzformációval. A Diphone-szintézis a konkatenatív szintézis sonic glitches-étől és a formáns szintézis robothangzó jellegétől szenved, és kevés előnye van a kis méreten kívüli megközelítésnek. Mint ilyen, a kereskedelmi alkalmazásokban való használata csökken, bár továbbra is használják a kutatásban, mivel számos szabadon elérhető szoftver implementáció létezik. A Diphone szintézis korai példája egy oktató robot, Leachim, amelyet Michael J. Freeman talált fel., Leachim információkat tartalmazott az osztálytantervekről és bizonyos életrajzi információkat arról a 40 diákról, akiket tanításra programoztak. Egy negyedik osztályos osztályteremben tesztelték A New York-i Bronxban.
tartományspecifikus szintetizátorszerkesztés
a tartományspecifikus szintézis előre rögzített szavakat és kifejezéseket tartalmaz a teljes kijelentések létrehozásához. Olyan alkalmazásokban használják, ahol a rendszer által kiadott szövegek sokfélesége egy adott tartományra korlátozódik, mint például a tranzit ütemterv bejelentései vagy az időjárási jelentések., A technológiát nagyon egyszerű megvalósítani, és már régóta használják olyan eszközökben, mint a beszélő órák és számológépek. Ezeknek a rendszereknek a természetessége nagyon magas lehet, mivel a mondattípusok sokfélesége korlátozott, és szorosan illeszkednek az eredeti felvételek prozódiájához és intonációjához.
mivel ezeket a rendszereket az adatbázisukban szereplő szavak és kifejezések korlátozzák, nem általános célúak, és csak azokat a szavak és kifejezések kombinációit tudják szintetizálni, amelyekkel előre programozták őket., A szavak keverése a természetesen beszélt nyelven belül azonban továbbra is problémákat okozhat, kivéve, ha a sok variációt figyelembe veszik. Például az angol nem-rotikus dialektusokban az “r” olyan szavakban, mint a “clear” /ˈkləə/ általában csak akkor fejeződik ki, ha a következő szónak van magánhangzója, mint első betűje (pl. Hasonlóképpen franciául, sok végső mássalhangzó már nem hallgat, ha egy szó követi, amely magánhangzóval kezdődik, egy kapcsolatnak nevezett hatás., Ezt a váltakozást nem lehet reprodukálni egy egyszerű szó-konkatenációs rendszerrel,amely további komplexitást igényel a kontextus szempontjából.
Formant synthesisEdit
a Formant synthesis nem használ emberi beszédmintákat futásidőben. Ehelyett a szintetizált beszéd kimenetet additív szintézis és egy akusztikus modell (fizikai modellezés szintézis) segítségével hozzák létre. Az olyan paraméterek, mint az alapvető frekvencia, a hangzás és a zajszintek idővel változnak, hogy mesterséges beszéd hullámformát hozzanak létre., Ezt a módszert néha szabályalapú szintézisnek nevezik; azonban sok konkatenatív rendszernek is vannak szabályalapú összetevői.A formant synthesis technológián alapuló számos rendszer mesterséges, robotikus hangzású beszédet generál, amelyet soha nem szabad összetéveszteni az emberi beszéddel. A maximális természetesség azonban nem mindig a beszédszintézis rendszer célja, a formáns szintézis rendszereknek pedig előnyei vannak a konkatenatív rendszerekkel szemben. A Formant-szintetizált beszéd megbízhatóan érthető, még nagyon nagy sebességgel is, elkerülve azokat az akusztikus hibákat, amelyek általában a konkatenatív rendszereket sújtják., A nagy sebességű szintetizált beszédet a látássérültek használják a számítógépek gyors navigálására képernyőolvasó segítségével. A formáns szintetizátorok általában kisebb programok, mint a konkatenatív rendszerek, mivel nem rendelkeznek beszédminták adatbázisával. Ezért beágyazott rendszerekben is használhatók, ahol a memória és a mikroprocesszor teljesítménye különösen korlátozott. Mivel a formant-alapú rendszerek teljes mértékben ellenőrzik a kimeneti beszéd minden aspektusát, a prozódiák és intonációk széles skáláját ki lehet adni, nem csak kérdéseket és kijelentéseket, hanem különféle érzelmeket és hangszíneket is közvetítenek.,
példák a nem valós idejű, de nagyon pontos intonáció kontroll formant szintézis tartalmazza a munkát az 1970-es évek végén a Texas Instruments toy Speak & helyesírás, és a korai 1980-as évek Sega arcade gépek és sok Atari, Inc. arcade játékok a TMS5220 LPC chipek. Ezeknek a projekteknek a megfelelő intonációja gondos volt, és az eredményeket még nem illesztették össze a valós idejű Szöveg-beszéd interfészekkel.,
Articulatory synthesisEdit
Articulatory szintézis utal, hogy a számítási technikák szintetizáló beszéd alapuló modellek az emberi vokális traktus pedig az artikuláció folyamatok előforduló ott. Az első, laboratóriumi kísérletekhez rendszeresen használt artikulációs szintetizátort az 1970-es évek közepén Philip Rubin, Tom Baer és Paul Mermelstein fejlesztette ki a Haskins Laboratories-ban. Ez az ASY néven ismert szintetizátor a Bell Laboratories-ban az 1960-as és 1970-es években Paul Mermelstein, Cecil Coker és kollégái által kifejlesztett vokális tract modelleken alapult.,
a közelmúltig az artikulációs szintézis modelleket nem építették be a kereskedelmi beszédszintézis rendszerekbe. Figyelemre méltó kivétel a következő alapú rendszer, amelyet eredetileg a Trillium Sound Research, a Calgary Egyetem spin-off vállalata fejlesztett ki és forgalmazott, ahol az eredeti kutatás nagy részét végezték. Következő meghalt a különböző korszakaiban a Következő (kezdődött, amelyet Steve Jobs, az 1980-as években egyesültek az Apple Computer 1997-ben), a Pitypang szoftver alatt megjelent a GNU Általános Nyilvános Licenc, a munka folyamatos, mint gnuspeech., A rendszer, amelyet először 1994-ben forgalmaztak, teljes artikulációs alapú Szöveg-beszéd konverziót biztosít a Carré “megkülönböztető régiómodell”által vezérelt emberi orális és orrcsatornák hullámvezető vagy átviteli vonal analógja segítségével.
újabb szintetizátorok által kifejlesztett, Jorge C. Lucero, kollégák bele modellek ének-szeres biomechanika, glottal aerodinamika, valamint akusztikus hullám terjedési a bronqui, traquea, orr -, illetve szóbeli üregek, így minősülnek teljes rendszerek a fizika-alapú beszéd szimuláció.,
hmm-alapú szintetizátorszerkesztés
a HMM-alapú szintézis egy rejtett Markov modelleken alapuló szintézis módszer, más néven statisztikai paraméteres szintézis. Ebben a rendszerben a frekvencia spektrumot (vokális traktus), az alapvető frekvenciát (hangforrás), a beszéd időtartamát (prozódia) egyidejűleg a HMMs modellezi. A beszédhullámokat maguk a HMM-ek generálják a maximális valószínűségi kritérium alapján.
Sinewave synthesisEdit
a Sinewave synthesis a beszéd szintetizálásának technikája a formánsok (fő energiasávok) tiszta hangsípokkal történő helyettesítésével.,
Mély tanulás-alapú synthesisEdit
FormulationEdit
Adott egy szöveget, vagy egy sorrend a nyelvi egység Y {\displaystyle Y} a cél beszédet X {\displaystyle X} levezethető a
X = arg max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}
ahol θ {\displaystyle \theta } a modell paraméter.
általában a bemeneti szöveget először egy akusztikus funkciógenerátornak adják át, majd az akusztikus funkciókat átadják a neurális vocodernek. Az akusztikus funkciógenerátor esetében a veszteség funkció általában L1 vagy L2 veszteség., Ezek a veszteségfüggvények kényszerítik, hogy a kimeneti akusztikus funkcióeloszlásoknak Gaussian vagy Laplacian kell lenniük. A gyakorlatban, mivel az emberi hang zenekar-tól körülbelül 300 4000 Hz, a veszteség funkciót úgy tervezték, hogy több penality ezen tartomány:
a l o s s = α veszteség emberi + ( 1 − α ) veszteség többi {\displaystyle veszteség=\alfa {\text{veszteség}}_{\text{emberi}}+(1-\alfa ){\text{veszteség}}_{\text{többi}}}
amennyiben veszteség emberi {\displaystyle {\text{veszteség}}_{\text{emberi}}} ez a veszteség az emberi hang zenekar, valamint α {\displaystyle \alfa } egy skalár jellemzően mintegy 0,5., Az akusztikus funkció jellemzően spektrogram vagy spektrogram Mel skála. Ezek a funkciók rögzítik a beszédjel idő-frekvencia viszonyát, így elegendő intelligens kimeneteket generálni ezekkel az akusztikus funkciókkal. A beszédfelismerési feladatban használt Mel-frequency cepstrum funkció nem alkalmas a beszédszintézisre, mert túl sok információt redukál.
rövid történetSzerkesztés
2016 szeptemberében a DeepMind javasolta a wavenet-t, a raw audio hullámformák mély generatív modelljét., Ez azt mutatja, hogy a közösség, hogy a deep learning-alapú modellek képesek modellezni raw hullámformák és jól teljesítenek generáló beszéd akusztikus funkciók, mint a spektrogramok vagy spektrogramok mel skála, vagy akár néhány előre feldolgozott nyelvi funkciók. 2017 elején a Mila (Kutatóintézet) javasolta a char2wav-ot, egy modellt, amely nyers hullámformát állít elő egy végponttól végpontig terjedő módszerrel. A Google és a Facebook is azt javasolta, hogy a tacotron és a VoiceLoop közvetlenül a bemeneti szövegből generáljon akusztikus funkciókat., Ugyanebben az évben később a Google javasolta a Tacotron2-t, amely a wavenet vocodert a felülvizsgált Tacotron architektúrával kombinálta a végpontok közötti beszédszintézis elvégzésére. A Tacotron2 kiváló minőségű beszédet hozhat létre az emberi hanghoz közeledve. Azóta a végpontok közötti módszerek váltak a legforróbb kutatási témává, mivel a világ számos kutatója elkezdi észrevenni a végpontok közötti beszédszintetizátor erejét.,
Előnyökkel disadvantagesEdit
Az előnye az end-to-end módszerek a következők:
- Csak kell egy egységes modell, hogy végre szöveges elemzés, akusztikus modell, illetve audio-szintézis, azaz szintetizáló beszéd közvetlenül karakter
- Kevesebb funkciót mérnöki
- Könnyen lehetővé teszi a gazdag légkondicionáló, a különböző tulajdonságok, pl., hangszóró vagy nyelv
- az új adatokhoz való alkalmazkodás könnyebb
- robusztusabb, mint a többlépcsős modellek, mivel egyetlen összetevő hibája sem képes összetett
- erőteljes modellkapacitás az adatok rejtett belső struktúráinak rögzítésére
- képes érthető és természetes beszéd generálására
- nem kell nagy adatbázist fenntartani, azaz.,szenvednek a lassú következtetés probléma
- Kimenet beszéd nem robusztus, amikor az adatok nem elegendőek
- Hiánya ellenőrizhetőség összehasonlítva a hagyományos concatenative, valamint statisztikai parametrikus módszerek
- Hajlamosak ismerje meg a lapos prozódia által átlagosan több mint képzési adatok
- Hajlamosak kimeneti simított akusztikus jellemzői, mert az l1 vagy l2 veszteség használt
ChallengesEdit
– Lassú következtetés probléma
megoldani a lassú következtetés probléma, a Microsoft research and Baidu kutatás mindkét javasolt a nem-auto-regresszív modellek, hogy a következtetési folyamat gyorsabb., A Microsoft által javasolt FastSpeech modell transzformátor architektúrát használ, amelynek időtartama modell a cél elérése érdekében. Emellett a hagyományos módszerekből kölcsönzött időtartam modell robusztusabbá teszi a beszédtermelést.
– robusztusság probléma
A kutatók azt találták, hogy a robusztusság probléma erősen kapcsolódik a szöveg igazítás hibák, és ez arra készteti sok kutató, hogy vizsgálja felül a figyelem mechanizmus, amely kihasználja az erős helyi kapcsolat, monotonikus tulajdonságait beszéd.,
– irányíthatósági probléma
a szabályozhatóság problémájának megoldásához számos variációs auto-kódolóval kapcsolatos munkát javasolnak.
– lapos prozódia probléma
GST-Tacotron kissé enyhítheti a lapos prozódia problémát, azonban ez még mindig a képzési adatoktól függ.
– simított akusztikus kimeneti probléma
a reálisabb akusztikai funkciók létrehozásához a GaN learning stratégia alkalmazható.
a gyakorlatban azonban a neurális vocoder akkor is jól általánosítható, ha a bemeneti funkciók simábbak, mint a valós adatok.,
félig felügyelt tanulásszerkesztés
jelenleg az önfelügyelt tanulás sok figyelmet kap a címkézetlen adatok jobb felhasználása miatt. A kutatások azt mutatják, hogy az önfelügyelt veszteség segítségével csökken a párosított adatok szükségessége.
Zero-shot speaker adaptationEdit
Zero-shot speaker adaptáció ígéretes, mert egyetlen modell képes beszédet generálni különböző hangsugárzási stílusokkal és jellemzőkkel. 2018 júniusában a Google azt javasolta, hogy az előre képzett hangszóró-ellenőrzési modellt használja hangszóró-kódolóként a hangszóró beágyazásának kivonásához., A hangsugárzó ezután a neurális Szöveg-beszéd modell részévé válik, és eldöntheti a kimeneti beszéd stílusát és jellemzőjét. Ez megmutatja a közösségnek, hogy csak egyetlen modell használatával lehet több stílusú beszédet generálni.
neurális vocoderEdit
p θ ( x) = ∏ t = 1 T p ( x t / x 1,. . . , x t-1 ) {\displaystyle p_ {\theta } (\mathbf {x}) = \ prod _{t=1}^{t}p (x_{t}|x_{1},…,x_{t-1})}
ahol θ {\displaystyle \ theta } a modellparaméter, amely számos dilatált konvolúciós réteget tartalmaz., Ezért minden X t {\displaystyle x_{t}} hangminta ezért minden korábbi időpontban a mintákra van kondicionálva. A wavenet automatikus regresszív jellege azonban drámaian lelassítja a következtetési folyamatot. A wavenet modell automatikus regresszív tulajdonságából eredő lassú következtetési probléma megoldásához párhuzamos WaveNet javasolt. A Parallel WaveNet egy inverz autoregresszív áramlásalapú modell, amelyet tudásdesztillációval képzünk egy előre képzett wavenet tanár modellel., Mivel az inverz autoregresszív áramlásalapú modell nem automatikus regresszív a következtetés végrehajtásakor, a következtetési sebesség gyorsabb, mint a valós idejű. Eközben az Nvidia egy flow-alapú WaveGlow modellt javasolt, amely a valós idejű sebességnél gyorsabb beszédet is képes generálni. A nagy sebesség ellenére azonban a párhuzamos WaveNet korlátozza az előre kiképzett WaveNet modell szükségességét, a WaveGlow pedig több hétig tart, hogy konvergáljon a korlátozott számítástechnikai eszközökkel. Ezt a problémát a párhuzamos WaveGAN oldja meg, amely többfelbontású spektrális veszteséggel és GANs tanulási stratégiával tanul beszédet.,