nejdůležitějšími vlastnostmi systému syntézy řeči jsou přirozenost a srozumitelnost. Přirozenost popisuje, jak úzce výstup zní jako lidská řeč, zatímco srozumitelnost je snadnost, s jakou je výstup chápán. Ideální syntetizátor řeči je přirozený i srozumitelný. Systémy syntézy řeči se obvykle snaží maximalizovat obě vlastnosti.
dvě primární technologie generující syntetické průběhy řeči jsou konkatenativní syntéza a formantní syntéza., Každá technologie má silné a slabé stránky a zamýšlené použití syntézního systému obvykle určí, který přístup se používá.
Zřetězení synthesisEdit
Concatenative syntéza je založena na spojování (nebo seřazovat) segmenty zaznamenané řeči. Obecně platí, že konkatenativní syntéza produkuje nejpřirozenější syntetizovanou řeč., Rozdíly mezi přirozenými variacemi řeči a povahou automatizovaných technik pro segmentaci průběhů však někdy vedou ke zvukovým závadám na výstupu. Existují tři hlavní sub-typy konkatenativní syntézy.
Unit selection synthesisEdit
Unit selection synthesis používá velké databáze zaznamenané řeči. Během vytváření databáze je každý zaznamenaný výrok rozdělen na některé nebo všechny následující: jednotlivé telefony, difony, poloviční telefony, slabiky, morfémy, slova, fráze a věty., Typicky, rozdělení do segmentů je provedeno pomocí speciálně upravené rozpoznávače nastavena na „nucené vyrovnání“ režimu s ruční korekce poté, pomocí vizuální reprezentace jako průběh a spektrogram. Index jednotek v databázi řeči je pak vytvořen na základě segmentačních a akustických parametrů, jako je základní frekvence (rozteč), trvání, pozice v slabice a sousední telefony. V době běhu je požadovaný cílový výrok vytvořen určením nejlepšího řetězce kandidátských jednotek z databáze (výběr jednotek)., Tento proces se obvykle dosahuje pomocí speciálně váženého rozhodovacího stromu.
výběr jednotek poskytuje největší přirozenost, protože na zaznamenanou řeč aplikuje pouze malé množství digitálního zpracování signálu (DSP). DSP často způsobuje, že zaznamenaný zvuk řeči je méně přirozený, ačkoli některé systémy používají malé množství zpracování signálu v místě zřetězení k vyhlazení průběhu. Výstup z nejlepších systémů výběru jednotek je často k nerozeznání od skutečných lidských hlasů, zejména v kontextech, pro které byl systém TTS vyladěn., Nicméně, maximální přirozenost obvykle vyžadují jednotka-výběr řeč databáze, aby být velmi velké, v některých systémech v rozmezí do gigabajtů zaznamenaných dat, což představuje desítky hodin řeči. Také, jednotky výběr algoritmů bylo známo, zvolte segmenty z místa, které výsledky v méně než ideální syntézu (např. drobné slova je nejasný), i když lepší výběr existuje v databázi. V poslední době vědci navrhli různé automatizované metody pro detekci nepřirozených segmentů v systémech syntézy řeči s výběrem jednotek.,
Diphone synthesisEdit
Diphone syntéza používá minimální řečové databáze obsahující všechny diphones (zvuk-zvukové přechody) vyskytující se v jazyce. Počet diphones závisí na phonotactics jazyka: například, španělština má asi 800 diphones, a německé o 2500. V syntéze diphone je v databázi řeči obsažen pouze jeden příklad každého diphonu. Při běhu, cíl prozódii věty je položený na tyto minimální jednotky prostřednictvím techniky zpracování digitálního signálu jako lineární prediktivní kódování, PSOLA nebo MBROLA., nebo novější techniky, jako je modifikace hřiště ve zdrojové doméně pomocí diskrétní kosinové transformace. Diphone syntézu trpí sonic závady z concatenative syntézu a robotické znějící povahu formant syntéza, a má několik výhod a to buď přístup, jiné než malé velikosti. Jeho použití v komerčních aplikacích proto klesá, i když se nadále používá ve výzkumu, protože existuje řada volně dostupných implementací softwaru. Prvním příkladem syntézy Diphonu je výukový robot leachim, který vynalezl Michael J. Freeman., Leachim obsahoval informace týkající se učebních osnov a některých biografických informací o 40 studenti, kterým byl naprogramován k výuce. Byl testován ve třídě čtvrté třídy v Bronxu v New Yorku.
syntéza specifická pro Doménuedit
syntéza specifická pro doménu zřetězí přednastavená slova a fráze pro vytvoření úplných výroků. Používá se v aplikacích, kde je rozmanitost textů, které systém vydá, omezena na určitou doménu, jako jsou oznámení o tranzitním rozvrhu nebo zprávy o počasí., Tato technologie je velmi jednoduchá na implementaci, a byl v komerčním použití po dlouhou dobu, v zařízeních, jako jsou mluvící hodiny a kalkulačky. Úroveň přirozenosti těchto systémů může být velmi vysoká, protože rozmanitost typů vět je omezená a úzce odpovídají prozodii a intonaci původních nahrávek.
Protože tyto systémy jsou omezeny slova a fráze v jejich databázích nejsou univerzální a může syntetizovat pouze kombinací slov a frází, které jsou předprogramované., Míchání slov v přirozeně mluveném jazyce však může stále způsobit problémy, pokud se nezohlední mnoho variací. Například v ne-rhotických dialektech angličtiny je „r „ve slovech jako“ clear „/ˈkləə/ obvykle vyslovováno pouze tehdy, když následující slovo má samohlásku jako první písmeno (např. Podobně ve francouzštině, mnoho konečných souhlásek již mlčí, pokud následuje slovo, které začíná samohláskou, efekt zvaný styčný., Toto střídání nelze reprodukovat jednoduchým systémem zřetězení slov, který by vyžadoval další složitost, aby byl citlivý na kontext.
formant syntezisedit
formant syntéza nepoužívá vzorky lidské řeči za běhu. Místo toho je syntetizovaný výstup řeči vytvořen pomocí aditivní syntézy a akustického modelu (syntéza fyzikálního modelování). Parametry, jako je základní frekvence, vyjadřování a hladina hluku, se v průběhu času mění, aby se vytvořil průběh umělé řeči., Tato metoda se někdy nazývá syntéza založená na pravidlech; mnoho konkatenativních systémů však má také komponenty založené na pravidlech.Mnoho systémů založených na formant syntéza technologie generovat umělý, robotický-znějící řeč, která by nikdy neměla být zaměněny za lidské řeči. Nicméně, maximální přirozenost není vždy cílem syntéza řeči systému, a formant syntéza systémy mají výhody oproti concatenative systémy. Formant-syntetizovaná řeč může být spolehlivě srozumitelný, a to i při velmi vysokých rychlostech, aby se zabránilo akustické závady, které běžně mor concatenative systémy., Vysokorychlostní syntetizovaná řeč je používána zrakově postiženými k rychlé navigaci v počítačích pomocí čtečky obrazovky. Formant syntezátory jsou obvykle menší programy než concatenative systémy, protože nemají databázi vzorky řeči. Mohou být proto použity ve vestavěných systémech, kde je zvláště omezená paměť a mikroprocesorová síla. Protože formant-založené systémy mají úplnou kontrolu všech aspektů produkce řeči, širokou škálu prosodies a intonace může být výstup, dopravu nejen na otázky a prohlášení, ale různé emoce a tóny hlasu.,
Příklady non-real-time, ale vysoce přesné intonace, ovládání v formant syntéza patří práce v pozdní 1970 pro Texas Instruments hračka Mluvit & Kouzlo, a na začátku roku 1980 Sega arkádové automaty a v mnoha Atari, Inc. arkádové hry pomocí čipů TMS5220 LPC. Vytvoření správné intonace pro tyto projekty bylo obtížné a výsledky musí být ještě přizpůsobeny rozhraním text-To-speech v reálném čase.,
Artikulační synthesisEdit
Artikulační syntéza se týká výpočetní techniky pro syntézu řeči na základě modelů lidského vokálního traktu a artikulace procesů probíhajících tam. První artikulační syntetizér pravidelně používá pro laboratorní experimenty byl vyvinut na Haskins Laboratories v polovině-1970, Philip Rubin, Tom Baer, a Paul Mermelstein. Tento syntezátor, známý jako ASY, byl založen na vokálního traktu modely, vyvinutý v Bellových Laboratořích v roce 1960 a 1970 Paul Mermelstein, Cecil Coker, a kolegy.,
až donedávna nebyly modely artikulační syntézy začleněny do komerčních systémů syntézy řeči. Pozoruhodnou výjimkou je systém NeXT-based původně vyvinutý a prodávaný společností Trillium Sound Research, spin-off společnosti University Of Calgary, kde byla provedena velká část původního výzkumu. Po zániku různé inkarnace Příští (založil Steve Jobs v pozdní 1980 a spojil s Apple Computer v roce 1997), Trillium software byl publikován pod GNU General Public License, práce pokračuje jako gnuspeech., Systém, poprvé uveden na trh v roce 1994, poskytuje plnou artikulační bázi text-to-speech konverze pomocí vlnovodu nebo převodovka-line analog lidského ústní a nosní plochy ovládané Carré je „osobitý region model“.
novější syntezátory, vyvinutý Jorge C. Lucero a kolegové, začlenit modely hlasivek biomechaniky, glotální aerodynamický a akustických vln v bronqui, traquea, nosní a ústní dutiny, a tak tvoří úplné systémy fyzika-založené řeč simulace.,
HMM-based syntezisedit
hmm-based synthesis je metoda syntézy založená na skrytých Markovových modelech, nazývaná také statistická parametrická syntéza. V tomto systému, frekvenční spektrum (vokální trakt), základní frekvence (voice source), a doba trvání (prozódii) řeči jsou modelovány současně Hm. Průběhy řeči jsou generovány ze samotných HMMs na základě kritéria maximální pravděpodobnosti.
Sinusový synthesisEdit
sinusového průběhu syntézy je technika pro syntézu řeči tím, že nahradí formantů (hlavní kapely energie), s čistý tón píšťalky.,
Hluboké učení založené na synthesisEdit
FormulationEdit
s ohledem na vstupní text nebo některé sekvence jazykové jednotky Y {\displaystyle Y} , cíl projevu X {\displaystyle X} lze odvodit,
X = arg max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}
kde θ {\displaystyle \theta } je model parametr.
obvykle bude vstupní text nejprve předán generátoru akustických funkcí, pak jsou akustické vlastnosti předány neurálnímu vokodéru. Pro generátor akustických funkcí je funkce ztráty obvykle ztráta L1 nebo L2., Tyto ztrátové funkce omezují, že výstupní distribuce akustických funkcí musí být Gaussian nebo Laplacian. V praxi, protože lidský hlas kapela se pohybuje přibližně od 300 do 4000 Hz, ztráta funkce bude navržen tak, aby více penality na tomto rozsahu:
l o s s = α ztráty lidských + ( 1 − α ) jiné ztráty, {\displaystyle ztráta=\alpha {\text{ztráty}}_{\text{lidských}}+(1-\alpha ){\text{ztráty}}_{\text{jiné}}}
kde ztráta lidské {\displaystyle {\text{ztráty}}_{\text{lidských}}} je ztráta z lidského hlasu kapely a α {\displaystyle \alpha } je skalární veličina, obvykle okolo 0.5., Akustickou vlastností je typicky spektrogram nebo spektrogram v Mel měřítku. Tyto funkce zachycují časově frekvenční vztah řečového signálu, a tak stačí generovat inteligentní výstupy s těmito akustickými vlastnostmi. Funkce Mel-frequency cepstrum používaná v úkolu rozpoznávání řeči není vhodná pro syntézu řeči, protože snižuje příliš mnoho informací.
Stručná historiedit
v září 2016 DeepMind navrhl WaveNet, hluboký generativní model surových zvukových průběhů., To ukazuje, společenství, že hluboké učení založené modely mají schopnost modelu raw průběhy a provádět i na generování řeči z akustického funkce, jako spektrogramy nebo spektrogramy mel v stupnici, nebo dokonce z nějaké předzpracovány jazykové funkce. Na začátku roku 2017 navrhla Mila (Výzkumný ústav) char2wav, model pro výrobu surového průběhu metodou end-to-end. Google a Facebook také navrhli Tacotron a VoiceLoop, aby generovaly akustické funkce přímo ze vstupního textu., V později ve stejném roce, Google navrhl Tacotron2, které v kombinaci WaveNet vocoder s revidovanou Tacotron architektury provádět end-to-end syntézy řeči. Tacotron2 může generovat vysoce kvalitní řeč blížící se lidskému hlasu. Od té doby, end-to-end metody, se stal nejžhavější téma výzkumu, protože mnoho výzkumníků po celém světě si začínají všímat, moc end-to-end speech syntezátor.,
Přednosti a disadvantagesEdit
výhody end-to-end metody jsou následující:
- potřebovat Pouze jeden model, provést analýzu textu, akustické modelování a audio syntézu, tj. syntetizovat řeč přímo ze znaků
- Méně funkcí inženýrství
- Snadno umožňuje bohatý kondicionér na různé atributy, např., reproduktor nebo jazyk
- Adaptace na nové údaje je jednodušší
- Více robustní než vícestupňové modely, protože žádná složka je chyba může sloučenina
- Výkonný model, schopnost zachytit skryté vnitřní struktury dat
- je Schopen vytvořit srozumitelné a přirozené řeči
- Není třeba udržovat rozsáhlé databáze, tj.,trpí pomalý závěr problém
- Výstup řeči nejsou robustní, pokud neexistují dostatečné údaje
- Nedostatek ovladatelnost ve srovnání s tradiční concatenative a statistické parametrické přístupy
- mají Tendenci se učit byt prozódii tím, že v průměru více než tréninková data
- mají Tendenci výstup vyhlazené akustické vlastnosti, protože l1 nebo l2 ztráta je používají
ChallengesEdit
– Pomalý závěr problém
vyřešit pomalý závěr problém, Microsoft research a Baidu výzkumu oba navrhované použití non-auto-regresivní modely, aby závěr proces rychlejší., Model FastSpeech navržený společností Microsoft používá k dosažení cíle architekturu transformátoru s modelem trvání. Kromě toho model trvání, který si půjčuje z tradičních metod, činí produkci řeči robustnější.
– Robustnost problém
Vědci zjistili, že robustnost problém silně souvisí s zarovnání textu selhání, a to pohání mnoho výzkumníků revidovat pozornost mechanismu, který využívají silný místní vztah a monotónní vlastnosti řeči.,
– problém s ovladatelností
pro vyřešení problému ovladatelnosti je navrženo mnoho prací o variačním auto-kodéru.
– Flat prosody problem
GST-Tacotron může mírně zmírnit plochý prozodický problém, nicméně stále závisí na tréninkových datech.
– Smoothed acoustic output problem
pro generování realističtějších akustických vlastností lze použít strategii učení GAN.
v praxi se však neuronový vocoder může dobře zobecnit, i když jsou vstupní funkce hladší než skutečná data.,
Semi-pod dohledem learningEdit
v Současné době, self-učení s učitelem získat hodně pozornosti, protože lepší využití neoznačených dat. Výzkum ukazuje, že s pomocí ztráty pod dohledem se potřeba spárovaných dat snižuje.
Nula-shot reproduktor adaptationEdit
Zero-shot reproduktor adaptace je slibné, protože jeden model může generovat řeč s různými reproduktor styly a charakteristické. V červnu 2018 společnost Google navrhla použít předem vyškolený model ověření reproduktorů jako kodér reproduktorů k extrahování vkládání reproduktorů., Kodér reproduktorů se pak stává součástí neuronového modelu text-to-speech a může rozhodnout o stylu a charakteristice výstupní řeči. To ukazuje komunitu, že pouze pomocí jediného modelu pro generování řeči více stylu je možné.
Neural vocoderEdit
p θ ( x ) = ∏ T = 1 t p ( x T | x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, x_{t-1})}
kde θ {\displaystyle \ theta } je modelový parametr včetně mnoha dilatovaných konvolučních vrstev., Každý zvukový vzorek x t {\displaystyle x_{t}} je proto na vzorcích podmíněn ve všech předchozích časových intervalech. Nicméně, auto-regresivní povaha WaveNet dělá proces odvození dramaticky pomalý. Chcete-li vyřešit problém s pomalým odvozením, který pochází z auto-regresivní charakteristiky modelu WaveNet, je navržen paralelní WaveNet. Paralelní WaveNet je inverzní autoregresivní model založený na průtoku, který je vyškolen destilací znalostí s předem vyškoleným modelem učitele WaveNet., Protože inverzní autoregresivní model založený na průtoku je při provádění inference neautoregresivní, rychlost inference je rychlejší než v reálném čase. Mezitím Nvidia navrhla model waveglow založený na toku, který může také generovat řeč rychleji než rychlost v reálném čase. Nicméně, i přes vysokou závěr rychlost, paralelní WaveNet má omezení nutnosti pre-vyškoleni WaveNet model a WaveGlow trvá mnoho týdnů konvergovat s omezenou výpočetní zařízení. Tento problém je vyřešen paralelním WaveGAN, který se učí produkovat řeč pomocí multi-rozlišení spektrální ztráty a GANs učení strategie.,