najważniejsze cechy systemu syntezy mowy to naturalność i zrozumiałość. Naturalność opisuje, jak blisko wyjście brzmi jak ludzka mowa, podczas gdy zrozumiałość to łatwość, z jaką wyjście jest zrozumiałe. Idealny syntezator mowy jest zarówno naturalny, jak i zrozumiały. Systemy syntezy mowy zazwyczaj starają się zmaksymalizować obie cechy.

dwie podstawowe technologie generujące syntetyczne przebiegi mowy to synteza konkatenacyjna i synteza formantowa., Każda technologia ma mocne i słabe strony, a zamierzone zastosowania systemu syntezy zazwyczaj określają, które podejście jest stosowane.

synteza Konkatenacjedytuj

Główny artykuł: synteza Konkatenacyjna

synteza Konkatenacyjna opiera się na konkatenacji (lub naciąganiu) segmentów nagranej mowy. Ogólnie rzecz biorąc, synteza konkatenacyjna wytwarza najbardziej naturalnie brzmiącą syntetyzowaną mowę., Jednak różnice między naturalnymi wariantami mowy a naturą automatycznych technik segmentacji przebiegów czasami powodują słyszalne usterki na wyjściu. Istnieją trzy główne podtypy syntezy konkatenacyjnej.

synteza selekcji Jednostkowejedytuj

synteza selekcji jednostkowej wykorzystuje duże bazy danych nagranej mowy. Podczas tworzenia bazy danych każda zapisana wypowiedź jest dzielona na niektóre lub wszystkie z następujących elementów: pojedyncze telefony, difony, półfony, sylaby, morfemy, słowa, zwroty i zdania., Zazwyczaj podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy ustawionego na tryb „wymuszonego wyrównania” z pewną ręczną korekcją, przy użyciu wizualnych reprezentacji, takich jak kształt fali i spektrogram. Indeks jednostek w bazie danych mowy jest następnie tworzony na podstawie segmentacji i parametrów akustycznych, takich jak podstawowa częstotliwość (wysokość), czas trwania, pozycja w sylabie i sąsiednie telefony. W czasie wykonywania żądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha jednostek kandydujących z bazy danych(wybór jednostek)., Proces ten jest zazwyczaj realizowany przy użyciu specjalnie ważonego drzewa decyzyjnego.

Wybór jednostki zapewnia największą naturalność, ponieważ stosuje tylko niewielką ilość cyfrowego przetwarzania sygnału (DSP) do nagranej mowy. DSP często sprawia, że nagrana mowa brzmi mniej naturalnie, chociaż niektóre systemy wykorzystują niewielką ilość przetwarzania sygnału w punkcie połączenia, aby wygładzić kształt fali. Wyjście z najlepszych systemów doboru jednostek jest często nie do odróżnienia od prawdziwych ludzkich głosów, szczególnie w kontekstach, dla których system TTS został dostrojony., Jednak maksymalna naturalność zazwyczaj wymaga, aby bazy danych mowy selekcji jednostek były bardzo duże, w niektórych systemach obejmujących gigabajty zarejestrowanych danych, reprezentujących dziesiątki godzin mowy. Znane są również algorytmy wyboru jednostek, które wybierają segmenty z miejsca, które powoduje mniej niż idealną syntezę (np. drobne słowa stają się niejasne), nawet jeśli istnieje lepszy wybór w bazie danych. Niedawno naukowcy zaproponowali różne zautomatyzowane metody wykrywania nienaturalnych segmentów w systemach syntezy mowy selekcji jednostek.,

diphone synthesis

diphone synthesis wykorzystuje minimalną bazę danych mowy zawierającą wszystkie difony (przejścia między dźwiękami) występujące w języku. Liczba difonów zależy od fonotaktyki języka: na przykład Hiszpański ma około 800 difonów, a niemiecki około 2500. W syntezie difonów tylko jeden przykład każdego z difonów jest zawarty w bazie danych mowy. W czasie wykonywania, docelowa prozodyka zdania jest nakładana na te minimalne jednostki za pomocą technik cyfrowego przetwarzania sygnału, takich jak liniowe kodowanie predykcyjne, PSOLA lub MBROLA., lub nowsze techniki, takie jak zmiana wysokości dźwięku w domenie źródłowej za pomocą dyskretnej transformacji cosinusa. Synteza Diphone cierpi z powodu usterek dźwiękowych syntezy konkatenacyjnej i robotyczno-brzmiącej natury syntezy formantowej i ma niewiele zalet każdego podejścia poza niewielkimi rozmiarami. W związku z tym jego wykorzystanie w aplikacjach komercyjnych maleje, chociaż nadal jest wykorzystywane w badaniach, ponieważ istnieje wiele swobodnie dostępnych implementacji oprogramowania. Wczesnym przykładem syntezy Difonów jest robot dydaktyczny leachim, który został wynaleziony przez Michaela J. Freemana., Leachim zawierał informacje dotyczące zajęć klasowych i pewne informacje biograficzne o 40 uczniach, których został zaprogramowany do nauczania. Był testowany w czwartej klasie w Bronksie w Nowym Jorku.

synteza specyficzna Domenieedytuj

synteza specyficzna domenie łączy wcześniej nagrane słowa i zwroty, aby utworzyć pełne wypowiedzi. Jest on używany w aplikacjach, w których różnorodność tekstów, które System wypowie, jest ograniczona do konkretnej domeny, jak ogłoszenia harmonogramu TRANZYTU lub raporty pogodowe., Technologia ta jest bardzo prosta w implementacji i od dawna znajduje zastosowanie komercyjne w urządzeniach takich jak zegary i kalkulatory. Poziom naturalności tych systemów może być bardzo wysoki, ponieważ różnorodność typów zdań jest ograniczona i są one ściśle zgodne z prozodią i intonacją oryginalnych nagrań.

ponieważ systemy te są ograniczone przez słowa i frazy w swoich bazach danych, nie są ogólnego przeznaczenia i mogą jedynie syntetyzować kombinacje słów i fraz, z którymi zostały zaprogramowane., Mieszanie słów w naturalnie mówionym języku może jednak nadal powodować problemy, chyba że weźmie się pod uwagę wiele odmian. Na przykład, w nierotycznych dialektach języka angielskiego „R” W słowach takich jak „clear” /ˈkləə/ jest zwykle wymawiane tylko wtedy, gdy następujące słowo ma samogłoskę jako pierwszą literę (np. „clear out” jest realizowane jako /ˈkləəːt/). Podobnie w języku francuskim, wiele końcowych spółgłosek przestaje milczeć, jeśli po wyrazie rozpoczynającym się od samogłoski, efekt zwany łącznikiem., Ta zmiana nie może być odtworzona za pomocą prostego systemu konkatenacji słów, który wymagałby dodatkowej złożoności, aby był wrażliwy na kontekst.

Formant synthesis

formant synthesis nie wykorzystuje próbek mowy ludzkiej w czasie wykonywania. Zamiast tego synteza mowy jest tworzona przy użyciu syntezy addytywnej i modelu akustycznego (physical modeling synthesis). Parametry takie jak częstotliwość podstawowa, głos i poziom szumu są zmieniane w czasie, aby stworzyć kształt fal sztucznej mowy., Metoda ta jest czasami nazywana syntezą opartą na regułach; jednak wiele systemów konkatenacyjnych ma również komponenty oparte na regułach.Wiele systemów opartych na technologii syntezy formantowej generuje Sztuczną, robotycznie brzmiącą mowę, która nigdy nie byłaby mylona z ludzką mową. Jednak maksymalna naturalność nie zawsze jest celem systemu syntezy mowy, a systemy syntezy formantowej mają przewagę nad systemami konkatenacyjnymi. Formant-syntetyzowana mowa może być niezawodnie zrozumiała, nawet przy bardzo dużych prędkościach, unikając usterek akustycznych, które często nękają systemy konkatenacyjne., Szybka syntetyzowana mowa jest używana przez osoby niedowidzące do szybkiego poruszania się po komputerach za pomocą czytnika ekranu. Syntezatory formantowe są zwykle mniejszymi programami niż systemy konkatenacyjne, ponieważ nie mają bazy próbek mowy. Mogą więc być stosowane w systemach wbudowanych, w których moc pamięci i mikroprocesorów jest szczególnie ograniczona. Ponieważ systemy oparte na formancie mają pełną kontrolę nad wszystkimi aspektami mowy wyjściowej, można uzyskać szeroką gamę prozodii i intonacji, przekazując nie tylko pytania i stwierdzenia, ale różne emocje i Tony głosu.,

przykłady Nie-czasu rzeczywistego, ale bardzo dokładnej kontroli intonacji w syntezie formantu obejmują pracę wykonaną w późnych latach 70.dla Texas Instruments Toy Speak& Spell, a na początku lat 80. Maszyny SEGA arcade i w wielu Atari, Inc. gry zręcznościowe wykorzystujące chipy LPC TMS5220. Tworzenie właściwej intonacji dla tych projektów było żmudne, a rezultaty nie zostały jeszcze dopasowane przez interfejsy tekst-mowa w czasie rzeczywistym.,

synteza Artykulacyjnaedytuj

synteza artykulacyjna odnosi się do obliczeniowych technik syntezy mowy opartych na modelach ludzkiego przewodu głosowego i zachodzących tam procesów artykulacyjnych. Pierwszy artykulacyjny syntezator regularnie używany do eksperymentów laboratoryjnych został opracowany w Haskins Laboratories w połowie 1970 roku przez Philipa Rubina, Toma Baera i Paula Mermelsteina. Syntezator ten, znany jako Asy, został oparty na modelach układu wokalnego opracowanych w Bell Laboratories w latach 60. i 70. przez Paula Mermelsteina, Cecila Cokera i współpracowników.,

do niedawna modele syntezy artykulacyjnej nie były włączane do komercyjnych systemów syntezy mowy. Wyjątek stanowi System NeXT opracowany i wprowadzony na rynek przez Trillium Sound Research, firmę spin-off Uniwersytetu w Calgary, gdzie przeprowadzono wiele oryginalnych badań. Po upadku różnych inkarnacji NeXT (zapoczątkowanych przez Steve ' a Jobsa pod koniec lat 80. i połączonych z Apple Computer w 1997 roku), oprogramowanie Trillium zostało opublikowane na licencji GNU General Public License, a prace nad nim kontynuowano jako gnuspeech., System, wprowadzony po raz pierwszy na rynek w 1994 roku, zapewnia pełną artykulacyjną konwersję tekstu na mowę za pomocą falowodu lub analogu linii transmisyjnej ludzkiego przewodu ustnego i nosowego kontrolowanego przez „charakterystyczny model regionu”Carré.

nowsze syntezatory, opracowane przez Jorge C. Lucero i współpracowników, zawierają modele biomechaniki fałdów wokalnych, aerodynamiki glottalnej i propagacji fali akustycznej w jamie bronqui, traquea, nosowej i ustnej, a tym samym stanowią pełne systemy symulacji mowy opartej na fizyce.,

synteza oparta na HMM

synteza oparta na hmm jest metodą syntezy opartą na ukrytych modelach Markowa, nazywaną także statystyczną syntezą parametryczną. W tym systemie widmo częstotliwości (struna głosowa), częstotliwość podstawowa (źródło głosu) i czas trwania (prozodyka) mowy są modelowane jednocześnie przez HMMs. Przebieg mowy generowany jest z samych HMMs w oparciu o kryterium maksymalnego prawdopodobieństwa.

synteza Sinewave

synteza Sinewave jest techniką syntezy mowy poprzez zastąpienie formantów (głównych pasm energii) czystymi gwizdkami tonalnymi.,

synteza oparta na głębokim uczeniu sięedytuj

Formułaedytuj

biorąc pod uwagę tekst wejściowy lub pewną sekwencję jednostki językowej Y {\displaystyle Y} , mowa docelowa X {\displaystyle X} może być wyprowadzona przez

x = arg max max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}

Gdzie θ {\displaystyle \Theta } jest parametrem modelu.

zazwyczaj tekst wejściowy jest najpierw przekazywany do Generatora funkcji akustycznych, a następnie funkcje akustyczne są przekazywane do vocodera neuronowego. W przypadku generatora cech akustycznych funkcja strat jest zwykle stratą L1 lub L2., Te funkcje stratne stawiają ograniczenie, że wyjściowe rozkłady funkcji akustycznych muszą być Gaussa lub Laplaciana. W praktyce, ponieważ pasmo głosu ludzkiego wynosi od około 300 do 4000 Hz, funkcja strat będzie zaprojektowana tak, aby miała większą penalność w tym zakresie:

L O s S = α strata ludzka + ( 1 − α ) strata Inna {\displaystyle strata=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}_{\text{other}}}

gdzie strata ludzka {\displaystyle {\text {\displaystyle\Alpha}_{\text{human}}} jest stratą z ludzkiego pasma głosu, a α {\displaystyle \ Alpha} jest skalarem zwykle około 0,5., Cechą akustyczną jest zazwyczaj spektrogram lub spektrogram w skali Mel. Cechy te wychwytują relację czasowo-częstotliwościową sygnału mowy, a zatem wystarczy wygenerować inteligentne wyjścia z tymi cechami akustycznymi. Funkcja Mel-frequency cepstrum używana w zadaniu rozpoznawania mowy nie nadaje się do syntezy mowy, ponieważ redukuje zbyt dużo informacji.

krótka historiaedit

we wrześniu 2016 roku DeepMind zaproponował WaveNet, głęboki model generatywny form falowych raw audio., Pokazuje to Społeczności, że modele oparte na uczeniu głębokim mają zdolność modelowania nieprzetworzonych kształtów fal i dobrze działają na generowaniu mowy z cech akustycznych, takich jak spektrogramy lub spektrogramy w skali mel, a nawet z niektórych wstępnie przetworzonych cech językowych. Na początku 2017 roku Mila (Instytut Badawczy) zaproponował char2wav, model do produkcji surowego kształtu fali w metodzie end-to-end. Ponadto Google i Facebook zaproponowały Tacotron i VoiceLoop, odpowiednio, do generowania funkcji akustycznych bezpośrednio z tekstu wejściowego., W tym samym roku Google zaproponował Tacotron2, który połączył vocoder WaveNet ze zmienioną architekturą Tacotron w celu przeprowadzenia syntezy mowy end-to-end. Tacotron2 może generować wysokiej jakości mowę zbliżającą się do ludzkiego głosu. Od tego czasu metody end-to-end stały się najgorętszym tematem badawczym, ponieważ wielu badaczy na całym świecie zaczyna dostrzegać moc end-to-end syntezatora mowy.,

zalety i wadedytuj

zalety metod end-to-end są następujące:

  • do analizy tekstu, modelowania akustycznego i syntezy dźwięku potrzebny jest tylko jeden model, tj. syntezowanie mowy bezpośrednio z znaków
  • mniej inżynierii cech
  • łatwo pozwala na bogate uwarunkowanie różnych atrybutów, np.,
  • adaptacja do nowych danych jest łatwiejsza
  • bardziej wytrzymała niż modele wielostopniowe, ponieważ żaden błąd komponentu nie może łączyć
  • potężna zdolność modelu do przechwytywania ukrytych wewnętrznych struktur danych
  • zdolna do generowania zrozumiałej i naturalnej mowy
  • nie ma potrzeby utrzymywania dużej bazy danych, tj.,
  • mowa wyjściowa nie jest solidna, gdy dane nie są wystarczające
  • brak sterowalności w porównaniu z tradycyjnymi konkatenacyjnymi i statystycznymi metodami parametrycznymi
  • mają tendencję do uczenia się płaskiej prosody przez uśrednianie danych treningowych
  • mają tendencję do wygładzania funkcji akustycznych, ponieważ używana jest utrata L1 lub l2

Wyzwaniaedit

– problem powolnego wnioskowania

do Rozwiąż problem powolnego wnioskowania, Microsoft Research i badania Baidu zaproponowane przy użyciu modeli Nie-Auto-regresywnych, aby proces wnioskowania był szybszy., Model FastSpeech zaproponowany przez Microsoft wykorzystuje architekturę Transformer z modelem czasu trwania, aby osiągnąć cel. Poza tym model czasu trwania, który zapożycza się z tradycyjnych metod, sprawia, że produkcja mowy jest bardziej solidna.

– problem solidności

naukowcy odkryli, że problem solidności jest silnie związany z błędami wyrównania tekstu, co zmusza wielu badaczy do rewizji mechanizmu uwagi, który wykorzystuje silną lokalną relację i monotoniczne właściwości mowy.,

– problem sterowalności

aby rozwiązać problem sterowalności, proponuje się wiele prac na temat wariacyjnego autoenkodera.

– płaski problem prosody

GST-Tacotron może nieco złagodzić płaski problem prosody, jednak nadal zależy to od danych treningowych.

– wygładzony problem z wyjściami akustycznymi

aby wygenerować bardziej realistyczne funkcje akustyczne, można zastosować strategię uczenia GAN.

jednak w praktyce vocoder neuronowy może dobrze uogólniać nawet wtedy, gdy funkcje wejściowe są bardziej płynne niż rzeczywiste dane.,

Semi-nadzorowane uczenie sięedytuj

obecnie samo-nadzorowane uczenie się zyskuje wiele uwagi ze względu na lepsze wykorzystanie nieoznakowanych danych. Badania pokazują, że przy pomocy samozasysanej straty zmniejsza się potrzeba sparowanych danych.

adaptacja głośnika Zero-shotedytuj

adaptacja głośnika Zero-shot jest obiecująca, ponieważ pojedynczy model może generować mowę z różnymi stylami i charakterystyką głośników. W czerwcu 2018 roku Google zaproponowało użycie wstępnie wyszkolonego modelu weryfikacji głośników jako kodera głośników do wyodrębniania osadzania głośników., Koder głośników staje się następnie częścią neuronowego modelu text-To-speech i może decydować o stylu i charakterystyce mowy wyjściowej. Pokazuje to Społeczności, że możliwe jest użycie tylko jednego modelu do generowania mowy o wielu stylach.

p θ ( x ) = ∏ T = 1 T p ( x t | x 1 , . . . , x t-1) {\displaystyle p_ {\theta} (\mathbf {x}) = \ prod _{t=1}^{T} p(x_{t}|x_{1},…, x_{t-1})}

Gdzie θ {\displaystyle \theta } jest parametrem modelu obejmującym wiele rozszerzonych warstw splotu., Dlatego każda próbka audio x T {\displaystyle x_{t}} jest uwarunkowana na próbkach we wszystkich poprzednich fazach czasowych. Jednak automatyczny regresywny charakter Waveneta sprawia, że proces wnioskowania jest dramatycznie powolny. Aby rozwiązać problem powolnego wnioskowania, który pochodzi z auto-regresywnej charakterystyki modelu Waveneta, proponuje się równoległe waveneta. Parallel WaveNet jest odwrotnym autoregresywnym modelem opartym na przepływie, który jest szkolony przez destylację wiedzy z wcześniej wyszkolonym modelem waveneta., Ponieważ model oparty na przepływie odwrotnym autoregresywnym nie jest autoregresywny podczas wykonywania wnioskowania, szybkość wnioskowania jest szybsza niż w czasie rzeczywistym. W międzyczasie Nvidia zaproponowała model przepływu WaveGlow, który może również generować mowę szybciej niż w czasie rzeczywistym. Jednak pomimo dużej prędkości wnioskowania, parallel WaveNet ma ograniczenie potrzeby wstępnie wyszkolonego modelu Waveneta i waveglow zajmuje wiele tygodni, aby zbiegać się z ograniczonymi urządzeniami obliczeniowymi. Problem ten rozwiązuje Parallel WaveGAN, który uczy się wytwarzać mowę przez wielozadaniową stratę widmową i strategię uczenia się GANs.,

Articles

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *