cele mai importante calități ale unui sistem de sinteză a vorbirii sunt naturalețea și inteligibilitatea. Naturalitatea descrie cât de strâns sună ieșirea ca vorbirea umană, în timp ce inteligibilitatea este ușurința cu care se înțelege ieșirea. Sintetizatorul de vorbire ideal este atât natural, cât și inteligibil. Sistemele de sinteză a vorbirii încearcă de obicei să maximizeze ambele caracteristici.cele două tehnologii primare care generează forme de undă de vorbire sintetică sunt sinteza concatenativă și sinteza formantă., Fiecare tehnologie are puncte forte și puncte slabe, iar utilizările preconizate ale unui sistem de sinteză vor determina de obicei ce abordare este utilizată.
Concatenare synthesisEdit
sinteza Concatenativă se bazează pe concatenare (sau lipiți) de segmente de discurs înregistrate. În general, sinteza concatenativă produce cel mai natural discurs sintetizat., Cu toate acestea, diferențele dintre variațiile naturale ale vorbirii și natura tehnicilor automate de segmentare a formelor de undă duc uneori la erori audibile în ieșire. Există trei subtipuri principale de sinteză concatenativă.
sinteza de selecție a Unitățiiedit
sinteza de selecție a unității utilizează baze de date mari de vorbire înregistrate. Timpul creării bazei de date, fiecare înregistrate rostire este segmentat în unele sau toate dintre următoarele: telefoane individuale, diphones, jumătate-telefoane, silabe, morfeme, cuvinte, fraze, și exemple., De obicei, împărțirea în segmente se face folosind un recognizer de vorbire special modificat setat la un mod de” aliniere forțată”, cu o corecție manuală după aceea, folosind reprezentări vizuale, cum ar fi forma de undă și spectrograma. Un index al unităților din Baza de date de vorbire este apoi creat pe baza segmentării și a parametrilor acustici, cum ar fi frecvența fundamentală (pitch), durata, poziția în silabă și telefoanele vecine. În timpul rulării, rostirea țintă dorită este creată prin determinarea celui mai bun lanț de unități candidate din Baza de date (selecția unității)., Acest proces este de obicei realizat folosind un arbore de decizie special ponderat.
selecția unității oferă cea mai mare naturalitate, deoarece aplică doar o cantitate mică de procesare a semnalului digital (DSP) la discursul înregistrat. DSP face adesea sunetul de vorbire înregistrat mai puțin natural, deși unele sisteme utilizează o cantitate mică de procesare a semnalului în punctul de concatenare pentru a netezi forma de undă. Ieșirea din cele mai bune sisteme de selecție a unităților este adesea indistinguizabilă de vocile umane reale, în special în contexte pentru care sistemul TTS a fost reglat., Cu toate acestea, naturalitatea maximă necesită, de obicei, baze de date de vorbire de selecție a unității să fie foarte mari, în unele sisteme variind în gigabytes de date înregistrate, reprezentând zeci de ore de vorbire. De asemenea, algoritmii de selecție a unităților au fost cunoscuți pentru a selecta segmente dintr-un loc care are ca rezultat o sinteză mai mică decât ideală (de exemplu, cuvintele minore devin neclare) chiar și atunci când există o alegere mai bună în baza de date. Recent, cercetătorii au propus diverse metode automate pentru a detecta segmente nenaturale în sistemele de sinteză a vorbirii de selecție a unităților.,
Diphone synthesisEdit
Diphone sinteza foloseste un minim de vorbire bază de date care conține toate diphones (sunet-sunet tranziții) care apar într-o limbă. Numărul de telefoane depinde de fonotactica limbii: de exemplu, spaniola are aproximativ 800 de telefoane, iar germana aproximativ 2500. În sinteza diphone, doar un exemplu de fiecare diphone este conținută în baza de date de vorbire. În timpul rulării, prozodia țintă a unei propoziții este suprapusă acestor unități minime prin tehnici de procesare a semnalului digital, cum ar fi codarea predictivă liniară, PSOLA sau mbrola., sau tehnici mai recente, cum ar fi modificarea pasului în domeniul sursă folosind transformarea cosinus discretă. Sinteza Diphone suferă de glitches sonic de sinteză concatenativă și natura robotic-sondare a sintezei formant, și are puține dintre avantajele fie abordare, altele decât de dimensiuni mici. Ca atare, utilizarea sa în aplicațiile comerciale este în scădere, deși continuă să fie utilizată în cercetare, deoarece există o serie de implementări software disponibile gratuit. Un exemplu timpuriu de sinteză Diphone este un robot de predare, leachim, care a fost inventat de Michael J. Freeman., Leachim conținea informații despre curricula de clasă și anumite informații biografice despre cei 40 de elevi pe care era programat să-i predea. A fost testat într-o clasă de clasa a patra din Bronx, New York.
sintetizare specifică domeniului
sinteza specifică domeniului concatenează cuvinte și expresii preînregistrate pentru a crea rostiri complete. Este utilizat în aplicații în care varietatea de texte pe care sistemul le va afișa este limitată la un anumit domeniu, cum ar fi anunțurile privind programul de tranzit sau rapoartele meteo., Tehnologia este foarte simplu de implementat, și a fost în uz comercial pentru o lungă perioadă de timp, în dispozitive cum ar fi vorbind ceasuri și calculatoare. Nivelul de naturalețe al acestor sisteme poate fi foarte ridicat, deoarece varietatea tipurilor de propoziții este limitată și se potrivesc îndeaproape cu prozodia și intonația înregistrărilor originale.deoarece aceste sisteme sunt limitate de cuvintele și expresiile din bazele lor de date, ele nu sunt de uz general și pot sintetiza doar combinațiile de cuvinte și fraze cu care au fost preprogramate., Cu toate acestea, amestecarea cuvintelor în limba vorbită în mod natural poate cauza probleme dacă nu se iau în considerare numeroasele variații. De exemplu, în non-multe dialecte de limba engleză „r” în cuvinte precum „clar” /ˈklɪə/ este, de obicei, numai pronunțată atunci când următorul cuvânt are o vocală și prima literă (de exemplu, „clar” este realizat ca /ˌklɪəɹˈʌʊt/). La fel și în Franceză, multe consoane finale nu mai sunt tăcute dacă sunt urmate de un cuvânt care începe cu o vocală, un efect numit legătură., Această alternanță nu poate fi reprodusă printr-un simplu sistem de concatenare a cuvintelor, care ar necesita o complexitate suplimentară pentru a fi sensibilă la context.
sintetizarea Formanților
sinteza Formanților nu utilizează eșantioane de vorbire umană în timpul rulării. În schimb, ieșirea de vorbire sintetizată este creată folosind sinteza aditivă și un model acustic (sinteza de modelare fizică). Parametrii precum frecvența fundamentală, vocea și nivelurile de zgomot sunt variate în timp pentru a crea o formă de undă de vorbire artificială., Această metodă este uneori numită sinteză bazată pe reguli; cu toate acestea, multe sisteme concatenative au și componente bazate pe reguli.Multe sisteme bazate pe tehnologia sintezei formante generează un discurs artificial, robotizat, care nu ar fi niciodată confundat cu vorbirea umană. Cu toate acestea, naturalețea maximă nu este întotdeauna scopul unui sistem de sinteză a vorbirii, iar sistemele de sinteză formantă au avantaje față de sistemele concatenative. Discursul sintetizat Formant poate fi inteligibil în mod fiabil, chiar și la viteze foarte mari, evitând glitches-urile acustice care afectează în mod obișnuit sistemele concatenative., Discursul sintetizat de mare viteză este utilizat de persoanele cu deficiențe de vedere pentru a naviga rapid pe computere folosind un cititor de ecran. Sintetizatoarele formante sunt de obicei programe mai mici decât sistemele concatenative, deoarece nu au o bază de date cu eșantioane de vorbire. Prin urmare, pot fi utilizate în sisteme încorporate, unde memoria și puterea microprocesorului sunt în special limitate. Deoarece sistemele bazate pe formant au un control complet asupra tuturor aspectelor discursului de ieșire, o mare varietate de prosodii și intonații pot fi emise, transmițând nu doar întrebări și declarații, ci o varietate de emoții și tonuri de voce.,
Exemple de non-timp real, dar intonație precisă de control în formant sinteza include activitatea desfășurată de la sfârșitul anilor 1970 pentru Texas Instruments jucărie Vorbesc & Vraja, și la începutul anilor 1980 Sega mașini de arcade și în multe Atari, Inc. jocuri arcade folosind chips-uri TMS5220 LPC. Crearea unei intonații adecvate pentru aceste proiecte a fost dureroasă, iar rezultatele nu au fost încă potrivite de interfețele text-To-speech în timp real.,sinteza Articulatorie se referă la tehnici computaționale de sinteză a vorbirii bazate pe modele ale tractului vocal uman și ale proceselor de articulare care apar acolo. Primul sintetizator articulat utilizat în mod regulat pentru experimente de laborator a fost dezvoltat la laboratoarele Haskins la mijlocul anilor 1970 de Philip Rubin, Tom Baer și Paul Mermelstein. Acest sintetizator, cunoscut sub numele de ASY, s-a bazat pe modele ale tractului vocal dezvoltate la Bell Laboratories în anii 1960 și 1970 de Paul Mermelstein, Cecil Coker și colegii săi.,până de curând, modelele de sinteză articulatorie nu au fost încorporate în sistemele de sinteză a vorbirii comerciale. O excepție notabilă este sistemul NeXT-based inițial dezvoltat și comercializat de Trillium Sound Research, o companie spin-off a Universității din Calgary, unde a fost realizată o mare parte din cercetarea inițială. După dispariția diferitelor încarnări ale NeXT (începută de Steve Jobs la sfârșitul anilor 1980 și fuzionată cu Apple Computer în 1997), software-ul Trillium a fost publicat sub Licența Publică Generală GNU, lucrările continuând ca gnuspeech., Sistemul, comercializat pentru prima dată în 1994, oferă o conversie completă a textului în vorbire bazată pe articulație folosind un ghid de undă sau un analog al liniei de transmisie a tracturilor orale și nazale umane controlate de „modelul regiunii distinctive”al lui Carré.
Mai recente sintetizatoare, dezvoltat de către Jorge C. Lucero și colegii, să includă modele de ori vocal biomecanica, glotal aerodinamica și propagarea undelor acustice în bronqui, traquea, nazale și cavitățile orale, și, astfel, constituie sisteme complete de fizica pe baza de vorbire simulare.,sinteza bazată pe HMM este o metodă de sinteză bazată pe modele Markov ascunse, numită și sinteză parametrică Statistică. În acest sistem, spectrul de frecvență (tractul vocal), frecvența fundamentală (sursa vocală) și durata (prosodia) vorbirii sunt modelate simultan de HMMs. Formele de undă de vorbire sunt generate de Hmm-urile în sine pe baza criteriului de probabilitate maximă.sinteza Sinewave este o tehnică de sinteză a vorbirii prin înlocuirea formanților (benzile principale de energie) cu fluiere de ton pur.,
Profunde de învățare bazate pe synthesisEdit
FormulationEdit
Având o intrare de text sau a unor secvențe de unitate lingvistică Y {\displaystyle Y} , discursul țintă X {\displaystyle X} pot fi derivate prin
X = arg max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}
în cazul în care θ {\displaystyle \theta } este modelul parametru.de obicei, textul de intrare va fi transmis mai întâi unui generator de caracteristici acustice, apoi caracteristicile acustice sunt transmise vocoderului neural. Pentru generatorul de caracteristici acustice, funcția de pierdere este de obicei pierderea L1 sau L2., Aceste funcții de pierdere pun o constrângere că distribuțiile caracteristicilor acustice de ieșire trebuie să fie Gaussian sau laplacian. În practică, de la vocea umană trupa variază de la aproximativ 300 de la 4000 Hz, funcția de pierdere vor fi proiectate pentru a avea mai mult penalitatii pe acest interval:
l o s = α pierderi umane + ( 1 − α ) pierderea alte {\displaystyle pierdere=\alpha {\text{pierderea}}_{\text{om}}+(1-\alpha ){\text{pierderea}}_{\text{alt}}}
în cazul în care pierderea omului {\displaystyle {\text{pierderea}}_{\text{om}}} este pierderea de vocea umană trupa și α {\displaystyle \alpha } este un scalar, de obicei, în jurul valorii de 0.5., Caracteristica acustică este de obicei Spectrogram sau spectrogram la scară Mel. Aceste caracteristici captează relația timp-frecvență a semnalului de vorbire și, prin urmare, este suficient să se genereze ieșiri inteligente cu aceste caracteristici acustice. Caracteristica cepstrum de frecvență Mel utilizată în sarcina de recunoaștere a vorbirii nu este potrivită pentru sinteza vorbirii, deoarece reduce prea multe informații.în septembrie 2016, DeepMind a propus WaveNet, un model generativ profund de forme de undă audio raw., Acest lucru arată comunității că modelele bazate pe învățare profundă au capacitatea de a modela forme de undă brute și de a funcționa bine la generarea vorbirii din caracteristici acustice, cum ar fi spectrograme sau spectrograme la scară mel, sau chiar din unele caracteristici lingvistice preprocesate. La începutul anului 2017, Mila (Institutul de cercetare) a propus char2wav, un model pentru a produce o formă de undă brută într-o metodă end-to-end. De asemenea, Google și Facebook propus Tacotron și VoiceLoop, respectiv, pentru a genera caracteristicile acustice direct din textul de intrare., În mai târziu, în același an, Google a propus Tacotron2 care a combinat vocoderul WaveNet cu arhitectura Tacotron revizuită pentru a efectua sinteza vorbirii end-to-end. Tacotron2 poate genera vorbire de înaltă calitate care se apropie de vocea umană. De atunci, metodele end-to-end au devenit cel mai tare subiect de cercetare, deoarece mulți cercetători din întreaga lume încep să observe puterea sintetizatorului de vorbire end-to-end.,
Avantajele și disadvantagesEdit
avantajele end-to-end metode sunt după cum urmează:
- nevoie Doar de un singur model pentru a efectua analiza de text, modelare acustică și audio de sinteză, adică sintetizarea vorbirii direct de caractere
- mai Puțin caracteristică inginerie
- permite cu Ușurință pentru bogat condiționat pe diverse atribute, de exemplu, adaptarea la date noi este mai ușoară
- mai robustă decât modelele în mai multe etape, deoarece eroarea niciunei componente nu poate compune
- capacitatea puternică a modelului de a capta structurile interne ascunse ale datelor
- capabil să genereze vorbire inteligibilă și naturală
- nu este nevoie să mențineți o bază de date,suferă de lent problemă de inferență
- Ieșire de vorbire nu sunt solide atunci când datele nu sunt suficiente
- Lipsa de controlabilitate în comparație cu tradiționale concatenativă și statistice parametrice abordări
- au Tendința de a învăța plat prozodie cu o medie de peste datelor de formare
- au Tendința de a de ieșire netezite caracteristicile acustice deoarece l1 sau l2 pierdere este folosit
ChallengesEdit
– Lent problemă de inferență
Pentru a rezolva lent problemă de inferență, Microsoft research și Baidu de cercetare propus utilizarea non-auto-modele de regresie pentru a face proces de inferență mai repede., Modelul FastSpeech propus de Microsoft utilizează arhitectura Transformer cu un model de durată pentru a atinge obiectivul. În plus, modelul de durată care împrumută din metodele tradiționale face ca producția de vorbire să fie mai robustă.cercetătorii au descoperit că problema robusteții este puternic legată de eșecurile de aliniere a textului, ceea ce determină mulți cercetători să revizuiască mecanismul de atenție care utilizează relația locală puternică și proprietățile monotonice ale vorbirii.,pentru a rezolva problema controlabilității, sunt propuse multe lucrări despre auto-codificatorul variațional.GST-Tacotron poate atenua ușor problema prosodiei plate, cu toate acestea, depinde în continuare de datele de antrenament.pentru a genera caracteristici acustice mai realiste, se poate aplica strategia de învățare GAN.cu toate acestea, în practică, vocoderul neural poate generaliza bine chiar și atunci când caracteristicile de intrare sunt mai netede decât datele reale.,în prezent, învățarea auto-supravegheată câștigă multă atenție datorită utilizării mai bune a datelor neetichetate. Cercetările arată că, cu ajutorul pierderii auto-supravegheate, nevoia de date asociate scade.adaptarea difuzoarelor Zero-shot este promițătoare deoarece un singur model poate genera vorbire cu diferite stiluri și caracteristici ale difuzoarelor. În iunie 2018, Google a propus să utilizeze modelul de verificare a difuzoarelor pre-instruit ca codificator de difuzoare pentru a extrage încorporarea difuzoarelor., Codificatorul difuzorului devine apoi o parte a modelului neural text-To-speech și poate decide stilul și caracteristica discursului de ieșire. Acest lucru arată comunității că este posibilă utilizarea unui singur model pentru a genera vorbire de stil multiplu.
vocoderEdit Neural
p θ ( x ) = ∏ t = 1 T p (X t | x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…, x_{t-1})}
unde θ {\displaystyle \theta } este parametrul modelului care include multe straturi de convoluție dilatate., Prin urmare, fiecare probă audio x t {\displaystyle x_{t}} este condiționată de eșantioane la toate etapele anterioare. Cu toate acestea, natura auto-regresivă a WaveNet face ca procesul de inferență să fie dramatic lent. Pentru a rezolva problema de inferență lentă care provine din caracteristica Auto-regresivă a modelului WaveNet, se propune Wavenet paralel. Paralel WaveNet este un model invers autoregresiv bazat pe flux, care este instruit prin distilarea cunoștințelor cu un model wavenet profesor pre-instruit., Deoarece modelul invers autoregresiv bazat pe flux este non-auto-regresiv atunci când se efectuează inferență, viteza de inferență este mai rapid decât în timp real. Între timp, Nvidia a propus un model WaveGlow bazat pe flux, care poate genera, de asemenea, vorbire cu o viteză mai rapidă decât în timp real. Cu toate acestea, în ciuda vitezei mari de inferență, wavenet paralel are limitarea necesității unui model WaveNet pre-instruit, iar WaveGlow durează multe săptămâni pentru a converge cu dispozitive de calcul limitate. Această problemă este rezolvată de Wavegan paralel care învață să producă vorbire prin pierderea spectrală multi-rezoluție și Strategia de învățare GANs.,