Le qualità più importanti di un sistema di sintesi vocale sono la naturalezza e l’intelligibilità. La naturalezza descrive quanto da vicino l’output suoni come il linguaggio umano, mentre l’intelligibilità è la facilità con cui l’output è compreso. Il sintetizzatore vocale ideale è sia naturale che intelligibile. I sistemi di sintesi vocale di solito cercano di massimizzare entrambe le caratteristiche.

Le due tecnologie primarie che generano forme d’onda vocali sintetiche sono la sintesi concatenativa e la sintesi formante., Ogni tecnologia ha punti di forza e di debolezza, e gli usi previsti di un sistema di sintesi in genere determinare quale approccio viene utilizzato.

Sintesi concatenativamodifica

Articolo principale: Sintesi concatenativa

La sintesi concatenativa si basa sulla concatenazione (o tesatura insieme) di segmenti del discorso registrato. Generalmente, la sintesi concatenativa produce il discorso sintetizzato dal suono più naturale., Tuttavia, le differenze tra le variazioni naturali nel discorso e la natura delle tecniche automatizzate per segmentare le forme d’onda a volte provocano difetti udibili nell’output. Esistono tre sottotipi principali di sintesi concatenativa.

Unit selection synthesisEdit

Unit selection synthesis utilizza grandi database di discorso registrato. Durante la creazione del database, ogni enunciato registrato è segmentato in alcuni o tutti i seguenti: singoli telefoni, difoni, mezze telefoni, sillabe, morfemi, parole, frasi e frasi., In genere, la divisione in segmenti viene eseguita utilizzando un riconoscimento vocale appositamente modificato impostato su una modalità di “allineamento forzato” con alcune correzioni manuali in seguito, utilizzando rappresentazioni visive come la forma d’onda e lo spettrogramma. Viene quindi creato un indice delle unità nel database vocale in base alla segmentazione e ai parametri acustici come la frequenza fondamentale (altezza), la durata, la posizione nella sillaba e i telefoni vicini. In fase di esecuzione, l’espressione di destinazione desiderata viene creata determinando la migliore catena di unità candidate dal database (selezione unità)., Questo processo viene in genere ottenuto utilizzando un albero decisionale appositamente ponderato.

La selezione dell’unità fornisce la massima naturalezza, perché applica solo una piccola quantità di elaborazione del segnale digitale (DSP) al discorso registrato. DSP rende spesso il suono vocale registrato meno naturale, anche se alcuni sistemi utilizzano una piccola quantità di elaborazione del segnale nel punto di concatenazione per lisciare la forma d’onda. L’output dei migliori sistemi di selezione delle unità è spesso indistinguibile dalle voci umane reali, specialmente in contesti per i quali il sistema TTS è stato sintonizzato., Tuttavia, la massima naturalezza richiede in genere che i database vocali di selezione delle unità siano molto grandi, in alcuni sistemi che vanno nei gigabyte di dati registrati, che rappresentano dozzine di ore di discorso. Inoltre, gli algoritmi di selezione delle unità sono noti per selezionare segmenti da un luogo che si traduce in una sintesi meno ideale (ad esempio, le parole minori diventano poco chiare) anche quando esiste una scelta migliore nel database. Recentemente, i ricercatori hanno proposto vari metodi automatizzati per rilevare segmenti innaturali nei sistemi di sintesi vocale di selezione delle unità.,

Diphone synthesisEdit

Diphone synthesis utilizza un database vocale minimo contenente tutti i diphone (transizioni suono-suono) che si verificano in una lingua. Il numero di difoni dipende dalla fonotattica della lingua: ad esempio, lo spagnolo ha circa 800 difoni e il tedesco circa 2500. Nella sintesi di difoni, solo un esempio di ogni difono è contenuto nel database vocale. In fase di esecuzione, la prosodia target di una frase viene sovrapposta a queste unità minime mediante tecniche di elaborazione del segnale digitale come la codifica predittiva lineare, PSOLA o MBROLA., o tecniche più recenti come la modifica del pitch nel dominio sorgente utilizzando la trasformazione discreta del coseno. La sintesi di difoni soffre dei difetti sonici della sintesi concatenativa e della natura robotica della sintesi formante, e ha pochi dei vantaggi di entrambi gli approcci oltre alle piccole dimensioni. Come tale, il suo uso in applicazioni commerciali è in declino, anche se continua ad essere utilizzato nella ricerca perché ci sono un certo numero di implementazioni software liberamente disponibili. Un primo esempio di sintesi Diphone è un robot didattico, leachim, che è stato inventato da Michael J. Freeman., Leachim conteneva informazioni riguardanti classe curriculare e alcune informazioni biografiche sui 40 studenti che è stato programmato per insegnare. È stato testato in una classe di quarta elementare nel Bronx, New York.

Sintesi specifica del domainmodifica

La sintesi specifica del domain concatena parole e frasi preregistrate per creare enunciati completi. Viene utilizzato in applicazioni in cui la varietà di testi che il sistema emetterà è limitata a un particolare dominio, come gli annunci del programma di transito o i bollettini meteorologici., La tecnologia è molto semplice da implementare, ed è stato in uso commerciale per un lungo periodo di tempo, in dispositivi come parlare orologi e calcolatrici. Il livello di naturalezza di questi sistemi può essere molto alto perché la varietà di tipi di frasi è limitata e corrispondono strettamente alla prosodia e all’intonazione delle registrazioni originali.

Poiché questi sistemi sono limitati dalle parole e dalle frasi nei loro database, non sono generici e possono solo sintetizzare le combinazioni di parole e frasi con cui sono stati preprogrammati., La fusione di parole all’interno della lingua parlata naturalmente, tuttavia, può ancora causare problemi a meno che le molte variazioni non siano prese in considerazione. Ad esempio, nei dialetti non rotici dell’inglese la “r” in parole come “clear” /ˈkləə/ è di solito pronunciata solo quando la parola seguente ha una vocale come prima lettera (ad esempio “clear out” è realizzato come /ˌklkləˈˈtt/). Allo stesso modo in francese, molte consonanti finali non diventano più silenziose se seguite da una parola che inizia con una vocale, un effetto chiamato liaison., Questa alternanza non può essere riprodotta da un semplice sistema di concatenazione delle parole, che richiederebbe ulteriore complessità per essere sensibile al contesto.

Formant synthesisEdit

Formant synthesis non utilizza campioni di linguaggio umano in fase di esecuzione. Invece, l’output vocale sintetizzato viene creato utilizzando la sintesi additiva e un modello acustico (sintesi di modellazione fisica). Parametri come frequenza fondamentale, voicing e livelli di rumore vengono variati nel tempo per creare una forma d’onda del discorso artificiale., Questo metodo è talvolta chiamato sintesi basata su regole; tuttavia, molti sistemi concatenativi hanno anche componenti basati su regole.Molti sistemi basati sulla tecnologia di sintesi formante generano un discorso artificiale dal suono robotico che non verrebbe mai scambiato per un discorso umano. Tuttavia, la massima naturalezza non è sempre l’obiettivo di un sistema di sintesi vocale, e i sistemi di sintesi formanti hanno vantaggi rispetto ai sistemi concatenativi. Il discorso sintetizzato da formante può essere intelligibile in modo affidabile, anche a velocità molto elevate, evitando i difetti acustici che affliggono comunemente i sistemi concatenativi., Il discorso sintetizzato ad alta velocità viene utilizzato dagli ipovedenti per navigare rapidamente nei computer utilizzando uno screen reader. I sintetizzatori formanti sono di solito programmi più piccoli rispetto ai sistemi concatenativi perché non hanno un database di campioni vocali. Possono quindi essere utilizzati in sistemi embedded, dove la memoria e la potenza del microprocessore sono particolarmente limitate. Poiché i sistemi basati su formanti hanno il controllo completo di tutti gli aspetti del discorso di output, è possibile produrre un’ampia varietà di prosodie e intonazioni, trasmettendo non solo domande e dichiarazioni, ma una varietà di emozioni e toni di voce.,

Esempi di controllo dell’intonazione non in tempo reale ma altamente accurato nella sintesi formante includono il lavoro svolto alla fine degli anni 1970 per il giocattolo Texas Instruments Speak & Spell ,e nei primi anni 1980 Sega arcade machines e in molti Atari, Inc. giochi arcade utilizzando il TMS5220 chip LPC. La creazione di un’intonazione corretta per questi progetti è stata meticolosa e i risultati devono ancora essere abbinati a interfacce text-to-speech in tempo reale.,

Sintesi articolativamodifica

La sintesi articolatoria si riferisce alle tecniche computazionali per sintetizzare il discorso sulla base di modelli del tratto vocale umano e dei processi di articolazione che si verificano lì. Il primo sintetizzatore articolatorio utilizzato regolarmente per esperimenti di laboratorio è stato sviluppato presso i laboratori Haskins a metà degli anni 1970 da Philip Rubin, Tom Baer e Paul Mermelstein. Questo sintetizzatore, noto come ASY, era basato su modelli di tratto vocale sviluppati presso i Bell Laboratories negli anni ’60 e’ 70 da Paul Mermelstein, Cecil Coker e colleghi.,

Fino a poco tempo fa, i modelli di sintesi articolatoria non sono stati incorporati nei sistemi di sintesi vocale commerciali. Un’eccezione notevole è il sistema basato su NeXT originariamente sviluppato e commercializzato da Trillium Sound Research, una società spin-off dell’Università di Calgary, dove è stata condotta gran parte della ricerca originale. Dopo la scomparsa delle varie incarnazioni di NeXT (iniziata da Steve Jobs alla fine degli anni ottanta e fusa con Apple Computer nel 1997), il software Trillium è stato pubblicato sotto la GNU General Public License, con il lavoro continuato come gnuspeech., Il sistema, commercializzato per la prima volta nel 1994, fornisce una conversione text-to-speech articolatoria completa utilizzando una guida d’onda o un analogo della linea di trasmissione dei tratti orali e nasali umani controllati dal “modello regionale distintivo”di Carré.

I sintetizzatori più recenti, sviluppati da Jorge C. Lucero e colleghi, incorporano modelli di biomeccanica della piega vocale, aerodinamica glottale e propagazione delle onde acustiche nelle cavità bronqui, traquea, nasale e orale, e quindi costituiscono sistemi completi di simulazione vocale basata sulla fisica.,

HMM-based synthesisEdit

HMM-based synthesis è un metodo di sintesi basato su modelli di Markov nascosti, chiamato anche Sintesi parametrica statistica. In questo sistema, lo spettro di frequenza (tratto vocale), la frequenza fondamentale (sorgente vocale) e la durata (prosodia) del discorso sono modellati simultaneamente da HMM. Le forme d’onda vocali sono generate dagli HMM stessi in base al criterio della massima verosimiglianza.

Sinewave synthesisEdit

Sinewave synthesis è una tecnica per sintetizzare il discorso sostituendo le formanti (bande principali di energia) con fischietti di tono puro.,

Deep learning basato su synthesisEdit

FormulationEdit

Dato un input di testo o una sequenza di unità linguistica Y {\displaystyle Y} , destinazione discorso X {\displaystyle X} può essere derivato da

X = arg ⁡ max P ( X | Y , q ) {\displaystyle X=\arg \max P(X|Y,\theta )}

dove θ {\displaystyle \theta } è il modello di parametro.

In genere, il testo di input viene prima passato a un generatore di funzionalità acustiche, quindi le funzionalità acustiche vengono passate al vocoder neurale. Per il generatore di caratteristiche acustiche, la funzione di perdita è tipicamente L1 o L2 perdita., Queste funzioni di perdita pongono un vincolo che le distribuzioni delle caratteristiche acustiche di uscita devono essere gaussiane o laplaciane. In pratica, poiché la voce umana banda varia da circa 300 a 4000 Hz, la perdita di funzione di essere progettato per avere ulteriori penalità di questa gamma:

l o s s = α perdita umana + ( 1 − α ) la perdita di altre {\displaystyle perdita=\alpha {\text{perdita}}_{\text{umana}}+(1-\alpha ){\text{perdita}}_{\text{altri}}}

la perdita umana {\displaystyle {\text{perdita}}_{\text{umana}}} è la perdita di voce umana band e α {\displaystyle \alpha } è uno scalare in genere intorno a 0.5., La caratteristica acustica è tipicamente spettrogramma o spettrogramma in scala Mel. Queste caratteristiche catturano la relazione tempo-frequenza del segnale vocale e quindi, è sufficiente generare uscite intelligenti con queste caratteristiche acustiche. La funzione cepstrum Mel-frequency utilizzata nell’attività di riconoscimento vocale non è adatta per la sintesi vocale perché riduce troppe informazioni.

Breve storiaedit

Nel settembre 2016, DeepMind ha proposto WaveNet, un modello generativo profondo di forme d’onda audio grezze., Questo dimostra alla comunità che i modelli basati sul deep learning hanno la capacità di modellare le forme d’onda grezze e di eseguire bene la generazione del parlato da caratteristiche acustiche come spettrogrammi o spettrogrammi in scala mel, o anche da alcune caratteristiche linguistiche pre-elaborate. All’inizio del 2017, Mila (istituto di ricerca) ha proposto char2wav, un modello per produrre forme d’onda grezze in un metodo end-to-end. Inoltre, Google e Facebook hanno proposto Tacotron e VoiceLoop, rispettivamente, per generare funzionalità acustiche direttamente dal testo di input., Nel più tardi nello stesso anno, Google ha proposto Tacotron2 che ha combinato il vocoder WaveNet con l’architettura Tacotron rivisto per eseguire la sintesi vocale end-to-end. Tacotron2 può generare un discorso di alta qualità che si avvicina alla voce umana. Da allora, i metodi end-to-end sono diventati l’argomento di ricerca più caldo perché molti ricercatori in tutto il mondo iniziano a notare la potenza del sintetizzatore vocale end-to-end.,

Vantaggi e disadvantagesEdit

I vantaggi di end-to-end metodi sono i seguenti:

  • Solo bisogno di un unico modello per eseguire l’analisi del testo, modellazione acustica e di sintesi audio, cioè la sintesi vocale direttamente dai caratteri
  • Meno funzionalità di ingegneria
  • permette Facilmente per ricchi condizionata a vari attributi, ad esempio, altoparlante o lingua
  • L’adattamento ai nuovi dati è più facile
  • Più robusto rispetto ai modelli multistadio perché nessun errore del componente può compound
  • Potente capacità del modello di catturare le strutture interne nascoste dei dati
  • In grado di generare un discorso intelligibile e naturale
  • Non è necessario mantenere un ampio database,,soffrono di slow inferenza problema
  • Output sintesi vocale non sono affidabili anche se i dati non sono sufficienti
  • Assenza di controllo rispetto ai tradizionali concatenativa e statistica parametrica approcci
  • Tendono ad imparare il piatto di prosodia da una media di oltre i dati di allenamento
  • Tendono a uscita levigato caratteristiche acustiche perché l1 o l2 perdita è usato

ChallengesEdit

– Lento inferenza problema

Per risolvere il lento inferenza problema, Microsoft research e Baidu ricerca sia proposto di non auto-regressivo modelli per rendere il processo di inferenza più veloce., Il modello FastSpeech proposto da Microsoft utilizza l’architettura Transformer con un modello di durata per raggiungere l’obiettivo. Inoltre, il modello di durata che prende in prestito dai metodi tradizionali rende la produzione vocale più robusta.

– Problema di robustezza

I ricercatori hanno scoperto che il problema di robustezza è fortemente correlato ai fallimenti di allineamento del testo, e questo spinge molti ricercatori a rivedere il meccanismo di attenzione che utilizzano la forte relazione locale e le proprietà monotoniche del discorso.,

– Problema di controllabilità

Per risolvere il problema di controllabilità, vengono proposti molti lavori sull’auto-encoder variazionale.

– Problema della prosodia piatta

GST-Tacotron può alleviare leggermente il problema della prosodia piatta, tuttavia, dipende ancora dai dati di allenamento.

– Problema di uscita acustica levigata

Per generare caratteristiche acustiche più realistiche, è possibile applicare la strategia di apprendimento GAN.

Tuttavia, in pratica, il vocoder neurale può generalizzare bene anche quando le funzionalità di input sono più fluide dei dati reali.,

Apprendimento semi-supervisionatoedit

Attualmente, l’apprendimento auto-supervisionato guadagna molta attenzione a causa di un migliore utilizzo dei dati non etichettati. La ricerca mostra che con l’aiuto della perdita auto-supervisionata, la necessità di dati accoppiati diminuisce.

Zero-shot speaker adaptationEdit

Zero-shot speaker adattamento è promettente perché un singolo modello in grado di generare discorso con vari stili di altoparlanti e caratteristiche. A giugno 2018, Google ha proposto di utilizzare il modello di verifica degli altoparlanti pre-addestrato come encoder degli altoparlanti per estrarre l’incorporamento degli altoparlanti., L’encoder dell’altoparlante diventa quindi parte del modello neurale text-to-speech e può decidere lo stile e le caratteristiche del discorso di output. Questo mostra alla comunità che è possibile utilizzare solo un singolo modello per generare discorsi di stile multiplo.

vocoderEdit neurale

p θ (x) = t t = 1 T p (x t / x 1 , . . . , x t-1) {\displaystyle p_ {\theta } (\mathbf {x}) = \ prod _ {t=1}^{T} p(x_{t} / x_{1},…, x_{t-1})}

Dove θ {\displaystyle \theta } è il parametro del modello che include molti livelli di convoluzione dilatati., Pertanto, ogni campione audio x t {\displaystyle x_{t}} è quindi condizionato sui campioni in tutti i timestep precedenti. Tuttavia, la natura auto-regressiva di WaveNet rende il processo di inferenza drammaticamente lento. Per risolvere il problema di inferenza lenta che deriva dalla caratteristica auto-regressiva del modello WaveNet, viene proposto Wavenet parallelo. WaveNet parallelo è un modello inverso basato sul flusso autoregressivo che viene addestrato dalla distillazione della conoscenza con un modello WaveNet insegnante pre-addestrato., Poiché il modello basato sul flusso autoregressivo inverso non è auto-regressivo quando si esegue l’inferenza, la velocità di inferenza è più veloce del tempo reale. Nel frattempo, Nvidia ha proposto un modello WaveGlow basato sul flusso che può anche generare parlato con velocità più veloce di quella in tempo reale. Tuttavia, nonostante l’elevata velocità di inferenza, parallel WaveNet ha la limitazione della necessità di un modello WaveNet pre-addestrato e WaveGlow richiede molte settimane per convergere con dispositivi di calcolo limitati. Questo problema è risolto da Wavegan parallelo che impara a produrre discorso da perdita spettrale multi-risoluzione e strategia di apprendimento GANs.,

Articles

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *