as qualidades mais importantes de um sistema de síntese da fala são naturalidade e Inteligibilidade. Naturalness descreve quão perto a saída soa como a fala humana, enquanto a inteligibilidade é a facilidade com que a saída é compreendida. O sintetizador de fala ideal é natural e inteligível. Os sistemas de síntese de fala geralmente tentam maximizar ambas as características.
As duas tecnologias primárias que geram formas de onda da fala sintética são síntese concatenativa e síntese formante., Cada tecnologia tem pontos fortes e pontos fracos, e as utilizações pretendidas de um sistema de síntese Irão normalmente determinar que abordagem é utilizada.
síntese de concatenação
síntese Concatenativa é baseada na concatenação (ou ligação) dos segmentos da fala gravada. Geralmente, a síntese concatenativa produz a fala sintetizada mais natural., No entanto, as diferenças entre variações naturais na fala e a natureza das técnicas automatizadas para segmentar as ondas às vezes resultam em falhas audíveis na saída. Existem três subtipos principais de síntese concatenativa.
síntese de selecção de Unidades
síntese de selecção de Unidades utiliza grandes bases de dados de fala gravada. Durante a criação do banco de dados, cada expressão gravada é segmentada em alguns ou todos os seguintes: telefones individuais, telefones, meio-telefones, Sílabas, morfemas, palavras, frases e frases., Tipicamente, a divisão em segmentos é feita usando um reconhecedor de fala especialmente modificado definido para um modo de “alinhamento forçado” com alguma correção manual depois, usando representações visuais como a forma de onda e espectrograma. Um índice das unidades no banco de dados de fala é então criado com base na segmentação e parâmetros acústicos como a frequência fundamental (passo), duração, posição na sílaba, e telefones vizinhos. No tempo de execução, o enunciado de alvo desejado é criado determinando a melhor cadeia de unidades candidatas a partir do banco de dados (seleção de unidade)., Este processo é normalmente alcançado usando uma árvore de decisão especialmente ponderada.
a seleção de unidade fornece a maior naturalidade, porque aplica apenas uma pequena quantidade de processamento de sinal digital (DSP) para a fala gravada. DSP muitas vezes faz a fala gravada soar menos natural, embora alguns sistemas usam uma pequena quantidade de processamento de sinal no ponto de concatenação para suavizar a forma de onda. A saída dos melhores sistemas de seleção de unidades é muitas vezes indistinguível de vozes humanas reais, especialmente em contextos para os quais o sistema TTS foi ajustado., No entanto, a naturalidade máxima normalmente exige que as bases de dados de fala de seleção de unidade sejam muito grandes, em alguns sistemas que vão até os gigabytes de dados gravados, representando dezenas de horas de fala. Além disso, algoritmos de seleção de unidades têm sido conhecidos para selecionar segmentos de um lugar que resulta em menos do que síntese ideal (por exemplo, palavras menores tornam-se pouco claras), mesmo quando uma melhor escolha existe no banco de dados. Recentemente, pesquisadores têm proposto vários métodos automatizados para detectar segmentos não naturais em sistemas de síntese de fala de seleção por unidade.,
sintetisedit de Diphone
síntese de Diphone usa uma base de dados de fala mínima contendo todos os diphones (transições de som para Som) ocorrendo em uma linguagem. O número de diphones depende da fonotaxia da língua: por exemplo, o espanhol tem cerca de 800 diphones, e o alemão cerca de 2500. Em síntese de diphone, apenas um exemplo de cada diphone está contido no banco de dados de fala. No tempo de execução, a prosódia alvo de uma frase é sobreposta a estas unidades mínimas por meio de técnicas de processamento de sinal digital, tais como codificação preditiva linear, PSOLA ou MBROLA., ou técnicas mais recentes, como a modificação do passo no domínio de origem usando uma transformação cossina discreta. A síntese de Diphone sofre com os defeitos sonic da síntese concatenativa e a natureza robótica da síntese formante, e tem poucas das vantagens de qualquer abordagem que não seja de tamanho pequeno. Como tal, seu uso em aplicações comerciais está declinando, embora continue a ser usado em pesquisa porque há uma série de implementações de software livremente disponíveis. Um exemplo inicial de síntese de Diphone é um robô didático, leachim, que foi inventado por Michael J. Freeman., Leachim continha informações sobre os currículos de classe e algumas informações biográficas sobre os 40 alunos que foi programado para ensinar. Foi testado numa sala de aula do 4º ano no Bronx, Nova Iorque.
síntese específica do domínio
síntese específica do domínio combina palavras e frases pré-gravadas para criar expressões completas. É usado em aplicações onde a variedade de textos que o sistema irá produzir está limitada a um domínio particular, como anúncios de horários de trânsito ou relatórios meteorológicos., A tecnologia é muito simples de implementar, e tem sido em uso comercial por um longo tempo, em dispositivos como relógios falantes e calculadoras. O nível de naturalidade destes sistemas pode ser muito elevado porque a variedade de tipos de sentenças é limitada, e eles coincidem estreitamente com a prosódia e entonação das gravações originais.
porque estes sistemas são limitados pelas palavras e frases em suas bases de dados, eles não são de propósito geral e só podem sintetizar as combinações de palavras e frases com as quais eles foram pré-programados., A mistura de palavras dentro da linguagem naturalmente falada, no entanto, ainda pode causar problemas a menos que as muitas variações sejam levadas em conta. Por exemplo, em dialetos não-róticos do inglês O “r” em palavras como “clear” /klkləə /é geralmente pronunciado apenas quando a seguinte palavra tem uma vogal como sua primeira letra (por exemplo, “clear out” é realizado como /klkləəət/). Da mesma forma, em francês, muitas consoantes finais não se tornam mais silenciosas se seguidas por uma palavra que começa com uma vogal, um efeito chamado ligação., Esta alternância não pode ser reproduzida por um simples sistema de concatenação de palavras, que exigiria complexidade adicional para ser sensível ao contexto.
síntese formante
síntese formante não utiliza amostras de fala humana em tempo de execução. Em vez disso, a saída de fala sintetizada é criada usando síntese aditiva e um modelo acústico (síntese de modelização física). Parâmetros como frequência fundamental, voz e níveis de ruído são variados ao longo do tempo para criar uma forma de onda de fala artificial., Este método é algumas vezes chamado de síntese baseada em regras; no entanto, muitos sistemas concatenativos também têm componentes baseados em regras.Muitos sistemas baseados na tecnologia de síntese formante geram linguagem artificial e robótica que nunca seria confundida com linguagem humana. No entanto, a naturalidade máxima nem sempre é o objetivo de um sistema de síntese de fala, e os sistemas de síntese formante têm vantagens sobre os sistemas concatenativos. A fala sintetizada formante pode ser inteligível de forma confiável, mesmo em velocidades muito altas, evitando as falhas acústicas que comumente contaminam os sistemas concatenativos., A fala sintetizada de alta velocidade é usada pelos deficientes visuais para navegar rapidamente nos computadores usando um leitor de tela. Sintetizadores formantes são geralmente programas menores do que sistemas concatenativos porque eles não têm um banco de dados de amostras de fala. Eles podem, portanto, ser usados em sistemas embutidos, onde a memória e o poder do microprocessador são especialmente limitados. Uma vez que os sistemas baseados em formantes têm controle completo de todos os aspectos do discurso de saída, uma grande variedade de prosódias e entonações podem ser output, transmitindo não apenas perguntas e declarações, mas uma variedade de emoções e tons de voz.,
exemplos de controle de entonação Não-real, mas altamente preciso em síntese formante incluem o trabalho feito no final da década de 1970 para o Texas Instruments Toy Speak & Spell, e no início da década de 1980 máquinas de arcade Sega e em muitos Atari, Inc. jogos de arcade usando os Chips TMS 5220 LPC. Criar entonação adequada para esses projetos foi meticuloso, e os resultados ainda não foram acompanhados por interfaces de texto-para-voz em tempo real.,
síntese articulatória
síntese articulatória refere-se a técnicas computacionais para sintetizar a fala com base em modelos do trato vocal humano e os processos de articulação que ocorrem lá. O primeiro sintetizador articulatório usado regularmente para experimentos de laboratório foi desenvolvido nos laboratórios Haskins em meados da década de 1970 por Philip Rubin, Tom Baer e Paul Mermelstein. Este sintetizador, conhecido como ASY, foi baseado em modelos de trato vocal desenvolvidos nos Laboratórios Bell nas décadas de 1960 e 1970 por Paul Mermelstein, Cecil Coker e colegas.,
até recentemente, modelos de síntese articulatória não foram incorporados em sistemas comerciais de síntese da fala. Uma exceção notável é o sistema de base seguinte originalmente desenvolvido e comercializado pela Trillium Sound Research, uma empresa spin-off da Universidade de Calgary, onde grande parte da pesquisa original foi conduzida. Após o fim das várias encarnações da NeXT (iniciada por Steve Jobs no final da década de 1980 e fundida com a Apple Computer em 1997), o software Trillium foi publicado sob a GNU General Public License, com o trabalho continuando como gnuspeech., O sistema, comercializado pela primeira vez em 1994, fornece uma conversão articulatória baseada em texto-para-fala usando uma guia de onda ou linha de transmissão analógica do trato oral e nasal humano controlado pelo “modelo de região distintiva de Carré”.sintetizadores mais recentes, desenvolvidos por Jorge C. Lucero e colegas, incorporam modelos de biomecânica de pregas vocais, aerodinâmica glotal e propagação de ondas Acústicas nas cavidades bronqui, traquea, nasal e oral, e assim constituem sistemas completos de simulação de fala baseada em física.,
sintetisedit
HMM-based synthesis is a synthesis method based on hidden Markov models, also called Statistical Parametric Synthesis. Neste sistema, o espectro de frequência (trato vocal), frequência fundamental (fonte de voz) e duração (prosódia) da fala são modelados simultaneamente por HMMs. Formas de onda da fala são geradas a partir do próprio HMMs com base no critério de probabilidade máxima.
síntese Sinewave
síntese Sinewave é uma técnica para sintetizar a fala, substituindo os formantes (principais bandas de energia) por assobios tonais puros.,
aprendizagem Profunda-com base synthesisEdit
FormulationEdit
Dada uma entrada de texto ou alguns seqüência de unidade linguística Y {\displaystyle Y} , o destino de fala X {\displaystyle X} pode ser derivada por
X = arg max P ( X | Y , θ ) {\displaystyle X=\arg \max P(X|Y,\theta )}
onde θ {\displaystyle \theta } é o modelo de parâmetro.Normalmente, o texto de entrada será primeiro passado para um gerador de características acústicas, em seguida, as características acústicas são passadas para o vocoder neural. Para o gerador de características acústicas, a função de perda é tipicamente L1 ou L2 perda., Estas funções de perda colocam uma restrição de que as distribuições de características acústicas de saída devem ser Gaussianas ou Laplacianas. Na prática, uma vez que a voz humana banda intervalos de cerca de 300 a 4000 Hz, a perda de função será projetado para ter mais penality neste intervalo:
l o s s = α perda humanos + ( 1 − α ) perda de outros {\displaystyle perda=\alpha {\text{perda}}_{\text{humanos}}+(1-\alpha ){\text{perda}}_{\text{outro}}}
, onde a perda humanos {\displaystyle {\text{perda}}_{\text{humanos}}} é a perda da voz humana banda e α {\displaystyle \alpha } é um escalar, normalmente, em torno de 0.5., A característica acústica é tipicamente espectrograma ou espectrograma em escala Mel. Estas características capturam a relação tempo-frequência do sinal de fala e, portanto, é suficiente para gerar saídas inteligentes com essas características acústicas. A característica cepstrum de Mel-frequência utilizada na tarefa de reconhecimento de fala não é adequada para síntese de fala porque reduz demasiada informação.
breve historyEdit
Em setembro de 2016, DeepMind propôs o WaveNet, um modelo profundo gerador de formas de onda de áudio raw., Isto mostra à comunidade que os modelos de aprendizagem profunda têm a capacidade de modelar formas de onda cruas e de produzir bem a fala a partir de características acústicas como espectrogramas ou espectrogramas em escala mel, ou mesmo a partir de algumas características linguísticas pré-processadas. No início de 2017, Mila (Instituto de pesquisa) propôs char2wav, um modelo para produzir formas de onda raw em um método de fim a fim. Além disso, o Google e o Facebook propuseram o Tacotron e o VoiceLoop, respectivamente, para gerar recursos acústicos diretamente a partir do texto de entrada., No final do mesmo ano, o Google propôs Tacotron2 que combinava o vocoder WaveNet com a arquitetura Tacotron revista para realizar síntese de fala de ponta a ponta. O Tacotron2 pode gerar um discurso de alta qualidade que se aproxima da voz humana. Desde então, métodos de ponta a ponta tornaram-se o tópico de pesquisa mais quente porque muitos pesquisadores ao redor do mundo começam a notar o poder do sintetizador de fala de ponta a ponta.,
Vantagens e disadvantagesEdit
As vantagens de end-to-end métodos são os seguintes:
- Só precisa de um único modelo para executar uma análise de texto, modelagem acústica e síntese de áudio, por exemplo, na síntese de fala diretamente a partir de caracteres
- Menos recurso engenharia
- Facilmente permite rico condicionado em vários atributos, por exemplo,, a adaptação a novos dados é mais fácil de ser mais robusta do que os modelos multicelulares, porque nenhum erro do componente pode compôr a poderosa capacidade do modelo para capturar as estruturas internas ocultas dos dados capazes de gerar fala inteligível e natural.,sofrem de baixa inferência problema
- Saída de voz não são robustos quando os dados não são suficientes
- a Falta de capacidade de controle em comparação com a tradicional concatenative e estatística paramétrica abordagens
- Tendem a aprender a televisão prosódia, por uma média de mais dados de treinamento
- Tendem a saída suavizada acústico recursos porque a l1 ou l2 perda é usado
ChallengesEdit
– Lenta inferência problema
Para resolver o lento inferência problema, a Microsoft research e a Baidu pesquisa a proposta de não-auto-regressivos e de modelos para tornar o processo de inferência mais rápido., O modelo FastSpeech proposto pela Microsoft usa arquitetura Transformer com um modelo de duração para alcançar o objetivo. Além disso, o modelo de duração que toma emprestado dos métodos tradicionais torna a produção de fala mais robusta.
– problema de robustez
pesquisadores descobriram que o problema de robustez está fortemente relacionado com as falhas de alinhamento do texto, e isso leva muitos pesquisadores a rever o mecanismo de atenção que utilizam a forte relação local e propriedades monotônicas da fala.,
– problema de controlabilidade
para resolver o problema de controlabilidade, muitos trabalhos sobre o auto-codificador variacional são propostos.
– problema de prosódia plana
GST-Tacotron pode aliviar ligeiramente o problema de prosódia plana, no entanto, ainda depende dos dados de treinamento.
– problema de saída acústica suavizada
para gerar características acústicas mais realistas, a estratégia de aprendizagem GAN pode ser aplicada.
no entanto, na prática, o vocoder neural pode generalizar bem, mesmo quando as características de entrada são mais suaves do que dados reais.,
aprendizagem Semi-supervisionada
actualmente, a aprendizagem auto-supervisionada ganha muita atenção devido à melhor utilização de dados não rotulados. A pesquisa mostra que com a ajuda da perda auto-supervisionada, a necessidade de dados emparelhados diminui.
adaptationEdit de altifalante de 0-shot
adaptação de altifalante de 0-shot é promissora porque um único modelo pode gerar fala com vários estilos de altifalante e característica. Em junho de 2018, o Google propôs usar o modelo de verificação pré-treinada de alto-falante como codificador de alto-falante para extrair a incorporação de alto-falante., O codificador de falante então se torna uma parte do modelo neural texto-para-fala e pode decidir o estilo e característica do discurso de saída. Isto mostra à comunidade que apenas usando um único modelo para gerar fala de estilo múltiplo é possível.
vocoderEdit Neural
θ ( x ) = ∏ T = 1 T p ( x t | x 1 , . . . , x t − 1 ) {\displaystyle p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},…,x_{t-1}}
Where θ {\displaystyle \theta } is the model parameter including many dilated convolution layers., Portanto, cada amostra de áudio x t {\displaystyle x_{t}} é condicionado nas amostras em todos os momentos anteriores. No entanto, a natureza auto-regressiva do WaveNet torna o processo de inferência dramaticamente lento. Para resolver o problema de inferência lenta que vem da característica auto-regressiva do modelo WaveNet, o WaveNet paralelo é proposto. A WaveNet paralela é um modelo de fluxo autorregressivo inverso que é treinado por destilação de conhecimento com um modelo WaveNet de professor pré-treinado., Uma vez que o modelo autoregressivo inverso é não auto-regressivo ao realizar a inferência, a velocidade de inferência é mais rápida do que o tempo real. Enquanto isso, Nvidia propôs um modelo waveglow baseado em fluxo que também pode gerar fala com velocidade mais rápida do que em tempo real. No entanto, apesar da alta velocidade de inferência, WaveNet paralelo tem a limitação da necessidade de um modelo WaveNet pré-treinado e waveglow leva muitas semanas para convergir com dispositivos computacionais limitados. Esta questão é resolvida por WaveGAN paralelo que aprende a produzir a fala por perda espectral multi-resolução e estratégia de aprendizagem GANs.,