las cualidades más importantes de un sistema de síntesis de voz son la naturalidad y la inteligibilidad. La naturalidad describe cuán cerca suena la salida como el habla humana, mientras que la inteligibilidad es la facilidad con la que se entiende la salida. El sintetizador de voz ideal es natural e inteligible. Los sistemas de síntesis de voz suelen tratar de maximizar ambas características.

las dos tecnologías principales que generan formas de onda de habla sintética son la síntesis concatenativa y la síntesis formante., Cada tecnología tiene fortalezas y debilidades, y los usos previstos de un sistema de síntesis generalmente determinarán qué enfoque se utiliza.

síntesis de Concatenacióneditar

Artículo principal: síntesis Concatenativa

la síntesis Concatenativa se basa en la concatenación (o encadenamiento) de segmentos de habla grabada. Generalmente, la síntesis concatenativa produce el habla sintetizada con un sonido más natural., Sin embargo, las diferencias entre las variaciones naturales en el habla y la naturaleza de las técnicas automatizadas para segmentar las formas de onda a veces resultan en problemas audibles en la salida. Hay tres subtipos principales de síntesis concatenativa.

Unit selection synthesisEdit

Unit selection synthesis utiliza grandes bases de datos de voz grabada. Durante la creación de la base de datos, cada enunciado grabado se segmenta en algunos o todos los siguientes: teléfonos individuales, difones, medios teléfonos, Sílabas, morfemas, palabras, frases y oraciones., Por lo general, la división en segmentos se realiza utilizando un reconocedor de voz especialmente modificado establecido en un modo de «alineación forzada» con alguna corrección manual después, utilizando representaciones visuales como la forma de onda y el espectrograma. Luego se crea un índice de las unidades en la base de datos de voz basado en la segmentación y los parámetros acústicos como la frecuencia fundamental (tono), la duración, la posición en la sílaba y los teléfonos vecinos. En tiempo de ejecución, la expresión de destino deseada se crea determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidades)., Este proceso se logra típicamente usando un árbol de decisión especialmente ponderado.

La selección de unidades proporciona la mayor naturalidad, ya que aplica solo una pequeña cantidad de procesamiento de señal digital (DSP) al habla grabada. DSP a menudo hace que el sonido de voz grabado sea menos natural, aunque algunos sistemas utilizan una pequeña cantidad de procesamiento de señal en el punto de concatenación para suavizar la forma de onda. La salida de los mejores sistemas de selección de unidades es a menudo indistinguible de las voces humanas reales, especialmente en contextos para los cuales el sistema TTS ha sido ajustado., Sin embargo, la naturalidad máxima normalmente requiere que las bases de datos de voz de selección de unidades sean muy grandes, en algunos sistemas que van hasta los gigabytes de datos registrados, lo que representa docenas de horas de voz. Además, se sabe que los Algoritmos de selección de unidades seleccionan segmentos de un lugar que resulta en una síntesis menos que ideal (por ejemplo, las palabras menores se vuelven poco claras) incluso cuando existe una mejor opción en la base de datos. Recientemente, los investigadores han propuesto varios métodos automatizados para detectar segmentos no naturales en los sistemas de síntesis de voz de selección de unidades.,

diphone synthesisEdit

Diphone synthesis utiliza una base de datos de voz mínima que contiene todos los difones (transiciones de sonido a sonido) que se producen en un idioma. El número de difonos depende de la fonotáctica del idioma: por ejemplo, el español tiene unos 800 difonos, y el alemán unos 2500. En diphone síntesis, sólo un ejemplo de cada una diphone está contenida en la base de datos de voz. En tiempo de ejecución, la prosodia objetivo de una oración se superpone a estas unidades mínimas mediante técnicas de procesamiento digital de señales como la codificación predictiva lineal, PSOLA o MBROLA., o técnicas más recientes como la modificación de tono en el dominio de origen utilizando transformada de coseno discreta. La síntesis de Diphone sufre de los fallos sónicos de la síntesis concatenativa y la naturaleza de sonido robótico de la síntesis de formantes, y tiene pocas de las ventajas de cualquier enfoque que no sea el tamaño pequeño. Como tal, su uso en aplicaciones comerciales está disminuyendo, aunque sigue siendo utilizado en la investigación porque hay una serie de implementaciones de software de libre acceso. Un ejemplo temprano de síntesis de Diponos es un robot de enseñanza, leachim, que fue inventado por Michael J. Freeman., Leachim contenía información sobre el plan de estudios de la clase y cierta información biográfica sobre los 40 estudiantes a los que estaba programado para enseñar. Fue probado en un aula de cuarto grado en el Bronx, Nueva York.

síntesis específica de Domainedit

síntesis específica de Domain concatena palabras y frases pregrabadas para crear expresiones completas. Se utiliza en aplicaciones donde la variedad de textos que el sistema emitirá se limita a un dominio en particular, como anuncios de horarios de tránsito o informes meteorológicos., La tecnología es muy simple de implementar, y ha estado en uso comercial durante mucho tiempo, en dispositivos como relojes parlantes y calculadoras. El nivel de naturalidad de estos sistemas puede ser muy alto porque la variedad de tipos de oraciones es limitada, y coinciden estrechamente con la prosodia y la entonación de las grabaciones originales.

debido a que estos sistemas están limitados por las palabras y frases en sus bases de datos, no son de propósito general y solo pueden sintetizar las combinaciones de palabras y frases con las que han sido preprogramadas., Sin embargo, la mezcla de palabras dentro del lenguaje hablado naturalmente todavía puede causar problemas a menos que se tengan en cuenta las muchas variaciones. Por ejemplo, en dialectos no róticos del inglés, la «r» en palabras como «clear» /ˈkləə/ se pronuncia generalmente solo cuando la siguiente palabra tiene una vocal como primera letra (por ejemplo, «clear out» se realiza como /clearkləəˈˈtt/). Del mismo modo en francés, muchas consonantes finales dejan de ser silenciosas si son seguidas por una palabra que comienza con una vocal, un efecto llamado enlace., Esta alternancia no puede ser reproducida por un simple sistema de concatenación de palabras, que requeriría complejidad adicional para ser sensible al contexto.

formant synthesisEdit

Formant synthesis no utiliza muestras de voz humana en tiempo de ejecución. En su lugar, la salida de voz sintetizada se crea utilizando síntesis aditiva y un modelo acústico (síntesis de modelado físico). Parámetros como la frecuencia fundamental, la voz y los niveles de ruido varían con el tiempo para crear una forma de onda de habla artificial., Este método a veces se llama síntesis basada en reglas; sin embargo, muchos sistemas concatenativos también tienen componentes basados en reglas.Muchos sistemas basados en la tecnología de síntesis de formantes generan un habla artificial con sonido robótico que nunca se confundiría con el habla humana. Sin embargo, la naturalidad máxima no siempre es el objetivo de un sistema de síntesis de voz, y los sistemas de síntesis de formantes tienen ventajas sobre los sistemas concatenativos. El habla sintetizada con formantes puede ser inteligible de forma fiable, incluso a velocidades muy altas, evitando los fallos acústicos que comúnmente plagan los sistemas concatenativos., El habla sintetizada de alta velocidad es utilizada por las personas con discapacidad visual para navegar rápidamente por las computadoras utilizando un lector de pantalla. Los sintetizadores de formantes suelen ser programas más pequeños que los sistemas concatenativos porque no tienen una base de datos de muestras de voz. Por lo tanto, pueden usarse en sistemas embebidos, donde la memoria y la potencia del microprocesador son especialmente limitadas. Debido a que los sistemas basados en formantes tienen un control completo de todos los aspectos del discurso de salida, se puede emitir una amplia variedad de prosodias y entonaciones, transmitiendo no solo preguntas y declaraciones, sino una variedad de emociones y tonos de voz.,

ejemplos de control de entonación no en tiempo real pero altamente preciso en la síntesis de formantes incluyen el trabajo realizado a finales de la década de 1970 para el Texas Instruments Toy Speak & Spell, y a principios de la década de 1980 juegos de arcade que utilizan los Chips TMS5220 LPC. La creación de una entonación adecuada para estos proyectos fue laboriosa, y los resultados aún no se han igualado con interfaces de texto a voz en tiempo real.,

síntesis Articulatoriaeditar

la síntesis articulatoria se refiere a técnicas computacionales para sintetizar el habla basadas en modelos del tracto vocal humano y los procesos de articulación que ocurren allí. El primer sintetizador articulatorio utilizado regularmente para experimentos de laboratorio fue desarrollado en los laboratorios Haskins a mediados de la década de 1970 por Philip Rubin, Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, se basó en modelos del tracto vocal desarrollados en los Laboratorios Bell en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas.,

hasta hace poco, los modelos de síntesis articulatoria no se han incorporado a los sistemas comerciales de síntesis de voz. Una excepción notable es el sistema basado en NeXT originalmente desarrollado y comercializado por Trillium Sound Research, una empresa derivada de la Universidad de Calgary, donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciadas por Steve Jobs a finales de la década de 1980 y fusionadas con Apple Computer en 1997), el software Trillium fue publicado bajo la GNU General Public License, con el trabajo continuado como gnuspeech., El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación utilizando una guía de onda o un análogo de línea de transmisión de los tractos orales y nasales humanos controlados por el «modelo de Región distintiva»de Carré.

los sintetizadores más recientes, desarrollados por Jorge C. Lucero y sus colegas, incorporan modelos de Biomecánica de las cuerdas vocales, aerodinámica glotal y propagación de ondas acústicas en las cavidades bronqui, traquea, nasal y oral, y por lo tanto constituyen sistemas completos de simulación del habla basados en la física.,

hmm-based synthesisEdit

HMM-based synthesis is a synthesis method based on hidden Markov models, also called Statistical Parametric Synthesis. En este sistema, el espectro de frecuencia (tracto vocal), la frecuencia fundamental (fuente de voz) y la duración (prosodia) del habla son modelados simultáneamente por HMMs. Las formas de onda de voz se generan a partir de los propios Hmm basados en el criterio de máxima verosimilitud.

sinewave synthesisEdit

sinewave synthesis es una técnica para sintetizar el habla mediante la sustitución de los formantes (bandas principales de energía) con silbidos de tono puro.,

deep learning-based synthesisEdit

FormulationEdit

dado un texto de entrada o alguna secuencia de unidad lingüística y {\displaystyle Y} , el habla objetivo X {\displaystyle X} se puede derivar por

X = arg ⁡ max P ( X | y , θ ) {\displaystyle X=\arg \max P(X|y,\theta)}

donde θ {\displaystyle \theta } es el parámetro modelo.

normalmente, el texto de entrada se pasa primero a un generador de características acústicas, luego las características acústicas se pasan al vocoder neuronal. Para el generador de características acústicas, la función de pérdida es típicamente L1 o L2 pérdida., Estas funciones de pérdida ponen una restricción de que las distribuciones de características acústicas de salida deben ser gaussianas o Laplacianas. En la práctica, dado que la banda de voz humana varía de aproximadamente 300 a 4000 Hz, la función de pérdida se diseñará para tener más penalización en este rango:

l O s s = α pérdida humana + ( 1 − α ) pérdida otro {\displaystyle pérdida=\alpha {\text{pérdida}}_{\text{humano}}+(1-\alpha ){\text{pérdida}}_{\text{otro}}}

donde la pérdida humana {\displaystyle {\text{pérdida}}_{\text{human}}} es la pérdida de la banda de voz humana y α {\displaystyle \Alpha } es un escalar típicamente alrededor de 0.5., La característica acústica es típicamente espectrograma o espectrograma en escala Mel. Estas características capturan la relación tiempo-frecuencia de la señal de voz y, por lo tanto, es suficiente generar salidas inteligentes con estas características acústicas. La función cepstrum de frecuencia Mel utilizada en la tarea de reconocimiento de voz no es adecuada para la síntesis de voz porque reduce demasiada información.

breve historiaeditar

en septiembre de 2016, DeepMind propuso WaveNet, un modelo generativo profundo de formas de onda de audio raw., Esto muestra a la comunidad que los modelos basados en aprendizaje profundo tienen la capacidad de modelar formas de onda sin procesar y funcionan bien al generar voz a partir de características acústicas como espectrogramas o espectrogramas en escala mel, o incluso de algunas características lingüísticas preprocesadas. A principios de 2017, Mila (Instituto de investigación) propuso char2wav, un modelo para producir forma de onda cruda en un método de extremo a extremo. Además, Google y Facebook propusieron Tacotron y VoiceLoop, respectivamente, para generar características acústicas directamente desde el texto de entrada., A finales de ese mismo año, Google propuso Tacotron2 que combinaba el vocoder WaveNet con la arquitectura Tacotron revisada para realizar síntesis de voz de extremo a extremo. Tacotron2 puede generar voz de alta calidad acercándose a la voz humana. Desde entonces, los métodos de extremo a extremo se convirtieron en el tema de investigación más candente porque muchos investigadores de todo el mundo comienzan a notar el poder del sintetizador de voz de extremo a extremo.,

ventajas y desventajaseditar

las ventajas de los métodos de extremo a extremo son las siguientes:

  • solo necesita un solo modelo para realizar análisis de texto, modelado acústico y síntesis de audio, es decir, sintetizar voz directamente desde caracteres
  • menos ingeniería de características
  • fácilmente permite un acondicionamiento rico en varios atributos, P., altavoz o lenguaje
  • La adaptación a nuevos datos es más fácil
  • más robusta que los modelos de etapas múltiples porque ningún error de componente puede agravar
  • potente capacidad del modelo para capturar las estructuras internas ocultas de los datos
  • capaz de generar voz inteligible y natural
  • Sin necesidad de mantener una gran base de datos, es decir,,el discurso de salida no es robusto cuando los datos no son suficientes
  • Falta de controlabilidad en comparación con los enfoques paramétricos concatenativos y estadísticos tradicionales
  • tienden a aprender la prosodia plana promediando sobre los datos de entrenamiento
  • tienden a generar características acústicas suavizadas porque se utiliza la pérdida de l1 o L2

Desafíoseditar

– problema de inferencia lenta

resolver el problema de inferencia lenta, Microsoft Research y Baidu Research propusieron el uso de modelos no autorregresivos para hacer el proceso de inferencia más rápido., El modelo FastSpeech propuesto por Microsoft utiliza la arquitectura Transformer con un modelo de duración para lograr el objetivo. Además, el modelo de duración que toma prestado de los métodos tradicionales hace que la producción de voz sea más robusta.

– problema de robustez

Los investigadores encontraron que el problema de robustez está fuertemente relacionado con las fallas de alineación del texto, y esto impulsa a muchos investigadores a revisar el mecanismo de atención que utiliza la fuerte relación local y las propiedades monótonas del habla.,

– problema de controlabilidad

para resolver el problema de controlabilidad, se proponen muchos trabajos sobre el codificador automático variacional.

– problema de prosodia plana

GST-Tacotron puede aliviar ligeramente el problema de prosodia plana, sin embargo, todavía depende de los datos de entrenamiento.

– problema de salida acústica suavizada

para generar características acústicas más realistas, se puede aplicar la estrategia de aprendizaje de GAN.

sin embargo, en la práctica, neural vocoder puede generalizar bien incluso cuando las características de entrada son más suaves que los datos reales.,

aprendizaje semi-supervisadoeditar

actualmente, el aprendizaje auto-supervisado gana mucha atención debido a una mejor utilización de los datos no Etiquetados. La investigación muestra que con la ayuda de la pérdida auto supervisada, la necesidad de datos emparejados disminuye.

zero-shot speaker adaptationEdit

Zero-shot speaker adaptation es prometedor porque un solo modelo puede generar voz con varios estilos de altavoz y características. En junio de 2018, Google propuso utilizar un modelo de verificación de altavoces preentrenado como codificador de altavoces para extraer la incrustación de altavoces., El codificador de altavoces se convierte entonces en parte del modelo neural de texto a voz y puede decidir el estilo y las características del discurso de salida. Esto muestra a la comunidad que solo es posible usar un solo modelo para generar voz de estilo múltiple.

Neural vocoderEdit

p θ ( x ) = ∏ t = 1 T p ( x t | x 1 , . . . , x t-1) {\displaystyle p_ {\theta } (\mathbf {x}) = \prod _ {t=1}^{T}p (x_{t} / x_{1},…, x_{t-1})}

donde θ {\displaystyle \theta } es el parámetro del modelo que incluye muchas capas de convolución dilatadas., Por lo tanto, cada muestra de audio x t {\displaystyle x_{t}} está condicionada a las muestras en todos los tiempos anteriores. Sin embargo, la naturaleza autorregresiva de WaveNet hace que el proceso de inferencia sea dramáticamente lento. Para resolver el problema de inferencia lenta que proviene de la característica auto-regresiva del modelo WaveNet, se propone WaveNet paralelo. Parallel WaveNet es un modelo basado en flujo autorregresivo inverso que se entrena mediante la destilación del conocimiento con un modelo de WaveNet pre-entrenado para maestros., Dado que el modelo basado en flujo autorregresivo inverso no es autorregresivo al realizar inferencia, la velocidad de inferencia es más rápida que en tiempo real. Mientras tanto, Nvidia propuso un modelo de flujo de onda basado en el flujo que también puede generar voz con una velocidad más rápida que la velocidad en tiempo real. Sin embargo, a pesar de la alta velocidad de inferencia, parallel WaveNet tiene la limitación de la necesidad de un modelo de WaveNet preentrenado y el flujo de onda tarda muchas semanas en converger con dispositivos informáticos limitados. Este problema es resuelto por Parallel WaveGAN que aprende a producir voz por pérdida espectral de resolución múltiple y estrategia de aprendizaje GANs.,

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *