Emotive Speech Synthesis

From HLT@INESC-ID

Revision as of 01:09, 6 July 2006 by David (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
João Paulo Cabral

Abstract

Generating emotions in speech is currently a hot topic of research given the increasing requirements of modern human-machine dialogue systems. Generally, the most successful systems in generating emotions in speech are unit selection speech synthesizers including speech recordings with acted emotions. However, these methods require large speech inventories. A more flexible approach is to derive acoustic rules to impose emotional content on the speech signal using signal processing techniques. Typically, the acoustic correlates of emotions are related to prosody and voice quality.

This thesis presents a new method for changing the pitch and duration of a speech signal based on pitch-synchronous time-scaling (PSTS) of the linear prediction residual. This technique was also used to change the most relevant glottal source parameters: open quotient, speed quotient and return quotient. The PSTS method was included in the EmoVoice system, which implements acoustic rules to simulate the seven basic emotions on neutral speech. The correlation of the source parameters with the emotions was derived from measurements of the glottal parameters and from results reported by other authors. The evaluation of EmoVoice showed that it can generate recognizable emotions but improvements are still necessary to discriminate some pairs of emotional states.

Keywords: Speech synthesis; Emotions; Glottal source parameters; Prosodic transformations; Voice quality transformations; Perception of emotions

Resumo

Com o desenvolvimento dos sistemas computacionais de diálogo homem-máquina, a geração de emoções na fala tornou-se num tópico de investigação de grande interesse. Actualmente, o estado da arte em sistemas de geração de emoções na fala consiste na utilização de sintetizadores por concatenação com a selecção de unidades feita a partir de inventários de fala gravados para cada emoção. Contudo, este tipo de sistemas requer uma grande base de dados de fala. Uma abordagem mais flexível é a utilização de técnicas de processamento de sinal para modificar parâmetros acústicos que estão correlacionados com as emoções. Tipicamente esses parâmetros estão associados com a prosódia e a qualidade da voz.

Neste trabalho desenvolveu-se um novo método para transformar os principais parâmetros prosódicos do sinal de fala baseado num escalamento temporal e síncrono com o período do resíduo de predição linear. Esta técnica também foi usada para modificar os parâmetros mais relevantes da onda glotal relacionados com a qualidade da voz. O novo método foi introduzido no sistema EmoVoice, que implementa as regras acústicas para simular as sete emoções básicas. As regras foram derivadas a partir de medições experimentais dos parâmetros glotais e de estudos publicados por outros investigadores. Pelos resultados da avaliação do sistema EmoVoice, este gerou emoções que, em geral, foram reconhecidas pelos ouvintes. No entanto, o sistema necessita de ser melhorado para que a distinção entre alguns pares de emoções simuladas seja perceptível.

Palavras Chave: Síntese de fala; Emoções; Parâmetros da onda glotal; Transformação de prosódia; Transformação da qualidade da voz; Percepção de emoções

Full Text

(soon)