Síntese de Fala a Partir de Texto

From HLT@INESC-ID

Luís Caldas de Oliveira

Resumo

A investigação em síntese de fala encontra-se presentemente perante dois desafios: por um lado a necessidade de aumentar a naturalidade da fala sintética e por outro procura-se alargar esta tecnologia a outras línguas com o objectivo de conhecer as suas especificidades. Este trabalho pretende dar contribuições para estes dois aspectos.

A primeira parte deste trabalho centra-se no sistema DIXI, o primeiro sistema de síntese de fala a partir de texto desenvolvido de raiz para a língua portuguesa. Apresenta-se a arquitectura do sistema comparando-a com sistemas desenvolvidos para outras línguas, justificam-se as opções de desenho tomadas, descreve-se o estado de desenvolvimento de cada um dos módulos e as características específicas da língua portuguesa.

A naturalidade da fala sintética depende muito de factores específicos da língua em causa, mas também de aspectos comuns a outras línguas como é o caso da modelação do sistema fonador humano. É a este aspecto que se dedica a segunda parte da tese, nomeadamente à modelação do fluxo de ar glotal. Descreve-se as vantagens e inconvenientes dos modelos existentes, apresentando-se uma nova formulação que permite a determinação automática a partir de fala natural das suas características principais: a duração da fase aberta da glote, a velocidade de fecho das cordas vocais e a quantidade de turbulência presente no fluxo ao nível da glote.

Palavras Chave: síntese de fala, sistemas texto-para-fala, texto-para-fala em português, modelo da excitação vozeada, modelo glotal, dinâmica dos parâmetros glotais

Abstract

The speech synthesis research currently faces two challenges: on one hand the improvement of the naturalness of synthetic speech and on the other the requirement to enlarge the number of languages covered by this technolo-gy in order to understand its specificities. This work intends to contribute to both questions.

In the first part we will focus our attention in the DIXI system, the first text-to-speech synthesis system built from scratch for Portuguese. We will present the system architecture compared with other systems developed for different languages, the design options and the development status of each system module, emphasizing the specific characteristics of the Portuguese language.

The naturalness of the synthetic speech depends on many specific factors of the language in question, but also on common aspects to other languages like the modeling of the human vocal apparatus. The second part of this thesis is dedicated to this problem, namely the modeling of the glottal air flow. We will describe the advantages and disadvantages of some of the available models, and present a new formulation that allows an automatic strategy to estimate its parameters from natural speech: the duration of the open glottis phase, the vocal folds closing speed and the amount of turbulence generated in the glottal flow.

Keywords: speech synthesis, text-to-speech systems, portuguese text-to-speech, voice source modeling, glottal model, glottal parameters dynamics

Full Text