TransVox – A System for Transforming Voices (proposal)

From HLT@INESC-ID

Revision as of 08:40, 15 May 2007 by Lco (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Proposta de Tese de Mestrado 2007/2008

Orientação

Objectivos

Desenvolver um sistema que permita a transformação de uma gravação de uma voz para que soe como dita por outra pessoa.

Enquadramento

As técnicas actuais de síntese de fala permitem a construção de sistemas com vozes muito parecidas com o locutor original, capturando a sua entoação e estilo de falar. No entanto, estes sistemas requerem muitas horas de gravações desse locutor e trabalho de vários especialistas para que o sistema final tenha o nível de qualidade desejado.

A transformação de vozes é uma técnica que permite a personalização da voz produzida por um sistema de síntese.

Descrição

A transformação ou conversão de vozes é uma técnica com potencial para revolucionar a geração de fala ao permitir o desenvolvimento de sistemas de síntese configuráveis para múltiplas vozes. Em geral tem-se um locutor para o qual se dispõe de uma vasta colecção de gravações (fonte) e outro de que se dispõe apenas de algum material (alvo). Pretende-se converter a voz do locutor fonte para soar como o locutor alvo. Para isso é necessário realizar dois tipos de transformação dos parâmetros que personalizam o locutor:

  • Conversão espectral – que altera a realização acústica dos segmentos fonéticos.
  • Conversão prosódica – que modifica a duração e entoação dos segmentos fonéticos.

Para realizar estas transformações é necessário definir um algoritmo de mapeamento entre as realizações dos dois locutores. Neste trabalho pretende-se usar o algoritmo GMM (Gaussian Mixture Model) proposto por Stylianou [1]. Neste método o mapeamento entre as características da voz fonte e da voz alvo é determinado usando o algoritmo GMM nas funções de densidade de probabilidade conjunta dessas características [2].

[1] Y. Stylianou. Harmonic plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification. Ph.D. Thesis, Ecole Nationale Superieure des Telecommunications, 1996.

[2] A. Kain. High Resolution Voice Transformation. Ph.D. Thesis, OGI School of Science and Engineering, Oregon Health and Science University, 2001.


Resultado esperado

Pretende-se que no final do trabalho estejam disponíveis um conjunto de ferramentas computacionais para realizar a conversão de vozes e que os resultados sejam reportados numa publicação científica.

Requisitos

Dar-se-á preferência aos alunos que demonstrem ter conhecimentos em modelos gaussianos.