TransVox – A System for Transforming Voices (proposal)

From HLT@INESC-ID

Revision as of 17:14, 29 August 2007 by David (talk | contribs) (TransVox – A System for Transforming Voices moved to TransVox – A System for Transforming Voices (proposal))
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Proposta de Tese de Mestrado 2007/2008

Orientação

Objectivos

Desenvolver um sistema que permita a transformação de uma gravação de uma voz para que soe como dita por outra pessoa.

Enquadramento

As técnicas actuais de síntese de fala permitem a construção de sistemas com vozes muito parecidas com o locutor original, capturando a sua entoação e estilo de falar. No entanto, estes sistemas requerem muitas horas de gravações desse locutor e trabalho de vários especialistas para que o sistema final tenha o nível de qualidade desejado.

A transformação de vozes é uma técnica que permite a personalização da voz produzida por um sistema de síntese.

Descrição

A transformação ou conversão de vozes é uma técnica com potencial para revolucionar a geração de fala ao permitir o desenvolvimento de sistemas de síntese configuráveis para múltiplas vozes. Em geral tem-se um locutor para o qual se dispõe de uma vasta colecção de gravações (fonte) e outro de que se dispõe apenas de algum material (alvo). Pretende-se converter a voz do locutor fonte para soar como o locutor alvo. Para isso é necessário realizar dois tipos de transformação dos parâmetros que personalizam o locutor:

  • Conversão espectral – que altera a realização acústica dos segmentos fonéticos.
  • Conversão prosódica – que modifica a duração e entoação dos segmentos fonéticos.

Para realizar estas transformações é necessário definir um algoritmo de mapeamento entre as realizações dos dois locutores. Neste trabalho pretende-se usar o algoritmo GMM (Gaussian Mixture Model) proposto por Stylianou [1]. Neste método o mapeamento entre as características da voz fonte e da voz alvo é determinado usando o algoritmo GMM nas funções de densidade de probabilidade conjunta dessas características [2].

[1] Y. Stylianou. Harmonic plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification. Ph.D. Thesis, Ecole Nationale Superieure des Telecommunications, 1996.

[2] A. Kain. High Resolution Voice Transformation. Ph.D. Thesis, OGI School of Science and Engineering, Oregon Health and Science University, 2001.


Resultado esperado

Pretende-se que no final do trabalho estejam disponíveis um conjunto de ferramentas computacionais para realizar a conversão de vozes e que os resultados sejam reportados numa publicação científica.

Requisitos

Dar-se-á preferência aos alunos que demonstrem ter conhecimentos em modelos gaussianos.