Codificação Fonética - Codificação de Fala Baseada em Segmentos Classificados Foneticamente

From HLT@INESC-ID

Revision as of 00:42, 6 July 2006 by David (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Author

  • Carlos Meneses Ribeiro

Resumo

O presente trabalho descreve a introdução de algumas metodologias de reconhecimento robusto de fala em reconhecedores automáticos baseados em modelos de Markov não observáveis, tendo em vista a sua utilização por parte de oradores estrangeiros. Um problema que afecta principalmente os reconhecedores com vocabulários pequenos, advém da tendência dos utentes casuais em construir frases coloquiais centradas em cada palavra desse vocabulário. A solução tradicional para este tipo de problema consiste na utilização de um modelo de escoamento que permite eliminar as palavras estranhas ao vocabulário do reconhecedor. No presente trabalho estudou-se a utilização de diversos modelos de escoamento em simultâneo e a sua articulação com a presença de oradores com sotaque estrangeiro.

Quando a língua para a qual um reconhecedor de fala automático foi desenvolvido não é a língua materna do orador, verificam-se quebras acentuadas de desempenho no reconhecimento. Este problema só foi equacionado recentemente e as soluções disponíveis não são diferenciadas das existentes para o problema, mais geral, da independência dos reconhecedores em relação ao orador. Neste trabalho são propostas algumas técnicas para atenuar as referidas quebras de desempenho. A proposta apresentada neste trabalho consiste na adopção de um modelo estatístico multipronûncia para as transcrições fonotípicas alternativas de cada palavra.

Este estudo baseou-se num corpus de fala que inclui um vocabulário de palavras inglesas recolhido a partir de cerca de 120 oradores em seis países da União Europeia.

Palavras Chave: reconhecimento automático de fala, sotaque estrangeiro, detecção de palavras-chave, modelos de escoamento, modelos multipronúncia, transcrição fonotípica.

Abstract

Among the speech coding techniques, phonetic coding is the one able to reach the lowest bit rates. This efficiency stems from the fact that this type of coding is based on a chain of recognition (transmitter) and synthesis (receiver). Phonetic coders segment the speech signal using a phonetic recognizer, transmitting the index of the recognized unit and the corresponding prosodic information to the receiver, in order to synthesize the speech signal.

Speaker recognisability is one of the main issues in phonetic coding, given the type and quantity of the transmitted information. This thesis intends to contribute to the development of phonetic coders, including speaker adaptation capabilities, at the cost of an increase in bit rate. Results suggest that the improvement in the synthetic signal is achieved not only in terms of speaker recognisability but also in terms of intelligibility and overall quality. In order to take advantage of the intra-speaker correlation, an incremental speaker adaptation method is also proposed, allowing a trade-off between bit rate and quality.

In the beginning of this work, there was no reasonably wide and consistent speech signal corpus for European Portuguese, which led national researchers to use English corpora. One of the purposes of the present thesis was to contribute to a change in this scenario, through the collection of the EUROM.1 corpus for European Portuguese.

Key Words: speech signals, phonetic coding, phonetic recognition, speaker adaptation

See Also