Reconhecimento de Fala de Oradores Estrangeiros

From HLT@INESC-ID

Revision as of 21:25, 3 July 2006 by David (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Resumo

Este trabalho descreve a introdução de algumas metodologias de reconhecimento robusto de fala baseadas em modelos de Markov não observáveis, tendo em vista a sua utilização por parte de oradores estrangeiros.

Um problema que afecta principalmente os reconhecedores com vocabulários pequenos, advém da tendência dos utentes casuais em construir frases coloquiais centradas em cada palavra desse vocabulário. A solução tradicional para este tipo de problema consiste na utilização de um modelo de escoamento que permite eliminar as palavras estranhas ao vocabulário do reconhecedor. Nesta dissertação estudou-se a utilização de diversos modelos de escoamento em simultâneo e a sua articulação com a presença de oradores com sotaque estrangeiro.

Quando a língua para a qual um reconhecedor automático de fala foi desenvolvido não é a língua materna do orador, verificam-se quebras acentuadas no seu desempenho. Este problema só foi equacionado recentemente e as soluções disponíveis não são diferenciadas das existentes para o problema, mais geral, da independência dos reconhecedores em relação ao orador. Neste trabalho propõem-se algumas técnicas para atenuar as referidas quebras de desempenho. Uma destas técnicas consiste na adopção de um modelo estatístico multipronúncia para as transcrições fonotípicas alternativas de cada palavra.

Este estudo baseou-se num corpus de fala que inclui um vocabulário de palavras inglesas recolhido a partir de cerca de 120 oradores em seis países da União Europeia.

Palavras Chave: reconhecimento automático de fala, sotaque estrangeiro, detecção de palavras-chave, modelos de escoamento, modelos multipronúncia, transcrição fonotípica

Abstract

This dissertation describes the integration of some methodologies of robust speech recognition based on hidden Markov models, considering its use by foreign speakers.

A problem that mainly affects small vocabulary recognisers, arises from a tendency of the speaker to use words not included in these vocabularies, namely while attempting to construct a natural sentence around each keyword. In this work, the use of multiple sink models in the recogniser was tested with a multi-accent speech corpus.

When the language for which the recogniser was built is not the native language of the speaker, a severe loss of performance can be detected. This problem has only be equated recently. Thus, the solutions used are usually similar to the ones proposed for the more general problem of the speaker independent recognition. In this dissertation some techniques are proposed in order to reduce the referred loss of performance. One of these techniques is based on a multi-pronunciation statistical model for the alternative phonotypic transcriptions of each word.

The speech corpus used for the experiments includes a vocabulary of English words collected from 120 speakers in six different European countries.

Key Words: automatic speech recognition, foreign accent, keyword detection, sink models, multi-pronunciation models, phonotypical transcription

Full Text

(soon)