Finite-State Methods in Automatic Speech Recognition

From HLT@INESC-ID

The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Diamantino Caseiro
Diamantino Caseiro

Abstract

This thesis proposes two approaches to address scalability and adaptability problems in weighted finite-state transducer (WFST) approaches to large vocabulary continuous speech recognition. The first one relies on a recognition algorithm which decouples the language model from the other knowledge sources. The second approach is based on a specialized composition algorithm. This algorithm incrementally builds a sequential weighted finite-state transducer representing the composition of the lexicon with the language model, while approximating other optimizations. Being incremental, the algorithm can be embedded in a dynamic speech recognition system.

Both approaches were tested in large vocabulary speech recognition systems. The second one, in particular, was used in a large broadcast news transcription system. A recognition speed improvement of 6 times was observed relative to a previous non-WFST system.

In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.

Keywords: Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers

Resumo

Nesta tese são propostas duas abordagens para resolver problemas de escalabilidade e adaptabilidade em reconhecimento de fala contínua de vocabulário extenso baseado em transdutores ponderados de estado finito (TPEF). A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição de transdutores especializado. O algoritmo constrói incrementalmente um transdutor determinístico representando a composição do léxico com o modelo de linguagem enquanto aproxima outras optimizações. Sendo incremental, o algoritmo pode ser incorporado em sistemas dinâmicos de reconhecimento de fala.

Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A utilização da segunda abordagem num sistema de trans-crição de notícias televisivas permitiu uma melhoria de 6 vezes na sua velocidade de reconhecimento.

Nesta tese também foram exploradas várias técnicas de modelação usando TPEF, que foram aplicadas a dois problemas em particular: o alinhamento temporal de corpora de grandes dimensões, quer ao nível da palavra, quer ao nível do fone, usando regras fonológicas para modelar variações de pronúncia. O segundo problema foi a conversão grafema-para-fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.

Palavras Chave: Reconhecimento Automático de Fala, Métodos de Estado Finito, Transdutores Ponderados de Estado Finito

Full Text

  • Finite-State Methods in Automatic Speech Recognition (soon)

See Also