Finite-State Methods in Automatic Speech Recognition

From HLT@INESC-ID

Diamantino Caseiro

Abstract

This thesis proposes two approaches to address scalability and adaptability problems in weighted finite-state transducer (WFST) approaches to large vocabulary continuous speech recognition. The first one relies on a recognition algorithm which decouples the language model from the other knowledge sources. The second approach is based on a specialized composition algorithm. This algorithm incrementally builds a sequential weighted finite-state transducer representing the composition of the lexicon with the language model, while approximating other optimizations. Being incremental, the algorithm can be embedded in a dynamic speech recognition system.

Both approaches were tested in large vocabulary speech recognition systems. The second one, in particular, was used in a large broadcast news transcription system. A recognition speed improvement of 6 times was observed relative to a previous non-WFST system.

In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.

Keywords: Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers

Resumo

Nesta tese são propostas duas abordagens para resolver problemas de escalabilidade e adaptabilidade em reconhecimento de fala contínua de vocabulário extenso baseado em transdutores ponderados de estado finito (TPEF). A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição de transdutores especializado. O algoritmo constrói incrementalmente um transdutor determinístico representando a composição do léxico com o modelo de linguagem enquanto aproxima outras optimizações. Sendo incremental, o algoritmo pode ser incorporado em sistemas dinâmicos de reconhecimento de fala.

Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A utilização da segunda abordagem num sistema de trans-crição de notícias televisivas permitiu uma melhoria de 6 vezes na sua velocidade de reconhecimento.

Nesta tese também foram exploradas várias técnicas de modelação usando TPEF, que foram aplicadas a dois problemas em particular: o alinhamento temporal de corpora de grandes dimensões, quer ao nível da palavra, quer ao nível do fone, usando regras fonológicas para modelar variações de pronúncia. O segundo problema foi a conversão grafema-para-fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.

Palavras Chave: Reconhecimento Automático de Fala, Métodos de Estado Finito, Transdutores Ponderados de Estado Finito

Full Text

  • Finite-State Methods in Automatic Speech Recognition (soon)

See Also