Finite-State Methods in Automatic Speech Recognition: Difference between revisions
From HLT@INESC-ID
mNo edit summary |
mNo edit summary |
||
Line 1: | Line 1: | ||
__NOTOC__ | __NOTOC__ | ||
{{infobox|name=Diamantino Caseiro|username=dcaseiro|contact=dcaseiro | <!--{{infobox|name=Diamantino Caseiro|username=dcaseiro|contact=dcaseiro | ||
|phone=+351-213-100-300 ext. 2528|fax=+351-213-145-843 | |phone=+351-213-100-300 ext. 2528|fax=+351-213-145-843 | ||
}} | }}--> | ||
== Abstract == | == Abstract == | ||
Revision as of 20:58, 3 July 2006
Abstract
This thesis proposes two approaches to address scalability and adaptability problems in weighted finite-state transducer (WFST) approaches to large vocabulary continuous speech recognition. The first one relies on a recognition algorithm which decouples the language model from the other knowledge sources. The second approach is based on a specialized composition algorithm. This algorithm incrementally builds a sequential weighted finite-state transducer representing the composition of the lexicon with the language model, while approximating other optimizations. Being incremental, the algorithm can be embedded in a dynamic speech recognition system.
Both approaches were tested in large vocabulary speech recognition systems. The second one, in particular, was used in a large broadcast news transcription system. A recognition speed improvement of 6 times was observed relative to a previous non-WFST system.
In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.
Keywords: Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers
Resumo
Nesta tese são propostas duas abordagens para resolver problemas de escalabilidade e adaptabilidade em reconhecimento de fala contínua de vocabulário extenso baseado em transdutores ponderados de estado finito (TPEF). A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição de transdutores especializado. O algoritmo constrói incrementalmente um transdutor determinístico representando a composição do léxico com o modelo de linguagem enquanto aproxima outras optimizações. Sendo incremental, o algoritmo pode ser incorporado em sistemas dinâmicos de reconhecimento de fala.
Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A utilização da segunda abordagem num sistema de trans-crição de notícias televisivas permitiu uma melhoria de 6 vezes na sua velocidade de reconhecimento.
Nesta tese também foram exploradas várias técnicas de modelação usando TPEF, que foram aplicadas a dois problemas em particular: o alinhamento temporal de corpora de grandes dimensões, quer ao nível da palavra, quer ao nível do fone, usando regras fonológicas para modelar variações de pronúncia. O segundo problema foi a conversão grafema-para-fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.
Palavras Chave: Reconhecimento Automático de Fala, Métodos de Estado Finito, Transdutores Ponderados de Estado Finito
Full Text
- Finite-State Methods in Automatic Speech Recognition (soon)