Finite-State Methods in Automatic Speech Recognition: Difference between revisions

From HLT@INESC-ID

mNo edit summary
 
(5 intermediate revisions by the same user not shown)
Line 1: Line 1:
__NOTOC__
__NOTOC__
{{infobox|name=Diamantino Caseiro|username=dcaseiro|contact=dcaseiro
|phone=+351-213-100-300 ext. 2528|fax=+351-213-145-843
}}
== Abstract ==
== Abstract ==


Line 8: Line 12:
In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.
In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.


'''KeywordS:''' Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers
'''Keywords:''' Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers


== Resumo ==
== Resumo ==


(a disponibilizar)
Nesta tese são propostas duas abordagens para resolver problemas de escalabilidade e adaptabilidade em reconhecimento de fala contínua de vocabulário extenso baseado em transdutores ponderados de estado finito (TPEF). A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição de transdutores especializado. O algoritmo constrói incrementalmente um transdutor determinístico representando a composição do léxico com o modelo de linguagem enquanto aproxima outras optimizações. Sendo incremental, o algoritmo pode ser incorporado em sistemas dinâmicos de reconhecimento de fala.
 
Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A utilização da segunda abordagem num sistema de trans-crição de notícias televisivas permitiu uma melhoria de 6 vezes na sua velocidade de reconhecimento.
 
Nesta tese também foram exploradas várias técnicas de modelação usando TPEF, que foram aplicadas a dois problemas em particular: o alinhamento temporal de corpora de grandes dimensões, quer ao nível da palavra, quer ao nível do fone, usando regras fonológicas para modelar variações de pronúncia. O segundo problema foi a conversão grafema-para-fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.
 
'''Palavras Chave:''' Reconhecimento Automático de Fala, Métodos de Estado Finito, Transdutores Ponderados de Estado Finito


== Full Text ==
== Full Text ==

Latest revision as of 00:39, 6 July 2006

Diamantino Caseiro
Diamantino Caseiro

Abstract

This thesis proposes two approaches to address scalability and adaptability problems in weighted finite-state transducer (WFST) approaches to large vocabulary continuous speech recognition. The first one relies on a recognition algorithm which decouples the language model from the other knowledge sources. The second approach is based on a specialized composition algorithm. This algorithm incrementally builds a sequential weighted finite-state transducer representing the composition of the lexicon with the language model, while approximating other optimizations. Being incremental, the algorithm can be embedded in a dynamic speech recognition system.

Both approaches were tested in large vocabulary speech recognition systems. The second one, in particular, was used in a large broadcast news transcription system. A recognition speed improvement of 6 times was observed relative to a previous non-WFST system.

In this thesis various WFST modelling approaches were also pursued. These techniques were applied to two problems in particular: alignment of large speech corpora at both word and phone levels, using phonological rules to model pronunciation variation, and grapheme-to-phone conversion using knowledge-based, data-driven and hybrid approaches.

Keywords: Automatic Speech Recognition, Finite-State Methods, Weighted Finite-State Transducers

Resumo

Nesta tese são propostas duas abordagens para resolver problemas de escalabilidade e adaptabilidade em reconhecimento de fala contínua de vocabulário extenso baseado em transdutores ponderados de estado finito (TPEF). A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição de transdutores especializado. O algoritmo constrói incrementalmente um transdutor determinístico representando a composição do léxico com o modelo de linguagem enquanto aproxima outras optimizações. Sendo incremental, o algoritmo pode ser incorporado em sistemas dinâmicos de reconhecimento de fala.

Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A utilização da segunda abordagem num sistema de trans-crição de notícias televisivas permitiu uma melhoria de 6 vezes na sua velocidade de reconhecimento.

Nesta tese também foram exploradas várias técnicas de modelação usando TPEF, que foram aplicadas a dois problemas em particular: o alinhamento temporal de corpora de grandes dimensões, quer ao nível da palavra, quer ao nível do fone, usando regras fonológicas para modelar variações de pronúncia. O segundo problema foi a conversão grafema-para-fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.

Palavras Chave: Reconhecimento Automático de Fala, Métodos de Estado Finito, Transdutores Ponderados de Estado Finito

Full Text

  • Finite-State Methods in Automatic Speech Recognition (soon)

See Also