Finite-State Methods in Automatic Speech Recognition (seminar)

From HLT@INESC-ID

Diamantino Caseiro

Date

  • November 21, 2003

Speaker

Abstract (in Portuguese)

Técnicas de estado finito baseadas no uso de transdutores ponderados de estado finito (TPEF) constituem um base muito flexível para a integração de fontes de conhecimento em sistema de reconhecimento de fala contínua de vocabulário extenso.

Esta flexibilidade é uma consequência da uniformidade obtida pela representação das fontes de conhecimento por transdutores ponderados de estado finito, e pela existência de algoritmos gerais para a sua manipulação. Adicionalmente, a disponibilidade de algoritmos gerais de optimização permite a construção de sistemas de reconhecimento de fala extremamente eficientes.

No entanto, as técnicas baseadas em transdutores de estado finito têm problemas de escalabilidade e adaptabilidade. Esses problemas são uma consequência dos algoritmos gerais de optimização que são pesados do ponto de vista computacional. Esses algoritmos são utilizados para compilar as fontes de conhecimento numa fase de pre-processamento. A indisponibilidade das fontes de conhecimento durante a fase de reconhecimento inibe o uso óptimo de fontes de conhecimento dinâmicas.

Nesta tese são propostas duas abordagens para resolver estes problemas de escalabilidade e adaptabilidade. A primeira é baseada num algoritmo de reconhecimento que separa o modelo de linguagem das outras fontes de conhecimento. A segunda abordagem é baseada num algoritmo de composição especializado que aproxima as operações de optimização mais importantes. O algoritmo constrói um transdutor determinístico representado a composição do léxico com o modelo de linguagem, simultaneamente, o algoritmo aproxima outras operações de optimização. O algoritmo foi desenhado de forma a poder ser incorporado num sistema de reconhecimento de fala para efectuar a composição incrementalmente, permitindo assim a criação de sistemas de reconhecimento dinâmicos.

Ambas as abordagens foram testadas em sistemas de reconhecimento de fala de vocabulário extenso. A segunda abordagem, em particular, foi usada num sistema de transcrição de noticias televisivas. Relativamente ao sistema anterior, que não era baseado em transdutores, foi observada uma melhoria de 6 vezes na velocidade de reconhecimento.

Nesta tese também foram exploradas várias técnicas de modelação usando TPEF. Estas técnicas foram aplicados a dois problemas em particular: o alinhamento temporal de corpora de grandesdimensões, que ao nível da palavra, quer ao nível do fone usando regras fonológicas para modelar variações de pronúncia.

O segundo problema foi a conversão de grafema para fone usando técnicas diversas: baseadas em conhecimento, dirigidas pelos dados e mistas.

See Also