Reconhecimento da Fala Contínua com aplicação de técnicas de Adaptação ao Orador

From HLT@INESC-ID

João Paulo Neto

Resumo

Nesta dissertação desenvolvemos sistemas híbridos para o reconhecimento da fala contínua, resultantes da conjunção das características das redes neuronais artificiais como classificadores estáticos com a capacidade de modelamento temporal própria dos modelos de Markov não observáveis. Estes sistemas foram estudados e desenvolvidos para as bases de dados Resource Management (RM) e Wall Street Journal (WSJ0) na língua inglesa.

Com base nestes sistemas desenvolvemos um conjunto de técnicas de adaptação ao orador, através da modificação dos modelos acústico-fonéticos realizados a partir do perceptrão multi-camada. Estas técnicas foram avaliadas num modo estático e supervisionado sobre a base de dados RM e de uma forma incremental e não-supervisionada sobre a base de dados WSJ0. Os resultados alcançados mostram que a aplicação destas técnicas permite uma melhoria no desempenho dos sistemas de reconhecimento que, no caso da adaptação não-supervisionada, se obtém sem esforço adicional por parte do utilizador do sistema.

De modo a permitir a extensão destes sistemas ao Português desenvolveu-se uma nova base de dados, com as características e dimensões adequadas, e, em simultâneo, realizou-se um sistema básico de reconhecimento em Português. Este sistema e esta base de dados servirão de ponto de partida para o desenvolvimento futuro, em termos de reconhecimento da fala contínua, que se espera ver associado à língua Portuguesa.

Palavras Chave: Reconhecimento da fala, fala contínua, redes neuronais, sistemas híbridos, adaptação ao orador

Abstract

In this dissertation we developed hybrid continuous speech recognition systems which result from the conjunction of the features of artificial neural networks as static classifiers with the temporal modelling capabilities of hidden Markov models. These systems were studied and developed for the English Resource Management (RM) and Wall Street Journal (WSJ0) databases.

Based on these systems we developed a set of speaker adaptation techniques through the modification of the acoustic-phonetic models implemented by means of a multilayer perceptron. These techniques were evaluated on the RM database in a static supervised mode and on the WSJ0 database in an incremental unsupervised mode. The results show that the application of these techniques improves the per-formance of the recognition systems, without any additional load on the user, in the unsupervised mode.

To be able to extend these systems to the Portuguese language a new database, with the adequate size and properties, was developed. Simultaneously we imple-mented a basic recognition system for Portuguese. This system will be the starting point to the future developments in continuous speech recognition that we expect to see associated with the Portuguese language.

Key Words: Speech recognition, continuous speech, neural networks, hybrid systems, speaker adaptation

Full Text

(soon)