Sistema de aquisição de fala para ambientes virtuais (seminar)

From HLT@INESC-ID

Gustavo Coelho

Date

  • 15:30, November 16, 2007
  • INESC-ID's Room 336 (Alves Redol)

Speaker

Abstract

This work was developed for my graduation thesis for the Master Degree in Electrical and Computer Engineering and aims to develop a ubiquitous speech acquisition system for Automatic Speech Recognition (ASR) applications. The main objective is to build a speech acquisition system capable of enhancing the speech signals and attenuating the noise signals in far-talk environments.

The classic approach for speech acquisition is normally implemented by using one or two microphone close to the speech source (e.g. using head-set mounted microphones), in order to maximize the signal-to-noise ratio. One drawback of the classic approach is the intrusive point of view for the user, where the speaker cannot be free to move or wear a specific device. However, if the speaker needs to move inside a large room, or to an adjacent one, other ways of speech acquisition are mandatory.

Microphone arrays are commonly use for far-talk speech acquisition. However, they have drawbacks, such as also capturing ambient noises or other conversations, which adversely affect speech recognition.

Seeking to create ubiquitous speech acquisition for human and computer interaction environment and minimizing constrains for speech acquisition, where humans does not have to concern about the presence or positions of the microphones, or speak directly to a close-talk microphone. Microphone arrays can explore the fact that speech and interfering noise sources are physically separate in space enabling, thus, to perform speech enhancement.

This spatial-temporal approach allows performing the spatial filtering of speech and noise signals for speech enhancement. Spatial filters or beamforming methods, is a process that emphasize signals from a particular direction while attenuating those from other directions. This spatial-temporal approach can be also used for source detection and tracking, e.g. a locating a moving speaker.

In this work, spatial filtering techniques where implemented using a 64 microphone Uniform Linear Array for speech acquisition. For speech enhancement was developed and applied the Delay-and-sum Beamforming and Super Directive Beamforming algorithms for fixed beamforming, and the Generalized Sidelobe Canceller for adaptive beamforming. The Generalized Cross Correlation method was address for the source localization issues.

In addition, a novel microphone arrays calibration method was developed. The array microphone’s sensitivity with a 0.3dB variation and approximated invariant frequency was archived.

Resumo

Desenvolvido no âmbito do Mestrado em Engenharia Electrotécnica e de Computadores, este trabalho tem como objectivo criar um modelo de aquisição de fala ubíquo, capaz de estabelecer uma interface de fala entre o homem e um computador. Pretende aplicar-se um agregado de microfones para adquirir o sinal de fala de um locutor colocado em campo distante e processa-lo em sistemas de Reconhecimento Automático de Fala (ASR).

Usualmente, em aquisição de fala, são implementadas técnicas em campo próximo por meio de um ou dois microfones colocados perto do locutor. Este método clássico, permite minimizar a influência dos sinais espúrios, como o ruído ambiente ou sinais de fala de outros locutores, dada a proximidade do locutor aos microfones. No entanto, a colocação de microfones perto do locutor é, do ponto de vista do utilizador, um método intrusivo dado que existe uma restrição da liberdade de movimentos do próprio utilizador.

O modelo de aquisição de fala proposto neste trabalho, permite criar um sistema hands free e, como tal, ubíquo na interacção entre as pessoas e os computadores, minimizando os constrangimentos do utilizador ao equipamento de aquisição de fala. Pretende-se adquirir a fala em campo distante, num espaço físico limitado, sem que o locutor tenha a preocupação com a presença ou posição dos dispositivos de aquisição do sinal. No entanto, o sinal de fala adquirido em campo distante é severamente degradado pela reverberação do próprio sinal e por sinais espúrios.

A utilização de agregados de microfones permite explorar a dimensão espaço-temporal do problema, com a implementação de técnicas de filtragem espacial. Como o sinal de fala e o ruído têm origem em pontos diferentes no espaço, os métodos de filtragem espacial permitem separar fisicamente estes dois sinais acústicos. O objectivo é direccionar electronicamente (por software) o agregado de microfones, de forma adquirir sinais de fala que se propagam numa determinada direcção, enquanto se rejeitam os sinais vindos de outras direcções. Uma vez que é feita a abordagem no domínio espaço-temporal dos sinais, o agregado de microfones pode ainda ser aplicado para localizar e seguir um número ilimitado de fontes acústicas (e.g. locutores).

Para isso, foi construído um agregado de 64 microfones linearmente espaçados, como equipamento de aquisição da fala em campo distante. São desenvolvidas e aplicados métodos de filtragem espacial para speech enhancement: Delay-and-Sum Beamforming e Super Directive Beamforming como métodos de filtragem espacial fixa e o Generalized Sidelobe Canceller como método de filtragem espacial adaptativa. Para a localização espacial é abordado o método de Generalized Cross Correlation. Foi desenvolvido ainda um método de calibração do agregado, que permitiu ajustar as sensibilidades dos 64 microfones com uma variação máxima de 0,3dB e aproximadamente invariante na frequência.