Speaker Recognition

From HLT@INESC-ID

Hugo Tito Cordeiro
Hugo Tito Cordeiro ...
Addresses: [ www] mail

Date

  • 15:00, Friday, March 14th, 2008
  • 3rd floor meeting room, INESC-ID

Speaker

  • Hugo Tito Cordeiro, MSc student at Instituto Superior Técnico

Abstract

The biometric technology is nowadays an area that emerge great interest to the most diverse applications and consequently to a wide market to be exploited. However, these applications need to have high levels of reliability so that can succeed and be a focus for users. In the context of voice as a biometric feature, this work deals with text independent automatic speaker recognition.

This work implements the speaker verification task, through three recognizer systems, two of them based on support vector machines (SVM) and the other based on universal background model Gaussian mixture models (UBM GMM). In these systems, several speech features were tested: mel frequency cepstral coefficients (MFCC), line spectrum frequencies (LSF) and the mel line spectrum frequencies (MLSF). Two of these systems also implement results normalization techniques: the target normalization (T norm) and zero normalization (Z norm).

MLSF features are proposed in this work, aiming to optimize the performance of LSF coefficients in the field of speaker recognition. This new features obtain almost identical results than MFCC coefficients, typically used in applications of speaker recognition.

The evaluation of the systems was conducted with the equal error rate (EER) and the Cdet minimum value. Tests were conducted with the 2002 NIST SRE corpus.

Keywords

  • Speaker recognition;
  • Speaker verification
  • Speech features

Resumo

A tecnologia biométrica é actualmente uma área que suscita grande interesse para as mais diversas aplicações e consequentemente pelo vasto mercado que pode ser explorado. Contudo, estas aplicações têm de ter níveis de fiabilidade elevados de modo a que consigam vingar e cativar utilizadores. No contexto da voz como uma característica biométrica, este trabalho aborda o reconhecimento automático de orador, na vertente verificação independente do texto.

Este trabalho implementa a tarefa de verificação de orador através da implementação de três reconhecedores, dois baseados em ‘support vector machines’ (SVM) e um outro baseado em ‘universal background model Gaussian mixture models’ (UBM GMM). Nestes reconhecedores, foram testadas alguns parâmetros dos sinais de fala, nomeadamente: os ‘mel frequency cepstral coefficients’ (MFCC), os ‘line spectrum frequencies’ (LSF) e os ‘mel line spectrum frequencies’ (MLSF). Em dois dos sistemas de reconhecimento, foram ainda implementadas técnicas de normalização de resultados: a normalização ‘target normalization’ (T norm) e a normalização ‘zero normalization’ Z norm.

Os MLSF, parâmetros propostos neste trabalho, visando a optimização do desempenho dos coeficientes LSF na área do reconhecimento de orador, obtiveram resultados quase idênticos aos MFCC, tipicamente usados em aplicações de reconhecimento de orador.

A avalização dos sistemas foi realizada com base no ‘equal error rate’ (EER) e no valor mínimo do Cdet. Os testes foram efectuados no corpus 2002 NIST SRE.

Palavras-chave

  • Reconhecimento de orador;
  • Verificação de orador;
  • Parâmetros dos sinais de fala