Transcrição de áudio-conferências

From HLT@INESC-ID

Proposta de Trabalho Final de Curso 2005/2006

Orientação

Objectivo

Pretende-se desenvolver um sistema que permita transcrever automaticamente a fala dos diversos intervenientes numa áudio-conferência.

Descrição

A utilização do reconhecimento automático de fala para a transcrição de reuniões é relativamente recente, dadas as limitações da tecnologia actual, mas tem um campo potencial de aplicações muito vasto, passando pelas actas de parlamentos, de sessões de áudio/vídeo-conferência, de tribunais, etc. Em áudio-conferências, há problemas acrescidos dada que os intervenientes não têm contacto visual entre eles, o que provoca a interrupção de intervenções simultâneas.

A recolha de material para treino e teste será feita em áudio-conferências montadas sobre um sistema de voz sobre IP em que um dos canais é utilizado somente para a gravação. Estas aúdio-conferências decorrerão em inglês, o que implica "portar" o reconhecedor de fala AUDIMUS, desenvolvido no L2F, para esta língua. Esta será a primeira tarefa que pode ser realizada com base em material de fala e texto em inglês já existente. Para além desta tarefa inicial, o trabalho compreende outras tarefas:

  • Construção de um corpus de fala de áudio-conferências.
  • Construção de um corpus de texto adequado às reuniões - deverá englobar todo o material distribuído de antemão para a reunião a transcrever, bem como o utilizado em reuniões anteriores do mesmo tipo.
  • Construção de modelos acústicos adequados.
  • Construção do léxico de pronúncia - passa pela definição do vocabulário adequado, incluindo nomes próprios.
  • Construção de modelos de língua adequados a partir dos textos recolhidos. Em vez de gramáticas formais, utilizar-se-ão modelos estatísticos do tipo n-grama.
  • Treino/Teste do AUDIMUS(Inglês) neste domínio.
  • Verificação da mais valia que um sistema deste tipo poderá trazer para a elaboração manual posterior de actas resumidas. Isto é, avaliação do tempo eventualmente poupado pela elaboração destas actas, partindo do texto transcrito automaticamente, face ao gasto na elaboração das mesmas de raiz.

A segmentação/agrupamento do áudio gravado por oradores é feita recorrendo a um módulo já desenvolvido.

Requisitos

Embora não seja essencial, a frequência da disciplina "Processamento de Fala" (1º semestre, LEEC) poderá ajudar na compreensão da tecnologia de reconhecimento de fala.

Outros Dados

  • Áreas Científicas: Computadores; Sistemas, Decisão e Controlo; Telecomunicações
  • Local de trabalho: L²F (INESC-ID Lisboa).

Ver Também

  • Informação no sistema Fénix