From HLT@INESC-ID

Revision as of 08:46, 9 May 2006 by David (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Proposta de Trabalho Final de Curso 2006/2007


Orientação

Objectivo

Descrição

O sistema de reconhecimento automático de noticiários televisivos desenvolvido no L2F (INESC-ID) tem como primeira etapa um pré-processamento de áudio cujo objectivo é identificar segmentos fala/não-fala, e segmentar a sequência de áudio em blocos homogéneos em termos de condições acústicas ambientais e género e identidade do falante.

Pretende-se com este trabalho complementar essa informação com pistas que possam ser extraídas do sinal de vídeo. A fusão de técnicas baseadas em áudio e em vídeo permitirá não só melhorar a qualidade do actual sistema, mas sobretudo explorar mais características que podem ser muito relevantes para uma etapa posterior de segmentação em notícias diferentes e detecção do tópico de cada notícia. Essa etapa depende crucialmente de informação sobre o(s) falante(s) envolvidos (i.e. um dos locutores), tipo de peça (i.e., reportagem com voz-off, destaque de notícias a apresentar posteriormente, entrevista em estúdio, reportagem do exterior), etc.

Um objectivo mais a longo prazo seria alargar a fusão de técnicas áudio-visuais à detecção de eventos como por exemplo, um golo num jogo de futebol, uma explosão, etc.

Outros Dados

  • Áreas Científicas:
  • Local de trabalho: L²F (INESC-ID Lisboa).
Retrieved from ""