Segmentação áudio-visual de programas de televisão

From HLT@INESC-ID

Revision as of 08:46, 9 May 2006 by David (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Proposta de Trabalho Final de Curso 2006/2007


Orientação

Objectivo

Descrição

O sistema de reconhecimento automático de noticiários televisivos desenvolvido no L2F (INESC-ID) tem como primeira etapa um pré-processamento de áudio cujo objectivo é identificar segmentos fala/não-fala, e segmentar a sequência de áudio em blocos homogéneos em termos de condições acústicas ambientais e género e identidade do falante.

Pretende-se com este trabalho complementar essa informação com pistas que possam ser extraídas do sinal de vídeo. A fusão de técnicas baseadas em áudio e em vídeo permitirá não só melhorar a qualidade do actual sistema, mas sobretudo explorar mais características que podem ser muito relevantes para uma etapa posterior de segmentação em notícias diferentes e detecção do tópico de cada notícia. Essa etapa depende crucialmente de informação sobre o(s) falante(s) envolvidos (i.e. um dos locutores), tipo de peça (i.e., reportagem com voz-off, destaque de notícias a apresentar posteriormente, entrevista em estúdio, reportagem do exterior), etc.

Um objectivo mais a longo prazo seria alargar a fusão de técnicas áudio-visuais à detecção de eventos como por exemplo, um golo num jogo de futebol, uma explosão, etc.

Outros Dados

  • Áreas Científicas:
  • Local de trabalho: L²F (INESC-ID Lisboa).