Proposta de Trabalho Final de Curso 2006/2007
O sistema de reconhecimento automático de noticiários televisivos desenvolvido no L2F (INESC-ID) tem como primeira etapa um pré-processamento de áudio cujo objectivo é identificar segmentos fala/não-fala, e segmentar a sequência de áudio em blocos homogéneos em termos de condições acústicas ambientais e género e identidade do falante.
Pretende-se com este trabalho complementar essa informação com pistas que possam ser extraídas do sinal de vídeo. A fusão de técnicas baseadas em áudio e em vídeo permitirá não só melhorar a qualidade do actual sistema, mas sobretudo explorar mais características que podem ser muito relevantes para uma etapa posterior de segmentação em notícias diferentes e detecção do tópico de cada notícia. Essa etapa depende crucialmente de informação sobre o(s) falante(s) envolvidos (i.e. um dos locutores), tipo de peça (i.e., reportagem com voz-off, destaque de notícias a apresentar posteriormente, entrevista em estúdio, reportagem do exterior), etc.
Um objectivo mais a longo prazo seria alargar a fusão de técnicas áudio-visuais à detecção de eventos como por exemplo, um golo num jogo de futebol, uma explosão, etc.