Spoken Books Alignment: Difference between revisions

From HLT@INESC-ID

No edit summary
 
Line 4: Line 4:
* October 19, 2001
* October 19, 2001


== Speakers ==
== Speaker ==


* [[António Serralheiro]]
* [[António Serralheiro]]

Revision as of 18:24, 16 February 2006

Date

  • October 19, 2001

Speaker

Abstract (in Portuguese)

Esta apresentação pretende ser uma introdução ao projecto IPSOM (Indexação, Integração e Pesquisa em Documentos Multimédia). Trata-se de um projecto nacional, subsidiado pela FCT, com início em Novembro de 2000 e duração planeada de 3 anos. O consórcio envolve membros do Laboratório de Sistemas de Língua Falada do INESC ID Lisboa, do grupo Multimédia da Faculdade de Ciências da Universidade de Lisboa e da Biblioteca Nacional, que actua como fornecedor dos recursos linguísticos tratados no projecto – livros falados.

Em Portugal, os livros falados são usados principalmente pela comunidade de pessoas portadoras de deficiência visual. Na sua maioria, têm sido gravados por voluntários em cassetes analógicas distribuídas pela BN. O formato actual torna a pesquisa de informação nestes livros muito morosa e sujeita a erro, pelo que a primeira prioridade é a conversão para o formato digital. O principal objectivo do projecto IPSOM é melhorar o acesso a estes livros pela comunidade invisual, através de ferramentas que neles possibilitem a fácil detecção e indexação de unidades (palavras, frases, tópicos). Simultaneamente, pretende-se alargar a utilização de livros multimédia (p.ex., para aplicações didácticas), através de interfaces multimédia para acesso e pesquisa.

Uma das primeiras tarefas consistiu na avaliação do repositório actual de forma a determinar eventuais problemas em termos de indexação (p.ex., ordem não sistemática pela qual é lido o prefácio, a contracapa, os nomes e números dos capítulos, as notas de rodapé).

Do ponto de vista de investigação, um dos aspectos mais interessantes dos livros falados é o facto de fornecerem um recurso linguístico importantíssimo para o modelamento prosódico baseado em corpora, aspecto esse que planeamos explorar muito em breve.