UP-TAP corpus

From HLT@INESC-ID

Ângela Costa
Ângela Costa


Date

  • 15:00, Friday, March 9th, 2012
  • Room 336

Speakers


Abstract

O corpus UP-TAP é um recurso construído com base no conteúdo da revista UP-Magazine, revista de bordo da TAP Portugal. A revista aborda um variado leque de assuntos, abordando paisagens, histórias e lugares, não só relativos ao nosso país como a outros lugares e destinos em todo o mundo. Editada em português e inglês, a revista dispõe de uma rede internacional de colaboradores que todos os meses preparam histórias, reportagens, crónicas e artigos em exclusivo. UP-TAP é um corpus paralelo, cujos textos foram extraídos directamente das páginas da revista. De momento, podemos contar com frases alinhadas em ambas as línguas, que permitem desde já a sua utilização em variadas tarefas, tais como tradução. Um dos aspectos mais importantes deste recurso é a possibilidade de se poder usar e distribuir sem restrições para fins científicos. Nesse sentido, importa enriquecê-lo com informação adicional que o permita ser uma referência importante para um variado leque de tarefas, tais como part-of-speech tagging ou reconhecimento de entidades nomeadas (NE), entre outras. Esta apresentação tem como objectivo apresentar este recurso e recolher ideias e sugestões para o melhor rentabilizar num futuro próximo.

Note: This seminar will be held in Portuguese.