UP-TAP corpus

From HLT@INESC-ID

The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Ângela Costa
Ângela Costa


Date

  • 15:00, Friday, March 9th, 2012
  • Room 336

Speakers


Abstract

O corpus UP-TAP é um recurso construído com base no conteúdo da revista UP-Magazine, revista de bordo da TAP Portugal. A revista aborda um variado leque de assuntos, abordando paisagens, histórias e lugares, não só relativos ao nosso país como a outros lugares e destinos em todo o mundo. Editada em português e inglês, a revista dispõe de uma rede internacional de colaboradores que todos os meses preparam histórias, reportagens, crónicas e artigos em exclusivo. UP-TAP é um corpus paralelo, cujos textos foram extraídos directamente das páginas da revista. De momento, podemos contar com frases alinhadas em ambas as línguas, que permitem desde já a sua utilização em variadas tarefas, tais como tradução. Um dos aspectos mais importantes deste recurso é a possibilidade de se poder usar e distribuir sem restrições para fins científicos. Nesse sentido, importa enriquecê-lo com informação adicional que o permita ser uma referência importante para um variado leque de tarefas, tais como part-of-speech tagging ou reconhecimento de entidades nomeadas (NE), entre outras. Esta apresentação tem como objectivo apresentar este recurso e recolher ideias e sugestões para o melhor rentabilizar num futuro próximo.

Note: This seminar will be held in Portuguese.