Difference between revisions of "UP-TAP corpus"

From HLT@INESC-ID

(Created page with "__NOTOC__ {{infobox|name=Ângela Costa |username=angela |contact=angela |phone=+351-213-100-313 |fax=+351-213-145-843 }} == Date == * 15:00, Friday, March 9<sup>th</sup>, 201...")
 
 
Line 16: Line 16:
 
== Speakers ==
 
== Speakers ==
  
* [[Ângela Costa]]
+
* [[Ângela Costa]], INESC-ID
 +
* [[Tiago Luís]], INESC-ID
 +
* [[Fernando Batista]], INESC-ID
 +
 
  
 
== Abstract ==
 
== Abstract ==

Latest revision as of 18:11, 7 March 2012

Ângela Costa


Date

  • 15:00, Friday, March 9th, 2012
  • Room 336

Speakers


Abstract

O corpus UP-TAP é um recurso construído com base no conteúdo da revista UP-Magazine, revista de bordo da TAP Portugal. A revista aborda um variado leque de assuntos, abordando paisagens, histórias e lugares, não só relativos ao nosso país como a outros lugares e destinos em todo o mundo. Editada em português e inglês, a revista dispõe de uma rede internacional de colaboradores que todos os meses preparam histórias, reportagens, crónicas e artigos em exclusivo. UP-TAP é um corpus paralelo, cujos textos foram extraídos directamente das páginas da revista. De momento, podemos contar com frases alinhadas em ambas as línguas, que permitem desde já a sua utilização em variadas tarefas, tais como tradução. Um dos aspectos mais importantes deste recurso é a possibilidade de se poder usar e distribuir sem restrições para fins científicos. Nesse sentido, importa enriquecê-lo com informação adicional que o permita ser uma referência importante para um variado leque de tarefas, tais como part-of-speech tagging ou reconhecimento de entidades nomeadas (NE), entre outras. Esta apresentação tem como objectivo apresentar este recurso e recolher ideias e sugestões para o melhor rentabilizar num futuro próximo.

Note: This seminar will be held in Portuguese.