UP-TAP corpus: Difference between revisions
From HLT@INESC-ID
(Created page with "__NOTOC__ {{infobox|name=Ângela Costa |username=angela |contact=angela |phone=+351-213-100-313 |fax=+351-213-145-843 }} == Date == * 15:00, Friday, March 9<sup>th</sup>, 201...") |
No edit summary |
||
Line 16: | Line 16: | ||
== Speakers == | == Speakers == | ||
* [[Ângela Costa]] | * [[Ângela Costa]], INESC-ID | ||
* [[Tiago Luís]], INESC-ID | |||
* [[Fernando Batista]], INESC-ID | |||
== Abstract == | == Abstract == |
Latest revision as of 18:11, 7 March 2012
Date
- 15:00, Friday, March 9th, 2012
- Room 336
Speakers
- Ângela Costa, INESC-ID
- Tiago Luís, INESC-ID
- Fernando Batista, INESC-ID
Abstract
O corpus UP-TAP é um recurso construído com base no conteúdo da revista UP-Magazine, revista de bordo da TAP Portugal. A revista aborda um variado leque de assuntos, abordando paisagens, histórias e lugares, não só relativos ao nosso país como a outros lugares e destinos em todo o mundo. Editada em português e inglês, a revista dispõe de uma rede internacional de colaboradores que todos os meses preparam histórias, reportagens, crónicas e artigos em exclusivo. UP-TAP é um corpus paralelo, cujos textos foram extraídos directamente das páginas da revista. De momento, podemos contar com frases alinhadas em ambas as línguas, que permitem desde já a sua utilização em variadas tarefas, tais como tradução. Um dos aspectos mais importantes deste recurso é a possibilidade de se poder usar e distribuir sem restrições para fins científicos. Nesse sentido, importa enriquecê-lo com informação adicional que o permita ser uma referência importante para um variado leque de tarefas, tais como part-of-speech tagging ou reconhecimento de entidades nomeadas (NE), entre outras. Esta apresentação tem como objectivo apresentar este recurso e recolher ideias e sugestões para o melhor rentabilizar num futuro próximo.
Note: This seminar will be held in Portuguese.