From HLT@INESC-ID

Revision as of 09:38, 29 May 2006 by Njm (talk | contribs)

Proposta de Trabalho Final de Curso 2006/2007


Orientação

Objectivo

Identificar e classificar entidades mencionadas das seguintes categorias: Tempo, Valor, Objecto, Obra, Organização e Pessoa.

Descrição

A identificação e classificação de entidades mencionadas é uma sub-tarefa da área de extracção de informação que visa localizar e classificar as palavras de um texto escrito que referem nomes de pessoas, organizações, localidades, expressões temporais, quantidades, valores monetários, percentagens, etc. Por exemplo, a frase "O Pedro comprou 300 acções da EDP em 2006" contém as seguintes entidades: (i) "Pedro" é um nome de pessoa; (ii) "300" é uma quantidade; (iii) "EDP" é uma organização; (iv) "2006" é uma data. A definição das regras (autómatos) e o acesso à informação que está disponível (lema, categoria gramatical, contexto à direita (palavra, lema, categoria) e à esquerda) faz-se através do ambiente XIP, desenvolvido pela Xerox e licenciado ao INESC-ID. Também se pretende comparar (expressividade e desempenho) das ferramentas XIP (desenvolvida pela Xerox) e PASMO (desenvolvida pelo L2F) quando usadas para a tarefa de reconhecimento de entidades mencionadas. A categoria Tempo inclui: data, hora, período. A categoria Valor inclui: percentagem, moeda, telefone, fax, classificação. A categoria Objecto inclui: palavras que referem um objecto ou construção em particular (substâncias, classes de objectos, marcas, ...). A categoria Obra inclui: livros, canções, filmes, histórias, álbuns, musicais, TV programas TV. A categoria Organização inclui: companhias, departamentos de companhias, movimentos políticos (partidos políticos, organizações políticas), partes do governo (ministérios, câmaras, tribunais, uniões políticas), publicações (revistas, jornais, ...), companhias musicais (bandas, coros, companhias de ópera, orquestras,...), organizações públicas (escolas, universidades, caridade, ...), outras colecções de pessoas (clubes desportivos, associações, companhias de teatro, ordens religiosas, organizações de juventude, ...). A categoria Pessoa inclui: título, cargo, nomes de pessoas.

Outros Dados

  • Proposto por Luís Romão (#51035) e João Loureiro (#51015)
  • Áreas Científicas:
  • Local de trabalho: L²F (INESC-ID Lisboa).
Retrieved from ""