: Difference between revisions

From HLT@INESC-ID

No edit summary
 
No edit summary
Line 12: Line 12:
== Objectivo ==
== Objectivo ==


Identificar e classificar entidades mensionadas. São exemplos de entidades mensionadas: nomes de pessoas, cargos, organizações, acontecimentos, datas, entre outros.
Identificar e classificar entidades mencionadas das seguintes categorias: Tempo, Valor, Objecto, Obra, Organização e Pessoa.


== Descrição ==
== Descrição ==


A identificação e classificação de entidades mencionadas é uma sub-tarefa da área de extracção de informação que visa localizar e classificar as palavras de um texto escrito que referem nomes de pessoas, organizações, localidades, expressões temporais, quantidades, valores monetários, percentagens, etc. Por exemplo, a frase "O Pedro comprou 300 acções da EDP em 2006" contém as seguintes entidades: (i) "Pedro" é um nome de pessoa; (ii) "300" é uma quantidade; (iii) "EDP" é uma organização; (iv) "2006" é uma data. A definição das regras (autómatos) e o acesso à informação que está disponível (lema, categoria gramatical, contexto à direita (palavra, lema, categoria) e à esquerda) faz-se através do ambiente XIP, desenvolvido pela Zerox e licenciado ao INESC-ID.
A identificação e classificação de entidades mencionadas é uma sub-tarefa da área de extracção de informação que visa localizar e classificar as palavras de um texto escrito que referem nomes de pessoas, organizações, localidades, expressões temporais, quantidades, valores monetários, percentagens, etc. Por exemplo, a frase "O Pedro comprou 300 acções da EDP em 2006" contém as seguintes entidades: (i) "Pedro" é um nome de pessoa; (ii) "300" é uma quantidade; (iii) "EDP" é uma organização; (iv) "2006" é uma data. A definição das regras (autómatos) e o acesso à informação que está disponível (lema, categoria gramatical, contexto à direita (palavra, lema, categoria) e à esquerda) faz-se através do ambiente XIP, desenvolvido pela Xerox e licenciado ao INESC-ID. Também se pretende comparar (expressividade e desempenho) das ferramentas XIP (desenvolvida pela Xerox) e PASMO (desenvolvida pelo L2F) quando usadas para a tarefa de reconhecimento de entidades mencionadas. A categoria Tempo inclui: data, hora, período. A categoria Valor inclui: percentagem, moeda, telefone, fax, classificação. A categoria Objecto inclui: palavras que referem um objecto ou construção em particular (substâncias, classes de objectos, marcas, ...). A categoria Obra inclui: livros, canções, filmes, histórias, álbuns, musicais, TV programas TV. A categoria Organização inclui: companhias, departamentos de companhias, movimentos políticos (partidos políticos, organizações políticas), partes do governo (ministérios, câmaras, tribunais, uniões políticas), publicações (revistas, jornais, ...), companhias musicais (bandas, coros, companhias de ópera, orquestras,...), organizações públicas (escolas, universidades, caridade, ...), outras colecções de pessoas (clubes desportivos, associações, companhias de teatro, ordens religiosas, organizações de juventude, ...). A categoria Pessoa inclui: título, cargo, nomes de pessoas.
 
== Outros Dados ==
== Outros Dados ==



Revision as of 09:38, 29 May 2006

Proposta de Trabalho Final de Curso 2006/2007


Orientação

Objectivo

Identificar e classificar entidades mencionadas das seguintes categorias: Tempo, Valor, Objecto, Obra, Organização e Pessoa.

Descrição

A identificação e classificação de entidades mencionadas é uma sub-tarefa da área de extracção de informação que visa localizar e classificar as palavras de um texto escrito que referem nomes de pessoas, organizações, localidades, expressões temporais, quantidades, valores monetários, percentagens, etc. Por exemplo, a frase "O Pedro comprou 300 acções da EDP em 2006" contém as seguintes entidades: (i) "Pedro" é um nome de pessoa; (ii) "300" é uma quantidade; (iii) "EDP" é uma organização; (iv) "2006" é uma data. A definição das regras (autómatos) e o acesso à informação que está disponível (lema, categoria gramatical, contexto à direita (palavra, lema, categoria) e à esquerda) faz-se através do ambiente XIP, desenvolvido pela Xerox e licenciado ao INESC-ID. Também se pretende comparar (expressividade e desempenho) das ferramentas XIP (desenvolvida pela Xerox) e PASMO (desenvolvida pelo L2F) quando usadas para a tarefa de reconhecimento de entidades mencionadas. A categoria Tempo inclui: data, hora, período. A categoria Valor inclui: percentagem, moeda, telefone, fax, classificação. A categoria Objecto inclui: palavras que referem um objecto ou construção em particular (substâncias, classes de objectos, marcas, ...). A categoria Obra inclui: livros, canções, filmes, histórias, álbuns, musicais, TV programas TV. A categoria Organização inclui: companhias, departamentos de companhias, movimentos políticos (partidos políticos, organizações políticas), partes do governo (ministérios, câmaras, tribunais, uniões políticas), publicações (revistas, jornais, ...), companhias musicais (bandas, coros, companhias de ópera, orquestras,...), organizações públicas (escolas, universidades, caridade, ...), outras colecções de pessoas (clubes desportivos, associações, companhias de teatro, ordens religiosas, organizações de juventude, ...). A categoria Pessoa inclui: título, cargo, nomes de pessoas.

Outros Dados

  • Proposto por Luís Romão (#51035) e João Loureiro (#51015)
  • Áreas Científicas:
  • Local de trabalho: L²F (INESC-ID Lisboa).
Retrieved from ""