Name entity recognition (seminar): Difference between revisions

From HLT@INESC-ID

No edit summary
 
Line 14: Line 14:


* [[Luís Romão]]
* [[Luís Romão]]
== Abstract ==
Named entity recognition (NER) is a subtask of information extraction that seeks to locate and classify atomic elements in natural language text into predefined categories.
This presentation analyzes and compares several different strategies used in NER and describes a named entity system for the Portuguese language that identifies entities that are locations, people, organizations or events and classifies them according to a classification hierarchy, using a Portuguese-oriented, manual approach, based solely on lexicons and manual rules, either contextual or based on the entity's structure.
The system was evaluated according to the criteria defined by HAREM, a named entity recognition evaluation forum for the Portuguese language, and its results were in general above average when compared to other participant systems, obtaining the best results in the identification of organizations and the best global results in several of the classification evaluation scenarios.


== Resumo (PT) ==
== Resumo (PT) ==

Revision as of 13:09, 18 October 2007

Luís Romão
Luís Romão

Date

  • 16:00, October 19, 2007
  • 3rd floor meeting room

Speaker

Abstract

Named entity recognition (NER) is a subtask of information extraction that seeks to locate and classify atomic elements in natural language text into predefined categories.

This presentation analyzes and compares several different strategies used in NER and describes a named entity system for the Portuguese language that identifies entities that are locations, people, organizations or events and classifies them according to a classification hierarchy, using a Portuguese-oriented, manual approach, based solely on lexicons and manual rules, either contextual or based on the entity's structure.

The system was evaluated according to the criteria defined by HAREM, a named entity recognition evaluation forum for the Portuguese language, and its results were in general above average when compared to other participant systems, obtaining the best results in the identification of organizations and the best global results in several of the classification evaluation scenarios.

Resumo (PT)

A tarefa de reconhecimento de entidades mencionadas (REM) é uma subtarefa da área de extracção da informação que tem como objectivo a localização em textos de língua natural de elementos atómicos referentes a entidades específicas e sua posterior classificação em categorias predefinidas.

Serão analisas e comparadas várias estratégias adoptadas para a realização desta tarefa e descrito um sistema de reconhecimento de entidades mencionadas para a língua portuguesa que identifica entidades que são locais, pessoas, organizações e acontecimentos e as classifica de acordo com uma hierarquia de classificação, utilizando uma abordagem orientada à língua portuguesa, manual, e baseada exclusivamente em listas de palavras e regras, quer contextuais, quer baseadas na estrutura das entidades.

O sistema que será apresentado foi avaliado segundo os critérios de avaliação da edição do fórum de avaliação HAREM de 2005, apresentando, em relação aos sistemas concorrentes, resultados no geral acima da média e obtendo o melhor resultado na tarefa de identificação de organizações e na classificação global em alguns cenários de avaliação.