How to keep up with language dynamics: A case study on Named Entity Recognition

From HLT@INESC-ID

Cristina Mota

Date

  • 15:00, Friday, May 22nd, 2009
  • Room 336

Speaker

Abstract

Most natural language processing systems are trained and tested with comparable texts regarding genre, topic and language; otherwise the system performance is most certainly affected. What if we fix those parameters, but change the time period of those texts? Do texts significantly change over time which gradually results in performance deterioration?

In order to investigate this issue, we opted for named entity recognition based on semi-supervised learning as a case study. We observed that as the time gap between texts is increased: (i) texts within the same topic become less similar, showing a tendency to become as dissimilar as texts from different topics (ii) texts share fewer names and surrounding contexts. Our experiments also show that: (i) the performance of the name tagger decreases as the time gap between training data (seeds and unlabeled data) and test texts increases; (ii) updating the unlabeled data is sufficient to maintain quality over time, and outperforms updating the labeled data. Furthermore, we also show that augmenting the unlabeled data with older data in most cases does not result in better performance than simply using a smaller amount of current unlabeled data.

Therefore, our main contribution is giving empirical evidence that changing the time period of texts affects the performance of named entity recognition, and, additionally, proposing a strategy to avoid performance decay over time, reinforcing the idea that semi-supervised learning is a reasonable alternative to the expensive solution of continuing to annotate new training data.

Resumo

Os sistemas de processamento de linguagem natural são geralmente treinados e testados usando textos comparáveis em termos de género, tópico ou língua, de modo a não afectar o seu desempenho. A pergunta que nos colocámos foi o que aconteceria ao desempenho do sistema se fixássemos esses parâmetros e variássemos a época dos textos. Será que os textos variam ao longo do tempo de uma forma que gradualmente deteriora o desempenho do sistema?

Investigámos esta questão escolhendo como objecto de estudo o reconhecimento de entidades mencionadas baseado em aprendizagem semi-supervisionada. A análise que conduzimos com uma colecção de textos mostra que ao aumentarmos o intervalo temporal entre os textos analisados: (i) a semelhança entre textos do mesmo tópico diminui, existindo uma tendência para que fiquem tão diferentes como se correspondessem a tópicos diferentes; (ii) o número de nomes partilhados entre os textos diminui gradualmente, assim como os contextos em que estes ocorrem. Relativamente ao desempenho do reconhecedor de entidades mencionadas, observámos que: (i) o desempenho diminui ao aumentarmos a distância temporal entre os textos de treino (sementes e dados não anotados) e teste; (ii) a actualização dos dados não anotados é preferível à actualização dos dados anotados, mostrando-se suficiente para manter a qualidade no reconhecimento de entidades mencionadas ao longo do tempo. Verificámos igualmente que treinar o sistema com dados mais actuais produz geralmente melhor desempenho do que treinar o sistema com mais dados não anotados antigos.

Nesta dissertação, demonstrámos, empiricamente, que o reconhecimento de entidades mencionadas é afectado pela variação da época dos textos. Adicionalmente, propusemos estratégias de actualização dos dados de treino, que evitam o decréscimo de desempenho no reconhecimento de entidades mencionadas ao longo do tempo, reforçando a ideia de que os métodos semi-supervisionados são uma alternativa razoável à dispendiosa criação de novos textos anotados.