https://www.hlt.inesc-id.pt/wiki/index.php?title=How_to_keep_up_with_language_dynamics:_A_case_study_on_Named_Entity_Recognition&feed=atom&action=historyHow to keep up with language dynamics: A case study on Named Entity Recognition - Revision history2024-03-29T09:15:52ZRevision history for this page on the wikiMediaWiki 1.41.0https://www.hlt.inesc-id.pt/wiki/index.php?title=How_to_keep_up_with_language_dynamics:_A_case_study_on_Named_Entity_Recognition&diff=5451&oldid=prevJoana at 11:03, 1 June 20092009-06-01T11:03:17Z<p></p>
<table style="background-color: #fff; color: #202122;" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #202122; text-align: center;">Revision as of 11:03, 1 June 2009</td>
</tr><tr><td colspan="2" class="diff-lineno" id="mw-diff-left-l36">Line 36:</td>
<td colspan="2" class="diff-lineno">Line 36:</td></tr>
<tr><td class="diff-marker"></td><td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>[[category:Seminars]]</div></td><td class="diff-marker"></td><td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>[[category:Seminars]]</div></td></tr>
<tr><td class="diff-marker"></td><td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>[[category:Seminars 2009]]</div></td><td class="diff-marker"></td><td style="background-color: #f8f9fa; color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>[[category:Seminars 2009]]</div></td></tr>
<tr><td colspan="2" class="diff-side-deleted"></td><td class="diff-marker" data-marker="+"></td><td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;">[[category:PhD Proposal]]</ins></div></td></tr>
<tr><td colspan="2" class="diff-side-deleted"></td><td class="diff-marker" data-marker="+"></td><td style="color: #202122; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div><ins style="font-weight: bold; text-decoration: none;">[[category:Rehearsals]]</ins></div></td></tr>
</table>Joanahttps://www.hlt.inesc-id.pt/wiki/index.php?title=How_to_keep_up_with_language_dynamics:_A_case_study_on_Named_Entity_Recognition&diff=5412&oldid=prevJoana at 10:24, 14 May 20092009-05-14T10:24:33Z<p></p>
<p><b>New page</b></p><div>__NOTOC__<br />
{{infobox|name=Cristina Mota<br />
|username=cmota<br />
|contact=cmota<br />
|phone=+1-XXX-XXX<br />
|fax=+1-XXX-XXX<br />
}}<br />
<br />
== Date ==<br />
<br />
* 15:00, Friday, May 22<sup>nd</sup>, 2009<br />
* Room 336<br />
<br />
== Speaker ==<br />
<br />
* [[Cristina Mota]]<br />
<br />
== Abstract ==<br />
<br />
Most natural language processing systems are trained and tested with comparable texts regarding genre, topic and language; otherwise the system performance is most certainly affected. What if we fix those parameters, but change the time period of those texts? Do texts significantly change over time which gradually results in performance deterioration? <br />
<br />
In order to investigate this issue, we opted for named entity recognition based on semi-supervised learning as a case study. We observed that as the time gap between texts is increased: (i) texts within the same topic become less similar, showing a tendency to become as dissimilar as texts from different topics (ii) texts share fewer names and surrounding contexts. Our experiments also show that: (i) the performance of the name tagger decreases as the time gap between training data (seeds and unlabeled data) and test texts increases; (ii) updating the unlabeled data is sufficient to maintain quality over time, and outperforms updating the labeled data. Furthermore, we also show that augmenting the unlabeled data with older data in most cases does not result in better performance than simply using a smaller amount of current unlabeled data. <br />
<br />
Therefore, our main contribution is giving empirical evidence that changing the time period of texts affects the performance of named entity recognition, and, additionally, proposing a strategy to avoid performance decay over time, reinforcing the idea that semi-supervised learning is a reasonable alternative to the expensive solution of continuing to annotate new training data. <br />
<br />
== Resumo ==<br />
<br />
Os sistemas de processamento de linguagem natural são geralmente treinados e testados usando textos comparáveis em termos de género, tópico ou língua, de modo a não afectar o seu desempenho. A pergunta que nos colocámos foi o que aconteceria ao desempenho do sistema se fixássemos esses parâmetros e variássemos a época dos textos. Será que os textos variam ao longo do tempo de uma forma que gradualmente deteriora o desempenho do sistema? <br />
<br />
Investigámos esta questão escolhendo como objecto de estudo o reconhecimento de entidades mencionadas baseado em aprendizagem semi-supervisionada. A análise que conduzimos com uma colecção de textos mostra que ao aumentarmos o intervalo temporal entre os textos analisados: (i) a semelhança entre textos do mesmo tópico diminui, existindo uma tendência para que fiquem tão diferentes como se correspondessem a tópicos diferentes; (ii) o número de nomes partilhados entre os textos diminui gradualmente, assim como os contextos em que estes ocorrem. Relativamente ao desempenho do reconhecedor de entidades mencionadas, observámos que: (i) o desempenho diminui ao aumentarmos a distância temporal entre os textos de treino (sementes e dados não anotados) e teste; (ii) a actualização dos dados não anotados é preferível à actualização dos dados anotados, mostrando-se suficiente para manter a qualidade no reconhecimento de entidades mencionadas ao longo do tempo. Verificámos igualmente que treinar o sistema com dados mais actuais produz geralmente melhor desempenho do que treinar o sistema com mais dados não anotados antigos. <br />
<br />
Nesta dissertação, demonstrámos, empiricamente, que o reconhecimento de entidades mencionadas é afectado pela variação da época dos textos. Adicionalmente, propusemos estratégias de actualização dos dados de treino, que evitam o decréscimo de desempenho no reconhecimento de entidades mencionadas ao longo do tempo, reforçando a ideia de que os métodos semi-supervisionados são uma alternativa razoável à dispendiosa criação de novos textos anotados. <br />
<br />
<br />
<br />
[[category:Seminars]]<br />
[[category:Seminars 2009]]</div>Joana