CLEFOMANIA, QA@CLEF: primeiros passos (seminar)

From HLT@INESC-ID

Ana Cristina Mendes

Date

  • 16:30, November 09, 2007
  • Room 336

Speaker

Abstract

QA@L2F is the question-answering system presented in this thesis. Its architecture relies on three modules with different goals: corpus pre-processing, question analysis and interpretation and final answer extraction.

The first module is responsible for the natural language processing on the corpus and storing the information on databases. In the question analysis and interpretation module, the system recovers the question's relevant information (such as named entities) and sends it to the final answer extraction module.

The system last module is responsible for returning the correct answer to the input question. It can use one of four different strategies in order to retrieve the correct answer, which are: 1) linguistic pattern matching; 2) linguistic reordering; 3) named entities matching; and 4) brute force plus natural language processing. This module has a constraint relaxation mechanism, which allows the system to switch among strategies: if no answer is retrieved using the appropriate strategy, the system relaxes and tries to find an answer in a more flexible and less constrained way.

Resumo

Nesta tese apresenta-se o QA@L2F, um sistema de question-answering que se baseia numa arquitectura composta por três módulos com funções distintas: pré-processamento do corpus, análise e interpretação da pergunta e extracção da resposta final. No primeiro módulo, o sistema faz o processamento de língua natural no corpus, armazenando-o em bases de dados estruturadas para o efeito.

No módulo de análise e interpretação da pergunta, o sistema recolhe a informação relevante presente na pergunta (como, por exemplo, entidades mencionadas) e encaminha-a para o módulo de extracção da resposta final.

O último módulo na cadeia de processamento do sistema tem como responsabilidade devolver a resposta certa à pergunta recebida como entrada. Tem à sua disposição um conjunto de quatro estratégias de extracção de resposta que pode utilizar em função da pergunta: 1) emparelhamento de padrões linguísticos; 2) reordenação de formulações linguísticas; 3) emparelhamento de entidades mencionadas; e, 4) brute force com pós-processamento de língua natural. Neste último módulo funciona, também, um mecanismo de relaxamento de restrições que permite ao sistema alternar para uma estratégia diferente e menos restritiva na procura e recolha da resposta, caso a estratégia apropriada tenha falhado na descoberta da resposta.