Just.Ask - a new born QA system

From HLT@INESC-ID

Luísa Coheur

Date

  • 14:00, Friday, December 18th, 2009
  • Room 4

Speaker

Abstract

As the amount of textual information available in the World Wide Web increases, it is becoming harder and harder for regular users to find specific information in a convenient manner. For instance, finding an answer to a simple factual question, such as “Who is the tallest man in the world ?”, can be a fairly tedious task. Web question answering systems offer a solution to this problem by quickly retrieving succinct answers to questions posed in natural language. However, building such systems typically requires a fairly amount of tedious, time-consuming, and error-prone human labor, which leads to systems that are costly, and difficult to adapt to different application domains or languages. To cope with these problems, in this thesis, we propose a multi-pronged approach to web question answering, with a strong focus on machine learning techniques that allow the system to learn rules instead of having a human expert handcrafting them. Particularly, we propose a system comprised of three components: question classification, passage retrieval, and answer extraction. For the first component, we developed a state-of-the-art machine learning-based question classifier, which uses a rich set of lexical, syntactic and semantic features. For passage retrieval, we employ a multi-strategy approach that selects the appropriate information source, depending on the type of the question. Finally, for answer extraction, we utilize several extraction techniques that range from simple regular expressions to automatic machine learning-based named entity recognizers. The system was evaluated using a set of questions that were asked by potential users of the system, yielding very promising results.

Resumo

À medida que a quantidade de informação textual disponível na World Wide Web aumenta, torna-se cada vez mais difícil para o utilizador comum encontrar informação específica de uma maneira conveniente. Por exemplo, encontrar a resposta para uma pergunta tão simples como “Quem é o homem mais alto do mundo ?”, pode-se tornar numa tarefa fastidiosa. Os sistemas de pergunta resposta (question answering, em Inglês) oferecem uma solução para este problema, permitindo obter rapidamente respostas sucintas para perguntas colocadas em língua natural. No entanto, a construção destes sistemas exige tipicamente uma quantidade considerável de trabalho repetitivo, moroso, e sujeito a erros humanos, resultando em sistemas caros, e difíceis de adaptar para novos domínios. Para lidar com estes problemas, nesta tese, propomos uma abordagem multi-facetada para question answering na Web, com particular foco em técnicas de aprendizagem automática, que permitem ao sistema aprender regras, ao invés de ter um perito humano a criá-las manualmente. Em particular, propomos um sistema composto por três componentes: classificação de perguntas, recuperação de passagens, e extracção de respostas. Para o primeiro componente, desenvolvemos um classificador baseado em técnicas de aprendizagem automática, que utiliza um conjunto de features lexicais, sintácticas, e semânticas. Para a recuperação de passagens, empregamos uma abordagem multi-estratégia, que selecciona a fonte de informação apropriada, dependendo do tipo da pergunta. Finalmente, para a extracção de respostas, foram utilizadas diversas técnicas de extracção, desde simples expressões regulares, a reconhecedores de entidades mencionadas baseados em técnicas de aprendizagem automática. O sistema foi avaliado com um conjunto de perguntas feitas por potenciais utilizadores do sistema, tendo-se obtido resultados muito prometedores.