Já Te Digo: uma interface em língua natural para uma base de dados de cinema (defense)

From HLT@INESC-ID

Ana Raquel Guimarães

Date

  • 10:30, November 05, 2007
  • Room Q4.5 (IST)

Speaker

Abstract

Resumo

As interfaces em língua natural para bases de dados já são desenvolvidas desde os anos 60 e têm como principais vantagens a expressividade, fácil utilização e capacidade de incorporar figuras de estilo tais como anáfora e elipse. Os sistemas desenvolvidos têm por base diversas abordagens, existindo assim os sistemas de emparelhamento, os sistemas baseados em sintaxe, os sistemas baseados em semântica e os sistemas que recorrem a uma linguagem de representação intermédia.

O JáTeDigo é uma interface em língua natural, em Português, para uma base de dados aplicada ao domínio de cinema. Os dados sobre cinema recolhidos provêm de diferentes fontes, tendo sido principalmente obtidos através do IMDB — Internet Movie Database. Na base de dados de cinema figuram 1 502 517 nomes de pessoas e 672 048 títulos de filmes resultantes do processamento de diversos ficheiros de texto de elevada dimensão. Adicionou-se ainda informação relativa aos Óscares da Academia, bem como cerca de 5000 títulos em Português.

A arquitectura da aplicação baseia-se em quatro etapas principais: reconhecimento de entidades mencionadas, desambiguação, processamento de língua natural e, finalmente, acesso à base de dados. Na primeira fase são reconhecidos os títulos de filmes e nomes de pessoas que estão presentes na questão. Seguidamente, no caso de haver em base de dados mais que uma entidade com o mesmo nome (diversos filmes com o mesmo título, diversas pessoas com o mesmo nome), é solicitado ao utilizador a sua desambiguação. Concluídas as duas anteriores fases, a questão é submetida a uma cadeia de processamento de língua natural. Se a questão formulada emparelhar com um dos padrões sintácticos definidos nessa cadeia, é escolhido o script adequado para obter a resposta à questão através do acesso à base de dados.

Para determinar a eficácia da aplicação foi concebida uma interface Web e foram realizados vários testes com diversos utilizadores. Num dos testes efectuados, em que figuravam exemplos de questões, a aplicação foi capaz de responder a 66% das questões com uma taxa de sucesso de 87,9%. Num outro teste, em que a interface era somente composta por uma caixa de texto, a aplicação respondeu a 40% das questões, sendo que 90% das respostas estavam correctas. Verificou-se assim que a existência de exemplos de questões na interface com o utilizador tem impacto no seu desempenho, sendo que a percentagem de questões respondidas é bastante superior para o caso de figurarem esses exemplos.