From HLT@INESC-ID

Revision as of 19:48, 7 July 2006 by David (talk | contribs)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Ricardo Daniel Ribeiro
Ricardo Daniel Ribeiro

Date

  • March 14, 2003

Speaker

Abstract (in Portuguese)

Descreve-se o desenvolvimento de um sistema de anotação morfossintáctica desambiguada para o Português. A motivação principal para o desenvolvimento deste sistema foi a sua integração num sistema de síntese de fala a partir de texto. A arquitectura do anotador compreende um módulo de análise morfológica e um módulo de desambiguação morfossintáctica. A utilização de um módulo de análise morfológica baseou-se no facto das línguas neolatinas, como o Português, serem mais flexionadas que o Inglês, fazendo com que muitas vezes não ocorram em corpora os exemplos necessários ao desenvolvimento de modelos de língua fiáveis -- problema da esparsidade dos dados. O módulo de desambiguação combina duas abordagens diferentes: desambiguação baseada em regras orientadas linguisticamente e desambiguação probabilística. O sistema foi desenvolvido com base no corpus PAROLE anotado e desambiguado.

Os resultados alcançados demonstram que a arquitectura se adequa ao Português Europeu. Embora seja difícil comparar este sistema com outros desenvolvidos para a língua Portuguesa -- por não se usaram os mesmos conjuntos de etiquetas ou os mesmos corpora, entre outros aspectos --, o sistema apresentado evidencia um desempenho superior.

Adicionalmente, importa ainda realçar os esforços envidados para garantir o carácter modular do sistema, por um lado, permitindo a fácil substituição de módulos e, por outro, simplicidade na integração com outros sistemas.

Retrieved from ""