2006/10/11

From Wiki**3

Mês Anterior | Semestre Anterior | Topo | Semana Seguinte | Mês Seguinte

Tópicos Avançados

Ponto da situação

Todo o trabalho relativo ao levantamento da informação relevante foi, em princípio, realizado. Este trabalho cobriu teorias (métodos/técnicas, modelos) e realizações práticas. Foram estudadas variações de foco, i.e., qual a incidência do processamento/descrição (e.g. resolução de anáfora vs. estruturação -- retórica -- do texto).

Observações

Aguarda-se a apresentação de uma versão preliminar.

Objectivos até à próxima reunião

  • Continuação da escrita do relatório preliminar

Partilha e Reutilização de Conhecimento

  • Encerrada.
  • Artigo publicado na AIMSA 2006.

Projecto em Língua Natural

Situação anterior

Foram abordados os seguintes tópicos:

  • arquitectura actual da cadeia de processamento dos noticiários;
  • arquitectura do sumarizador extractivo;
  • implementação das fases iniciais do processo de sumarização;
  • integração do sumarizador no motor mediawiki para apresentação (futuramente, esta integração pode ser sofisticada, para tirar partido da base de dados documental do motor)

Observações

  • Corrigir problemas de codificação de caracteres (UTF-8): ADIADO (até finalização do documento preliminar para Tópicos Avançados: próxima semana)

Desenvolvimentos

  • Implementação do algoritmo TF/ISF.
  • Testes sobre as transcrições automáticas do Alert.
  • Resultados preliminares qualitativos não muito bons (deficiências ao nível de marcação de segmentos).
  • Testes com base em classificador de máxima entropia para segmentação - features: trigramas de etiquetas morfo-sintácticas e última etiqueta.
  • Resultados preliminares promissores.
  • Análise superficial ROUGE.

Objectivos

  • Submissão ao HTL2007.