Prosodic Phrasing: Evaluation Methods

From HLT@INESC-ID

Revision as of 18:22, 16 February 2006 by Root (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Date

  • October 12, 2001

Speakers

Abstract (in Portuguese)

Esta comunicação, descreve uma experiência desenvolvida para avaliar o desempenho efectivo de um módulo de fraseamento prosódico a integrar num sistema de síntese de fala a partir de texto para o Português Europeu (PE). O processo de avaliação mais comum é o que compara os valores preditos pelos modelos com valores de referência para um determinado corpus, sendo por isso analisados como erro todos os casos de não-coincidência entre esses valores. As medidas de desempenho calculadas deste modo podem ser enganadoras, uma vez que muitos enunciados, particularmente os mais longos, podem ser fraseados de diferentes modos, igualmente aceitáveis para os falantes/ouvintes. Avaliações mais realistas apenas são possíveis quando estão disponíveis vastos conjuntos de materiais linguísticos previamente anotados que contemplem múltiplas produções de cada enunciado por um número razoável de falantes. Não estando ainda reunidas estas condições para muitas línguas, em particular para o PE, foi necessário encontrar estratégias de avaliação alternativas. Para esse efeito, foi realizada uma experiência que envolveu 90 participantes, aos quais foi pedido que classificassem enunciados com diferentes partições prosódicas em 3 categorias distintas: bom, aceitável, inaceitável. Uma parte desses enunciados continha rupturas prosódicas preditas automaticamente, a outra rupturas marcadas manualmente e utilizadas como referência para o treino e teste do modelo. Foi também pedido a cada um dos participantes que segmentasse um terceiro conjunto de enunciados, da forma que entendesse mais adequada. De modo a possibilitar a comparação dos resultados globais para estas diferentes tarefas, foram impostos limites mínimos e máximos para a atribuição de rupturas. Os resultados mostram que, embora seja admitida uma grande variabilidade na localização de marcas de ruptura, um enunciado com múltiplas rupturas adequadamente preditas pode ser considerado inaceitável devido a uma única falha, que tanto pode corresponder a uma falsa inserção como ao apagamento de uma ruptura. Os dois tipos de erro parecem ser igualmente importantes, pondo em causa critérios de optimização frequentemente utilizados, que atribuem diferentes pesos a cada um deles. Os resultados dão ainda pistas sobre novas medidas de desempenho e fornecem importantes indicações sobre contextos em que a presença de uma ruptura é crítica e sobre outros que não a admitem.