From HLT@INESC-ID

Revision as of 08:46, 9 May 2006 by David (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Proposta de Trabalho Final de Curso 2006/2007


Orientação

Objectivo

Descrição

A saída de um sistema de reconhecimento automático de fala é uma sequência de palavras sem qualquer tipo de pontuação. A marcação das fronteiras de frase e de outros tipos de pontuação é útil para:

  1. melhorar o desempenho do sistema de reconhecimento propriamente dito;
  2. permitir diferentes tipos de processamento da dita sequência de palavras (incluindo extracção de informação, sumarização, tradução, identificação de tomadas de palavra em diálogos, etc.);
  3. aumentar a legibilidade da sequência por um leitor humano.

Por exemplo, num sistema de diálogo falado, há que distinguir quando é que uma pausa sinaliza que o utilizador acabou a frase que pretende comunicar ao sistema, ou quando essa pausa corresponde a uma hesitação ou pausa gramatical.

Outro exemplo da importância da pontuação diz respeito a interrogativas. Numa frase terminada por uma interrogativa-tag como "não é?", tão frequente em fala espontânea, a não inserção do "?" pode distorcer completamente o sentido dessa frase e da seguinte.

Os métodos computacionais para recuperar a pontuação escondida em fala envolvem tipicamente uma combinação de modelos de língua do tipo n-grama e de classificadores prosódicos probabilísticos. Neste trabalho testar-se-ão vários tipos de características, classificadores e métodos de combinação de diferentes fontes de informação. Estudar-se-ão também estratégias para lidar com múltiplas hipóteses de sequências de palavras fornecidas pelo reconhecedor. O tratamento de pausas preenchidas, sobretudo quando delimitadas por longos silêncios, será também objecto de estudo, dado que não devem ser tratadas como separadores de frase.

Outros Dados

  • Áreas Científicas:
  • Local de trabalho: L²F (INESC-ID Lisboa).
Retrieved from ""