: Difference between revisions

From HLT@INESC-ID

 
(One intermediate revision by the same user not shown)
Line 16: Line 16:


== Abstract ==
== Abstract ==
The principal aim of this project is to create a system automatic translation of broadcast news of Spanish for Portuguese. The accomplishment of this system needs the combination of two operations: The automatic speech recognition of the news in Spanish followed by the translation of this recognition obtained for the Portuguese. This work had several parts beginning for the study of the recognizer, with base in the system of recognition AUDIMUS.MEDIA , [Meinedo et al., 2003], developed in the center of research INESC-ID (Instituto de Engenharia de Sistemas de Computadores) of Lisbon (Portugal), acquiring and trying material of audio and a text, constructing a lexicon and creating new acoustic models and language models for the recognizer of Spanish. There was obtained a result of evaluation similar to other sistems of recognition international and that appear in the state of art. For the translator based on (Statistical Machine Translation), they are in use parallel normalized texts, for both languages in study, Spanish and Portuguese, there are trained the probabilities of translation of the system, and aspect a human not exhaustive evaluation, due to the period of execution of the project, and the lack of sufficient personnel for a deeper study, staying for future lines a more detailed and joint evaluation of the global system.


== Resumo ==
== Resumo ==
Line 22: Line 21:
[[Category:Seminars]]
[[Category:Seminars]]
[[Category:Seminars 2007]]
[[Category:Seminars 2007]]
O objectivo principal deste projecto é criar um sistema de tradução automática de notícias televisivas de Espanhol para Português. A realização deste sistema requer a combinação de duas operações: o reconhecimento da fala das notícias em Espanhol seguida da tradução desse reconhecimento para Português. Começa-se pelo estudo do reconhecedor, com base no sistema de reconhecimento AUDIMUS, desenvolvido no centro de investigação INESC-ID (Instituto de Engenharia de Sistemas de Computadores Investigação e Desenvolvimento) de Lisboa (Portugal), adquirindo e processando material de áudio e texto, construindo um léxico e criando novos modelos acústicos e de linguagem para o reconhecedor de Espanhol. Obteve-se um resultado de avaliação similar a outros sistemas de reconhecimento internacionais e que representam o estado da arte. Para o tradutor baseado na tradução automática estatística, utilizam-se textos paralelos normalizados, para os dois idiomas em estudo, Espanhol e Português, estimam-se os modelos estatísticos, e faz-se uma avaliação humana não exaustiva, devido aos prazos de execução do projecto, e falta de suficiente pessoal para um estudo mais profundo, ficando para trabalho futuro uma avaliação mas detalhada e conjunta do sistema global.
Palavras-chave: Reconhecimento automático de fala, transcrição de notícias televisivas, modelo acústico, modelo de linguagem e tradução automática estatística.

Latest revision as of 12:42, 10 November 2007

Raquel Sánchez
Raquel Sánchez

Date

  • 14:30, November 02, 2007
  • Room 336

Speaker

Abstract

Resumo

O objectivo principal deste projecto é criar um sistema de tradução automática de notícias televisivas de Espanhol para Português. A realização deste sistema requer a combinação de duas operações: o reconhecimento da fala das notícias em Espanhol seguida da tradução desse reconhecimento para Português. Começa-se pelo estudo do reconhecedor, com base no sistema de reconhecimento AUDIMUS, desenvolvido no centro de investigação INESC-ID (Instituto de Engenharia de Sistemas de Computadores Investigação e Desenvolvimento) de Lisboa (Portugal), adquirindo e processando material de áudio e texto, construindo um léxico e criando novos modelos acústicos e de linguagem para o reconhecedor de Espanhol. Obteve-se um resultado de avaliação similar a outros sistemas de reconhecimento internacionais e que representam o estado da arte. Para o tradutor baseado na tradução automática estatística, utilizam-se textos paralelos normalizados, para os dois idiomas em estudo, Espanhol e Português, estimam-se os modelos estatísticos, e faz-se uma avaliação humana não exaustiva, devido aos prazos de execução do projecto, e falta de suficiente pessoal para um estudo mais profundo, ficando para trabalho futuro uma avaliação mas detalhada e conjunta do sistema global.

Palavras-chave: Reconhecimento automático de fala, transcrição de notícias televisivas, modelo acústico, modelo de linguagem e tradução automática estatística.

Retrieved from ""