Analyse syntaxique automatique du portugais: Difference between revisions

From HLT@INESC-ID

No edit summary
 
Line 1: Line 1:
{{TOCright}}
== Résumé ==
== Résumé ==


Line 11: Line 12:


L'objectif que nous nous somme fixé se réalise dans le cadre d'une nouvelle méthodologie pour l'étude et le traitement des langues naturelles: 5P. C'est dans ce cadre que les descriptions linguistiques formalisées seront faites et dans ce cadre également que l'on a envisagé les programmes qui, exploitant ces descriptions linguistiques, permettent de traiter les textes.
L'objectif que nous nous somme fixé se réalise dans le cadre d'une nouvelle méthodologie pour l'étude et le traitement des langues naturelles: 5P. C'est dans ce cadre que les descriptions linguistiques formalisées seront faites et dans ce cadre également que l'on a envisagé les programmes qui, exploitant ces descriptions linguistiques, permettent de traiter les textes.
== Organisation de la thèse ==
La thèse s'organise selon quatre grandes parties.
=== Mise en situation ===
La première partie est une mise en situation. Après avoir fait une mise en perspective de notre travail par rapport au panorama actuel de la linguistique informatique, nous indiquons dans les détails quel est le cadre méthodologique que nous avons adopté, le paradigme 5P, en précisant en quoi nous nous démarquons et nous nous rapprochons des grands courants existant dans le traitement des langues exposés antérieurement. Nous insisterons plus particulièrement sur deux facettes de 5P qui sont les Propriétés, lieu des descriptions linguistiques formalisées et les Processus qui s'intéressent à tout ce qui est traitement effectif en machine.
=== Descriptions linguistiques ===
La deuxième partie est constituée par les descriptions linguistiques du portugais. Nous préciserons dans un premier temps ce que nous considérons comme des catégories, en indiquant tout d'abord les critères que nous avons adoptés pour organiser les signifiants en classes. Puis, nous donnerons la forme de ces catégories et leur organisation hiérarchique. Nous remarquerons au cours de ce travail que la classification des signifiants que nous avons rencontrée dans les grammaires du portugais se fait sur des bases souvent obscures mêlant critères morphologiques, distributionnels et sémantiques. En particulier, nous montrerons que la classification des noms et adjectifs utilisée traditionnellement est source de fausses ambiguités pour l'analyse syntaxique et nous proposerons donc une alternative qui permettra d'éviter ces problèmes.
Dans un deuxième temps, les descriptions linguistiques proprement dites qui peuvent être vues comme un ensemble d'axiomes indépendants qui définissent des modèles pour les domaines syntaxiques que nous considérons (syntagmes noyaux) seront explicitées.
=== Traitements ===
La troisième partie est consacrée aux traitements. Nous verrons comment passer d'un texte Ascii (avec ou sans balises HTML) à un ensemble de syntagmes nominaux, les syntagmes nominaux présents dans ce texte initial. La chaîne des traitements est consituée de plusieurs maillons que nous détaillerons un à un. Chaque maillon accomplit un traitement particulier. Ces traitements sont les suivants:
* Segmentation et analyse morphologique
* Interface entre analyse morphologique et analyse syntxique
* Analyse syntaxique
La segmentation du texte et l'analyse morphologique est prise en charge par un outil, SMORPH (Spécifié et implanté au GRIL par S. Aït-Mokhtar), parfaitement déclaratif. En d'autres termes, à partir d'un ensemble de données déclarées pour le portugais, SMORPH est capable de délimiter dans un texte fourni en entrée les segments de ce texte et de leur associer de l'information morpho-syntaxique. Le fonctionnement de SMORPH et les données pour le portugais que nous avons dues déclarer seront explicités.
Entre l'analyse morphologique et l'analyse syntaxique, un ajustement est souvent nécessaire. En effet, certaines informations intéressantes du point de vue de la morphologie, sont parfaitement inutiles si l'on s'intéresse à la seule syntaxe. Il peut être également souhaitable de modifier pour l'analyseur syntaxique la segmentation adoptée par l'analyseur morphologique. Enfin, dans la mesure où l'on accepte dans le texte initial la présence de balises HTML, il est intéressant d'avoir la possibilité de nettoyer le texte de ces éléments extra-linguistiques, tout en étant capable, si on le souhaite, d'exploiter pour l'analyse syntaxique future l'information que véhiculent ces balises. C'est MPS (Module Post-SMORPH, spécifié par C. Hagège, G. Bès et F. Abbaci avec participation pour l'espagnol de J. Rodrigo et implanté au GRIL par F. Abbaci) qui se chargera de ces opérations d'ajustement entre SMORPH et l'analyseur syntaxique. Comme SMORPH, MPS est un outil parfaitement déclaratif pouvant donc être utilisé pour une quelconque sortie de SMORPH et produisant une entrée pour un quelconque analyseur syntaxique. Nous décrirons le fonctionnement de MPS et les données que nous avons déclarées pour le portugais.
Le traitement syntaxique est pris en charge par un analyseur spécifié et implanté dans le cadre de cette thèse, l'analyseur par les feuilles (AF). Comme SMORPH et MPS cet outil est déclaratif et l'information linguistique qu'il utilise est obtenue à partir des descriptions linguistiques faites selon notre approche (les propriétés). Nous verrons comment AF procède à l'analyse et quels sont les moyens dont nous disposons dans AF pour limiter l'explosion combinatoire du nombre d'analyses par la déclaration d'un ensemble de préférences linguistiques.
Finalement, les résultats obtenus seront évalués. Ils montreront qu'avec un investissement faible (nous disposons d'une information linguistique très réduite dans le dictionnaire de SMORPH et nous n'avons codé que 26 000 lemmes dans ce même dictionnaire, alors qu'on estime que le traitement de textes généraux du portugais nécessite environ 50 000 lemmes) on réussit à mener à bien la tâche que nous nous sommes fixée.
=== Considérations finales ===
La dernière partie contient un ensemble de considérations finales.
Dans un premier temps, nous verrons comment les descriptions linguistiques formalisées réalisées dans la deuxième partie peuvent être exploitées pour l'analyse linguistique dans un autre cadre théorique (HPSG).
Enfin, un chapitre de conclusion fera le bilan du travail effectué avec ses points positifs, ses limitations et les perspectives envisagées.


[[category:Research]]
[[category:Research]]
[[category:Theses]]
[[category:Theses]]
[[category:Doctoral Theses]]
[[category:Doctoral Theses]]

Latest revision as of 20:46, 3 July 2006

Résumé

Le thème central de cette thèse est le traitement automatique du portugais.

Plusieurs préocupations ont guidé ce travail.

  • Pouvoir traiter des textes effectivement produits.
  • Laisser une large place aux descriptions linguistiques dans la mesure où nous pensons que mieux on connaît l'objet que l'on veut traiter (la langue) meilleur sera le traitement.
  • Tenter de dissocier toujours très nettement les données linguistiques déclaratives des programmes qui vont effectuer le traitement des textes.

Nous nous sommes donné un objectif précis qui est de, à partir d'un texte brut réellement produit contenant ou non un léger balisage HTML, extraire de ce texte les syntagmes nominaux.

L'objectif que nous nous somme fixé se réalise dans le cadre d'une nouvelle méthodologie pour l'étude et le traitement des langues naturelles: 5P. C'est dans ce cadre que les descriptions linguistiques formalisées seront faites et dans ce cadre également que l'on a envisagé les programmes qui, exploitant ces descriptions linguistiques, permettent de traiter les textes.

Organisation de la thèse

La thèse s'organise selon quatre grandes parties.

Mise en situation

La première partie est une mise en situation. Après avoir fait une mise en perspective de notre travail par rapport au panorama actuel de la linguistique informatique, nous indiquons dans les détails quel est le cadre méthodologique que nous avons adopté, le paradigme 5P, en précisant en quoi nous nous démarquons et nous nous rapprochons des grands courants existant dans le traitement des langues exposés antérieurement. Nous insisterons plus particulièrement sur deux facettes de 5P qui sont les Propriétés, lieu des descriptions linguistiques formalisées et les Processus qui s'intéressent à tout ce qui est traitement effectif en machine.

Descriptions linguistiques

La deuxième partie est constituée par les descriptions linguistiques du portugais. Nous préciserons dans un premier temps ce que nous considérons comme des catégories, en indiquant tout d'abord les critères que nous avons adoptés pour organiser les signifiants en classes. Puis, nous donnerons la forme de ces catégories et leur organisation hiérarchique. Nous remarquerons au cours de ce travail que la classification des signifiants que nous avons rencontrée dans les grammaires du portugais se fait sur des bases souvent obscures mêlant critères morphologiques, distributionnels et sémantiques. En particulier, nous montrerons que la classification des noms et adjectifs utilisée traditionnellement est source de fausses ambiguités pour l'analyse syntaxique et nous proposerons donc une alternative qui permettra d'éviter ces problèmes.

Dans un deuxième temps, les descriptions linguistiques proprement dites qui peuvent être vues comme un ensemble d'axiomes indépendants qui définissent des modèles pour les domaines syntaxiques que nous considérons (syntagmes noyaux) seront explicitées.

Traitements

La troisième partie est consacrée aux traitements. Nous verrons comment passer d'un texte Ascii (avec ou sans balises HTML) à un ensemble de syntagmes nominaux, les syntagmes nominaux présents dans ce texte initial. La chaîne des traitements est consituée de plusieurs maillons que nous détaillerons un à un. Chaque maillon accomplit un traitement particulier. Ces traitements sont les suivants:

  • Segmentation et analyse morphologique
  • Interface entre analyse morphologique et analyse syntxique
  • Analyse syntaxique

La segmentation du texte et l'analyse morphologique est prise en charge par un outil, SMORPH (Spécifié et implanté au GRIL par S. Aït-Mokhtar), parfaitement déclaratif. En d'autres termes, à partir d'un ensemble de données déclarées pour le portugais, SMORPH est capable de délimiter dans un texte fourni en entrée les segments de ce texte et de leur associer de l'information morpho-syntaxique. Le fonctionnement de SMORPH et les données pour le portugais que nous avons dues déclarer seront explicités.

Entre l'analyse morphologique et l'analyse syntaxique, un ajustement est souvent nécessaire. En effet, certaines informations intéressantes du point de vue de la morphologie, sont parfaitement inutiles si l'on s'intéresse à la seule syntaxe. Il peut être également souhaitable de modifier pour l'analyseur syntaxique la segmentation adoptée par l'analyseur morphologique. Enfin, dans la mesure où l'on accepte dans le texte initial la présence de balises HTML, il est intéressant d'avoir la possibilité de nettoyer le texte de ces éléments extra-linguistiques, tout en étant capable, si on le souhaite, d'exploiter pour l'analyse syntaxique future l'information que véhiculent ces balises. C'est MPS (Module Post-SMORPH, spécifié par C. Hagège, G. Bès et F. Abbaci avec participation pour l'espagnol de J. Rodrigo et implanté au GRIL par F. Abbaci) qui se chargera de ces opérations d'ajustement entre SMORPH et l'analyseur syntaxique. Comme SMORPH, MPS est un outil parfaitement déclaratif pouvant donc être utilisé pour une quelconque sortie de SMORPH et produisant une entrée pour un quelconque analyseur syntaxique. Nous décrirons le fonctionnement de MPS et les données que nous avons déclarées pour le portugais.

Le traitement syntaxique est pris en charge par un analyseur spécifié et implanté dans le cadre de cette thèse, l'analyseur par les feuilles (AF). Comme SMORPH et MPS cet outil est déclaratif et l'information linguistique qu'il utilise est obtenue à partir des descriptions linguistiques faites selon notre approche (les propriétés). Nous verrons comment AF procède à l'analyse et quels sont les moyens dont nous disposons dans AF pour limiter l'explosion combinatoire du nombre d'analyses par la déclaration d'un ensemble de préférences linguistiques.

Finalement, les résultats obtenus seront évalués. Ils montreront qu'avec un investissement faible (nous disposons d'une information linguistique très réduite dans le dictionnaire de SMORPH et nous n'avons codé que 26 000 lemmes dans ce même dictionnaire, alors qu'on estime que le traitement de textes généraux du portugais nécessite environ 50 000 lemmes) on réussit à mener à bien la tâche que nous nous sommes fixée.

Considérations finales

La dernière partie contient un ensemble de considérations finales.

Dans un premier temps, nous verrons comment les descriptions linguistiques formalisées réalisées dans la deuxième partie peuvent être exploitées pour l'analyse linguistique dans un autre cadre théorique (HPSG).

Enfin, un chapitre de conclusion fera le bilan du travail effectué avec ses points positifs, ses limitations et les perspectives envisagées.