Fermer le plan
Version imprimable Suggérer par mail
Image  INGENIERIE LINGUISTIQUE (TAL)


Grâce notamment à Lingway, des progrès considérables ont été enregistrés ces dernières années dans le domaine du TAL (Traitement Automatique du Langage Naturel - Natural Language Processing (NLP) en anglais) ou de l'Ingénierie Linguistique, son autre appellation. Et ceci à partir du moment où l'on a pu décomposer le problème, trop vaste pour être abordé globalement, en plusieurs sous-problèmes, correspondant eux-même à plusieurs sous-tâches articulées entre elles.


A noter, que cette décomposition est faite à la fois au niveau des ressources linguistiques (dictionnaires et règles de grammaire) et au niveau des algorithmes (analyseurs, transducteurs, …).

Le cœur de la technologie Lingway KM est basé sur ces différents niveaux d'analyse, pour lesquels autant de modules spécialisés sont utilisés.


 Aujourd'hui on distingue principalement 5 niveaux d'analyse :


1- Le niveau morphologique : identification des mots d'une phrase,

En savoir plus

2- le niveau syntaxique : identification des constituants et des fonctions d 'une phrase,

En savoir plus

3- le niveau sémantique : identification du sens des mots et de la structure logique d'une phrase,

En savoir plus

4- le niveau du texte : identification des relations entre les phrases et de la structure d'un texte,

En savoir plus

5- le niveau du corpus : identification de la structure d'un ensemble de textes.

En savoir plus




Chaque tâche peut à son tour être décomposée en sous-tâches :


Les différents composants "Morphologiques" :

> Tokenisation : identification des frontières de mots (simples et composés), et de phrases,

> Tagging
: identification de la catégorie - nom, verbe, adjectif - de chaque mot,

> Lemmatisation
: identification de la forme canonique (ou lemme) dans le dictionnaire.

Les différents composants "syntaxiques" :

> Analyse surfacique
(ou chunking) : identification des frontières majeures de constituants (groupe nominal, verbal, etc.) et/ou des relations majeures entre les mots,

> Etiquetage fonctionnel
(ou tagging) : affectation de fonctions grammaticales aux constituants,

> Analyse syntaxique totale
(ou parsing) : construction d'un arbre représentant la structure de la phrase complète.


Cette étape, qui a fait et fait encore l'objet de recherches importantes, est maintenant souvent considérée comme finalement moins cruciale, sachant que l'on peut déjà traiter nombre de problèmes aux deux étapes précédentes.


Les différents composants "Sémantiques" :

> Sélection de sens (WSD word sense disambiguation) : choix du sens de chaque mot.


Cette fonctionnalité est obligatoire dans un moteur sémantique. On peut dire que c'est le facteur différenciant majeur entre un moteur sémantique et un moteur classique.

Pour traiter le niveau WSD, il est indispensable d'avoir déjà réglé le niveau morphologique et au moins le niveau du chunking.

> Structuration logique (ou tagging) : identification des arguments de chaque prédicat et de leur rôle sémantique (agent, but, lieu, etc.).


Les différents composants "Texte" :

> Résolution des anaphores : antécédents des pronoms, ellipses, références, ...

> Détermination de la structure rhétorique
: commentaires, explications, causalités, ...

> Détermination de la structure thématique
: de quels sujets le texte traite-t-il ?


Les différents composants "Corpus" :

> Détermination de la nature des documents
: article de presse, article technique, texte réglementaire, brochure commerciale, …

> Structure thématique du corpus
(ou tagging) : de quels sujets le corpus traite-t-il ?

La plupart des ces tâches correspondent à des sous-disciplines de la linguistique. Du point de vue de l'ingénierie du TALN, elles correspondent à composants spécifiques qui ont chacun besoin d'un type de ressources linguistiques et d'un type d'algorithmique particulier.