|
|
Grâce notamment à Lingway, des progrès considérables ont été enregistrés ces dernières années dans le domaine du TAL (Traitement Automatique du Langage Naturel - Natural Language Processing (NLP) en anglais) ou de l'Ingénierie Linguistique, son autre appellation. Et ceci à partir du moment où l'on a pu décomposer le problème, trop vaste pour être abordé globalement, en plusieurs sous-problèmes, correspondant eux-même à plusieurs sous-tâches articulées entre elles. A noter, que cette décomposition est faite à la fois au niveau des ressources linguistiques (dictionnaires et règles de grammaire) et au niveau des algorithmes (analyseurs, transducteurs, …). Le cœur de la technologie Lingway KM est basé sur ces différents niveaux d'analyse, pour lesquels autant de modules spécialisés sont utilisés.
Chaque tâche peut à son tour être décomposée en sous-tâches : Les différents composants "Morphologiques" : > Tokenisation : identification des frontières de mots (simples et composés), et de phrases, Cette étape, qui a fait et fait encore l'objet de recherches importantes, est maintenant souvent considérée comme finalement moins cruciale, sachant que l'on peut déjà traiter nombre de problèmes aux deux étapes précédentes. Les différents composants "Sémantiques" : > Sélection de sens (WSD word sense disambiguation) : choix du sens de chaque mot. Cette fonctionnalité est obligatoire dans un moteur sémantique. On peut dire que c'est le facteur différenciant majeur entre un moteur sémantique et un moteur classique. Pour traiter le niveau WSD, il est indispensable d'avoir déjà réglé le niveau morphologique et au moins le niveau du chunking. > Structuration logique (ou tagging) : identification des arguments de chaque prédicat et de leur rôle sémantique (agent, but, lieu, etc.). Les différents composants "Texte" : > Résolution des anaphores : antécédents des pronoms, ellipses, références, ... |
||||


