Morfetik

Une ressource lexicale pour le traitement automatique du langage

La ressource lexicale Morfetik est un dictionnaire morphologique des mots simples et composés du français (noms, adjectifs, déterminants, pronoms, verbes, adverbes, prépositions, conjonctions, interjections, locutions, etc.). Morfetik permet d'obtenir, pour n'importe quel mot français, l'ensemble de ses formes (pluriel des noms, féminin et pluriel des adjectifs, formes conjuguées des verbes, etc.), ou bien, réciproquement, d'identifier le mot (la forme de base, le "lemme") correspondant à n'importe quelle forme fléchie. Morfetik constitue un ensemble évolutif destiné à s'enrichir progressivement afin d'améliorer la chaîne de traitement des données textuelles.

Un dictionnaire classique recense les lemmes d'une langue mais non les formes de ce lemme. Ainsi, quand cette langue est flexionnelle comme le français, l'entrée du dictionnaire se fait au moyen d'une forme dite « canonique » : par exemple pour les noms : au singulier (« chevaux » → « cheval »), pour les verbes : à l'infinitif (« finissons » → « finir »), etc. Une langue flexionnelle est une langue dans laquelle les mots (lemmes) changent de forme selon leur rapport grammatical aux autres mots, dans une phrase. De nombreux mots sont variables : ils changent de forme selon le contexte d'usage. On dit d'eux qu'ils subissent le jeu de la flexion et les formes sont dites fléchies.

Le moteur de flexion Morfetik peut ainsi produire l’ensemble des formes fléchies d’un mot (pluriel des noms, féminin et pluriel des adjectifs, formes conjuguées des verbes, etc.) mais peut également être exploité pour reconnaître des formes inconnues (la forme de base, le "lemme"). Par exemple, si l'on saisit la forme joues, on obtiendra les 3 réponses suivantes :

  • joue, nom féminin, pluriel
  • jouer, verbe à l’indicatif présent, 2e personne du singulier
  • jouer, verbe au subjonctif présent, 2e personne du singulier
En cliquant sur le mot jouer, on obtiendra toute sa conjugaison.

Le système ainsi conçu permet de générer automatiquement l’ensemble des formes simples et complexes du français, d’apporter des informations sémantiques lorsque cela est nécessaire (domaines, par exemple), de contexte (analyse et suivi du mot dans la presse), etc.

Chiffres

Total des graphies Total des valeurs (compte tenu des homographies)
248 576 1 058 628
Type de graphie Nombre de graphies Nombre de valeurs
Noms simples 70 053 138 781
Noms composés 131 916 265 678
Verbes 10 232 514 507
Adjectifs simples 24 407 97 031
Adjectifs composés 9 524 40 188
Type de graphie Nombre de graphies/valeurs
Adverbes 1 898
Pronoms 123
Déterminants 141
Autres graphies 282