الخلاصة:
La forte augmentation de texte disponible en format numérique a fait ressortir la
nécessité de concevoir et de développer des outils de traitement automatique du texte
dans le but d’extraire l’information pertinente. Les textes arabes ne font pas exception
quant à leur disponibilité. Cependant le développement d’outils de traitement pour la
langue arabe n’a pas suivi la même allure comme pour les autres langues.
De plus, la phase de prétraitement du texte est considérée comme l’entrée principale de la
plupart des applications et tâches de traitement automatique de langue naturelle (TALN)
qui est l’une des branches importantes de l’intelligence artificielle.
Comme contribution au développement d’outil pour le TALN arabe, notre objectif consiste
à développer un flux de prétraitement du texte arabe. Pour ce faire nous développons
des nœuds dans la plate-forme KNIME (Konstanz Information Miner) qui s’occupe de
filtrage des mots vides, de ponctuations des caractères non arabe et essentiellement de la
racinisation.
En fin nous montrons la validité de notre flux de prétraitement du texte arabe en l’intégrant
dans une tâche de classification de texte. Les résultats révèlent que le prétraitement du
texte arabe contribue à l’amélioration des tâches de l’apprentissage automatique