Abstract:
Nous vivons à l’époque de la révolution de l’information et de l’explosion numérique, qui exige un travail
acharné et des efforts considérables pour gérer ce torrent de données. Ces données varient dans de nombreux
types, notamment : numériques, textes, audio, vidéo, photo , etc.
Dans ce mémoire, nous faisons référence aux noms propres, qui sont très utilisés posent de nombreux problèmes
et défis, y compris le problème de la similarité des noms propres.
Pour traiter la problématique posée, nous avons utilisé la technique de phonétique comme traitement initial
des noms afin de standardiser l’écriture des noms propres arabes en langue française, puis avons appliqué la
technique d’alignement des séquences afin de mesurer la similarité de ces écritures.
Sur le plan pratique, nous avons choisi le langage de programmation C# pour implémenter la solution et créer
une application qui traiter la problématique posée. Et nous avons testé cette application sur une base de données
que nous avons créée à partir de données administratives de notre wilaya de Ghardaia.
Nous avons eu des résultats judicieux avec une précision de 77% avec un seuil d’acceptation égale à 40%, peut
être améliorer par un étude approfondi ....We live in the age of the information revolution and the digital explosion, which requires hard work and
considerable effort to manage this torrent of data.
These data vary in many types, including : digital, text, audio, video, photo, etc. In this thesis, we refer to
personnel names, which are widely used and this type of data poses many problems and challenges, including
the problem of the similarity.
To deal with the problematic, we used the phonetic technique as initial name processing to standardize the writing of Arabic proper nouns in French, then applied the sequence alignment technique to measure the similarity
of these scripts.
. In practice, we chose the C# programming language to implement the solution and create an application that
addresses the problem. And we tested this application on a dataset that we created from the administrative’s
data of the wilaya of Ghardaia.
We had good results to a precision of 77% with an acceptance threshold equal to 40%, can be improved by a
thorough study