Etude de similarit ´ e des s ´ equences ´ “cas des noms propres”

MOULAY OMAR, Khaled; TOUATI, Abdallah

Etude de similarit ´ e des s ´ equences ´ “cas des noms propres”

MOULAY OMAR, Khaled; TOUATI, Abdallah

URI: https://dspace.univ-ghardaia.edu.dz/xmlui/handle/123456789/552

Date: 2019

Abstract:

Nous vivons à l’époque de la révolution de l’information et de l’explosion numérique, qui exige un travail acharné et des efforts considérables pour gérer ce torrent de données. Ces données varient dans de nombreux types, notamment : numériques, textes, audio, vidéo, photo , etc. Dans ce mémoire, nous faisons référence aux noms propres, qui sont très utilisés posent de nombreux problèmes et défis, y compris le problème de la similarité des noms propres. Pour traiter la problématique posée, nous avons utilisé la technique de phonétique comme traitement initial des noms afin de standardiser l’écriture des noms propres arabes en langue française, puis avons appliqué la technique d’alignement des séquences afin de mesurer la similarité de ces écritures. Sur le plan pratique, nous avons choisi le langage de programmation C# pour implémenter la solution et créer une application qui traiter la problématique posée. Et nous avons testé cette application sur une base de données que nous avons créée à partir de données administratives de notre wilaya de Ghardaia. Nous avons eu des résultats judicieux avec une précision de 77% avec un seuil d’acceptation égale à 40%, peut être améliorer par un étude approfondi ....We live in the age of the information revolution and the digital explosion, which requires hard work and considerable effort to manage this torrent of data. These data vary in many types, including : digital, text, audio, video, photo, etc. In this thesis, we refer to personnel names, which are widely used and this type of data poses many problems and challenges, including the problem of the similarity. To deal with the problematic, we used the phonetic technique as initial name processing to standardize the writing of Arabic proper nouns in French, then applied the sequence alignment technique to measure the similarity of these scripts. . In practice, we chose the C# programming language to implement the solution and create an application that addresses the problem. And we tested this application on a dataset that we created from the administrative’s data of the wilaya of Ghardaia. We had good results to a precision of 77% with an acceptance threshold equal to 40%, can be improved by a thorough study

Show full item record