الخلاصة:
De nos jours, l’explosion de données due au développement technologique, d’une part, et la facilité d’accès
à cet énorme quantité de données, d’autre part, ont rendu le phénomène de plagiat plus grave. Par ailleurs
la langue arabe compte parmi les langues les plus utilisées dans le monde et sa présence dans le Web
croit d’une manière exponentielle. D’où la nécessité de développement d’outils efficaces pour la détection du
plagiat du texte Arabe. Nous commençons par l’étude de plusieurs techniques de détection de plagiat du texte
Arabe tout en se focalisant sur celles se basant sur l’aspect sémantique, notamment l’incorporation de mots
(word embedding). Dans l’optique de cette étude bibliographique, nous proposons un système de détection de
plagiat du texte Arabe se reposant sur l’utilisation de la nouvelle technologie des transformateurs (AraBERT)
dans un réseau neuronal siamois. Dans le but d’évaluer notre système, nous utilisons le corpus ExAra.
Malgré que les résultats sont encore prématurés, nous conjecturons que notre système peut être amélioré
en considérant l’utilisation d’autres datasets plus larges et le réglage (fine-tuning) de notre transformateur
AraBERT...في الوقت الحاضر، أدى انفجار البيانات بسبب التطور التكنولوجي، من ناحية، وسهولة الوصول إلى هذا الكم
الهائل من البيانات، من ناحية أخرى، إلى جعل ظاهرة النتحال أكثر خطورة. علاوة على ذلك، تعد اللغة
يد
العربية واحدة من أكثر اللغات استخدا ً ما في العالم ويتزا حضورها على الويب بشكل كبير. ومن هنا تأتي
الحاجة إلى تطوير أدوات فعالة لكشف السرقات الأدبية للنص العربي. ندرس عدة تقنيات للكشف عن
النتحال في النص العربي مع التركيز على الجانب الدللي، ول سيما تضمين الكلمات. في منظور هذه الدراسة
الببليوغرافية، نقترح نظا ً ما للكشف عن سرقة النص العربي يعتمد على استخدام تقنية المحولت الجديدة
) (AraBERTفي شبكة عصبية سيامية. من أجل تقييم نظامنا، نستخدم مجموعة .ExAraعلى الرغم من أن
النتائج ل تزال سابقة لأوانها، فإننا نعتقد أنه يمكن تحسين نظامنا من خلال التفكير في استخدام مجموعات
لمحول
البيانات الأكبر الأخرى والضبط الدقيق AraBERTالخاص بنا