الخلاصة:
One of the main issues associated with information retrieval systems is the query–document vocabulary
mismatch problem. Query Expansion (QE) is one of the well-known alternative for overcoming this
problem. It mainly involves finding synonyms or related words for the query terms. There are several
approaches in the query expansion field such as statistical and semantic approaches ; they focus on
expanding the individual query terms rather than the entire query during the expansion process. An
other category of approaches deals with the whole query by using a neural approach based on Pseudo
Relevance feedback (PRF) documents. In this work, we carried out an ablation study to measure
the impact of the classical and semantic (word embedding, order, context) based query expansion on
the retrieval performance. The experiments conducted on the Arabic EveTAR dataset reveal that our
hybrid proposed approach combining classical (PRF) and transformer (AraBERT) is competitive with
the sate-of-the-art methods. In fact, the obtained result in terms of the Mean Average Precision (MAP)
is up to 0.72. We expect that this result can be highly improved if we can overcome the problems
related to the computation resources and the specialized dataset access...من القضايا الرئيس ية المرتبطة بأ نظمة استرجاع المعلومات هي مشكلة عدم تطابق المفردات بين الاس تعلام
والمستند. يعد توس يع الاس تعلام ( )QEأحد البدائل المعروفة للتغلب على هذه المشكلة. يتضمن بشكل
لمر
أساسي العثور على ا ادفات أو الكلمات ذات الصلة لمفردات الاس تعلام. هناك العديد من ا لساليب في مجال
ثلم
توس يع الاس تعلام ا لساليب ا إ لحصائية والدللية والتي تركز معظمها على توس يع مصطلحات الاس تعلام
الفردية بد ً ل من الاس تعلام بالكامل أثناء عملية التوس يع. هناك فئة أخرى من المناهج تتعامل مع الاس تعلام
بالكامل باس تخدام نهج عصبي يعتمد على مستندات التغذية الراجعة الزائفة ( .)PRFفي هذا العمل، أجرينا
دراسة الاجتثاث ( )Ablation Studyلقياس تأ ثير توس يع الاس تعلام المستند إالى الكلمات الكلاس يكية
والدللت (تضمين الكلمة، الترتيب، الس ياق) على أداء الاسترجاع. كشفت التجارب التي أجريت على مجموعة
بيانات EveTARالعربية أن نهجنا الهجين المقترح الذي يجمع بين النهج الكلاس يكي ( )PRFوالمحول
( )AraBERTمنافس للطرق الحديثة. في الواقع، النتيجة التي تم الحصول عليها من حيث متوسط الدقة
( )MAPتصل إالى .0.72نتوقع أنه يمكن تحسين هذه النتيجة بشكل كبير إاذا تمكنا من التغلب على المشكلات
المتعلقة بموارد الحوس بة والوصول إالى مجموعة البيانات المتخصصة