DSpace Repository

Word embedding based query expansion for information retrieval system

Show simple item record

dc.contributor.author DAOUDI, Fatima Zohra
dc.contributor.author MAHFOUD, Djamila
dc.date.accessioned 2022-11-06T09:24:31Z
dc.date.available 2022-11-06T09:24:31Z
dc.date.issued 2022
dc.identifier.uri http://dspace.univ-ghardaia.dz:8080/xmlui/handle/123456789/2330
dc.description.abstract One of the main issues associated with information retrieval systems is the query–document vocabulary mismatch problem. Query Expansion (QE) is one of the well-known alternative for overcoming this problem. It mainly involves finding synonyms or related words for the query terms. There are several approaches in the query expansion field such as statistical and semantic approaches ; they focus on expanding the individual query terms rather than the entire query during the expansion process. An other category of approaches deals with the whole query by using a neural approach based on Pseudo Relevance feedback (PRF) documents. In this work, we carried out an ablation study to measure the impact of the classical and semantic (word embedding, order, context) based query expansion on the retrieval performance. The experiments conducted on the Arabic EveTAR dataset reveal that our hybrid proposed approach combining classical (PRF) and transformer (AraBERT) is competitive with the sate-of-the-art methods. In fact, the obtained result in terms of the Mean Average Precision (MAP) is up to 0.72. We expect that this result can be highly improved if we can overcome the problems related to the computation resources and the specialized dataset access...من القضايا الرئيس ية المرتبطة بأ نظمة استرجاع المعلومات هي مشكلة عدم تطابق المفردات بين الاس تعلام والمستند. يعد توس يع الاس تعلام ( )QEأحد البدائل المعروفة للتغلب على هذه المشكلة. يتضمن بشكل لمر أساسي العثور على ا ادفات أو الكلمات ذات الصلة لمفردات الاس تعلام. هناك العديد من ا لساليب في مجال ثلم توس يع الاس تعلام ا لساليب ا إ لحصائية والدللية والتي تركز معظمها على توس يع مصطلحات الاس تعلام الفردية بد ً ل من الاس تعلام بالكامل أثناء عملية التوس يع. هناك فئة أخرى من المناهج تتعامل مع الاس تعلام بالكامل باس تخدام نهج عصبي يعتمد على مستندات التغذية الراجعة الزائفة ( .)PRFفي هذا العمل، أجرينا دراسة الاجتثاث ( )Ablation Studyلقياس تأ ثير توس يع الاس تعلام المستند إالى الكلمات الكلاس يكية والدللت (تضمين الكلمة، الترتيب، الس ياق) على أداء الاسترجاع. كشفت التجارب التي أجريت على مجموعة بيانات EveTARالعربية أن نهجنا الهجين المقترح الذي يجمع بين النهج الكلاس يكي ( )PRFوالمحول ( )AraBERTمنافس للطرق الحديثة. في الواقع، النتيجة التي تم الحصول عليها من حيث متوسط الدقة ( )MAPتصل إالى .0.72نتوقع أنه يمكن تحسين هذه النتيجة بشكل كبير إاذا تمكنا من التغلب على المشكلات المتعلقة بموارد الحوس بة والوصول إالى مجموعة البيانات المتخصصة EN_en
dc.publisher université Ghardaia EN_en
dc.subject Information retrieval, Pseudo relevance feedback, Query expansion, Word embedding, Transformer, AraBERT EN_en
dc.subject استرجاع المعلومات، التعليقات ذات الصلة الزائف ة، توAraBERTس يع الاس تعلام ، تضمين الكلمات ، المحولت ، EN_en
dc.title Word embedding based query expansion for information retrieval system EN_en
dc.type Thesis EN_en


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account