Modélisation thématique : cas des publications scientifiques

BELLAOUAR, Mohammed Mounsif; GHADA, Issam Eddine

Modélisation thématique : cas des publications scientifiques

BELLAOUAR, Mohammed Mounsif; GHADA, Issam Eddine

المكان (URI): https://dspace.univ-ghardaia.edu.dz/xmlui/handle/123456789/360

التاريخ: 2020

الخلاصة:

Notre société d’information est caractérisée par une surabondance d’information résultant d’une digitalisation grandissante. Généralement, cette information est sous forme de texte non étiqueté que l’on ne peut pas toujours attribuer à un certain domaine thématique. Ceci rend la tâche d’avoir une vision thématique d’une collection d’informations un défi difficile. Ainsi, il pourrait être utile de faire recours à des algorithmes non supervisés pour aborder la modélisation thématique. Une telle modélisation s’intéresse à l’analyse de texte pour capturer le sens des termes en fonction de leurs contextes dans un langage naturel. Dans notre mémoire, nous introduisons le concept de la modélisation thématique, ses approches inhérentes ainsi que ses domaines d’applications. Au niveau du travail expérimental, nous conduisons une étude comparative entre la méthode d’analyse sémantique latente (Latent Semantic Analysis, LSA) et celle d’allocaton de Dirichlet latente (Latent Dirichlet Allocation, LDA) en utilisant le corpus des articles scientifique de la conférence NIPS. Les résultats obtenus en terme de temps d’exécution et de cohérence thématique sont en faveur de la méthode LDA

عرض سجل المادة الكامل