Abstract:
Notre société d’information est caractérisée par une surabondance d’information résultant
d’une digitalisation grandissante. Généralement, cette information est sous forme de texte non
étiqueté que l’on ne peut pas toujours attribuer à un certain domaine thématique. Ceci rend la
tâche d’avoir une vision thématique d’une collection d’informations un défi difficile.
Ainsi, il pourrait être utile de faire recours à des algorithmes non supervisés pour aborder
la modélisation thématique.
Une telle modélisation s’intéresse à l’analyse de texte pour capturer le sens des termes en
fonction de leurs contextes dans un langage naturel.
Dans notre mémoire, nous introduisons le concept de la modélisation thématique, ses approches inhérentes ainsi que ses domaines d’applications.
Au niveau du travail expérimental, nous conduisons une étude comparative entre la méthode
d’analyse sémantique latente (Latent Semantic Analysis, LSA) et celle d’allocaton de Dirichlet
latente (Latent Dirichlet Allocation, LDA) en utilisant le corpus des articles scientifique de la
conférence NIPS.
Les résultats obtenus en terme de temps d’exécution et de cohérence thématique sont en
faveur de la méthode LDA