Abstract:
Les personnes sont plus à l’aise pour utiliser la parole comme modalité de communication hommemachine. Le système de reconnaissance automatique de la parole (ASR) aide
l’utilisateur à communiquer et à échanger des informations sans utiliser de modules de saisie tels que le clavier, et permet à la machine de comprendre la parole de l’utilisateur. Au
cours des dernières années, la technologie de reconnaissance vocale s’est imposée comme
l’un des principaux moyens pour les humains d’interagir avec certains appareils mobiles et
IoT. Cela est dû aux progrès réalisés dans plusieurs domaines, comme la puissance de calcul disponible aujourd’hui grâce aux CPU/GPU multi-cœurs qui rendent l’entraînement
de modèles complexes plus puissant, et aussi l’accessibilité à beaucoup plus de données
qu’auparavant. Dans ce travail, nous explorons et étudions différentes techniques utilisées
dans le domaine de l’ASR, et pour finir, nous entraînons un modèle de réseau neuronal
sur un ensemble de données audio, puis nous examinons et discutons les résultats...People are more comfortable using speech as a modality in the human–machine communication. Automatic speech recognition (ASR) system helps user to communicate and
exchange information without using input modules such as the keyboard, and allowing the
machine to understand the user’s speech. In the recent years, speech technology started
to became one of the primary means for humans to interact with some mobile and IoT
devices. This is due to the progress made in several areas, like the computational power
available today through multi-core CPU/GPU which makes training of complex models
more powerful, and also the accessibility to much more data than before. In this work, we
explore and study different techniques used in the field of ASR. As a final step, we train
a neural network model on an audio dataset, and then examine and discuss the results.