الخلاصة:
Our era is characterized by the existence of huge amount of data. Perhaps sequence data is
among the important data types. It is used, mainly, in bioinformatics and natural language
processing applications. Consequently, a great deal of research has been devoted to sequence
data.
Sequence modelling is used to analyze intelligently sequence data. Recent studies use deep
learning approach to ameliorate the performance of sequence modelling. The present thesis
deals with speech recognition systems. Hence, we process audio data as sequences.
We first study in general artificial neural networks, and in particular recurrent neural
networks (RNN). RNN are able to handle audio data in efficient way.
To make the studied theoretical concept in practice. We conduct experimental study on
English speech using the deepSpeech2 architecture with LibriSpeech data set.
Although the limited hardware environment, the result (character error rate=27%) reveal
that DeepSpeech2 perform well with audio data especially if we use more sophisticated
hardware environment and if we tune the hyper parameter of the system. ..يتميز عصرنا بوجود كمية هائلة من البيانات. ربما تكون بيانات التسلسل من بين أنواع البيانات المهمة.
يتم استخدامها بشكل أساسي في المعلوماتية الحيوية و تطبيقات معالجة اللغة الطبيعية. وبالتالي، تم
تخصيص قدر كبير من البحث في البيانات المتسلسلة.
يتم استخدام نمذجة التسلسل لتحليل البيانات المتسلسلة بذكاء. تستخدم الدراسات الحديثة نهج التعلم العميق
لتحسين أداء نمذجة التسلسل. تتناول المذكرة الحالية أنظمة التعرف على الكالم. وبالتالي نعالج البيانات
الصوتية كتسلسالت.
بدأنا الدراسة في الشبكة العصبية االصطناعية على العموم، وخاصة الشبكة العصبية المتكررة(RNN. (
الشبكة العصبية المتكررة قادرة على التعامل مع البيانات الصوتية بطريقة فعالة.
لتطبيق الدراسة النظرية, نجري دراسة تجريبية على خطاب اللغة اإلنجليزية باستخدام بنية
DeepSpeech2 مع مجموعة بياناتLibriSpeechh .
على الرغم من أن بيئة األجهزة محدودة ، إال أن النتيجة )معدل خطأ الحرف = 27 )٪تكشف أن
.
إذا استخدمنا بيئة أكثر تطوراً
3DeepSpeech2يعمل بشكل جيد مع بيانات الصوت خاصة