دائماً نبحث عن الأغاني التي نحبها ونستمتع بالاستماع إليها من دون أن نفكر إذا كان هذا الإعجاب يعود لموسيقا الأغنية أم كلماتها أم هي حالة الدمج بينهما، وعليه فإن تحسين خوارزميات تصنيف الحالة الشعورية للأغاني باستخدام أنموذج دمج الكلمات والخصائص الصوتية بالاعتماد على التعلم العميق وتعلم الآلة، يشكل دراسة جديدة في عالم البحث ما وراء الاهتمام بالأغنية وتحسين الحالة المزاجية.

مؤلفة هذا البحث هي المهندسة لايا كفاح البشلاوي والدكتور المشرف محمد بسام الكردي من كلية الهندسة المعلوماتية بجامعة دمشق استخدما كلمات مفتاحية للتعريف بما تهدف إليه الدراسة من تصنيف (مزاج الأغاني، معالجة اللغات الطبيعية، الذاكرة الطويلة-القصيرة الأمد، تعلم الآلة،، التعلم العميق) بهدف دراسة العلاقة بين الموسيقا والعاطفة.

تحديد المزاج

من خلال ملخص بسيط يرى الباحثان أن مجال التعرف على العواطف الموسيقية مفيد في فهم الموسيقا واسترجاع المعلومات الموسيقية. ففي هذا البحث قاما باقتراح أنموذج model جديد لتصنيف الحالة الشعورية للأغاني بالاعتماد على دمج عدة مصنفات مع بعضها ضمن أنموذج شامل Fusion Model. جرى بعدها استخلاص ثلاث مدخلات من كل أغنية؛ حيث كان الدخل الأول هو عبارة عن خرج مصنف مزاج الأغاني بالاعتماد على كلمات الأغنية؛ حيث خضعت هذه الكلمات لمعالجة تحضيرية للنص، وقد تم استخدام خوارزمية Random Forest لتحديد مزاج الأغنية. وفي الدخل الثاني هو خرج مصنف مزاج الأغاني بالاعتماد على الخصائص الصوتية حيث جرى استخلاص مجموعة من الخصائص الصوتية، ومن ثم استخدمت خوارزمية SVM لتحديد مزاج الأغنية. وبالنسبة إلى الدخل الثالث يأتي من مصنف الأغاني بالاعتماد على الجمل Sentences وعليه تم استخلاص الجمل المكونة للأغنية، وقد خضعت هذه الجمل لمعالجة تحضيرية للنص، ومن ثم تم استخدام خوارزمية Bidirectional LSTM مع مجموعة قيود لتحديد مزاج الأغنية.

خوارزميات

دقة عالية

جاءت فكرة البحث من خلال الحالة الشعورية التي يعيشها الأشخاص عند سماع أغنية معينة، فإذا كانت هذه الأغنية حزينة أم سعيدة فهي تعبر عن حالة شعورية معينة وتحوي على موسيقا، وبالتالي ما هي العوامل التي ولدت الحالة الشعورية، هل هي الموسيقا أم الكلمات، أم هي جميع هذه العوامل معاً؟ وعليه فإن نظام تصنيف الحالة الشعورية للأغاني وفقاً للبحث هو نظام يحدد الحالة الشعورية لأغنية ما. وخاصة أن هناك العديد من الدراسات التي سبقت هذه الدراسة، ولكنها ركزت على الخصائص الصوتية فقط من دون المدخلات الأخرى المتعلقة بالكلمات والموسيقا والجمل.

تبين المهندسة لايا أنه في النهاية جرى أخذ هذه المدخلات الثلاثة والتي هي عبارة عن خرج المصنفات السابقة إلى مصنف الدمج لتحديد التصنيف النهائي، حيث أرسل كل مصنف أربعة قيم تمثل احتمالية مزاج الأغنية (happy sad, angry, relax,) من وجهة نظر المصنف، وقام مصنف الدمج بتحليل جميع المدخلات باستخدام خوارزمية Random Forest ومن ثم قام بتحديد التصنيف النهائي. وقد حقق هذا النهج المقترح فعالية أكبر ودقة أفضل، وصلت إلى بيانات الاختبار إلى 97%. وهذا دليل على كفاءة التصنيف.

التقنيات المستخدمة

تم استخدام تقنيات التعلم العميق في ترتيب البيانات؛ حيث إن التعلم الآلي هو أحد مجالات الذكاء الصناعي الذي يعمل على إيجاد علاقات بين البيانات. أما الخوارزميات المستخدمة في الدراسة، فهي تعتمد على إيجاد حد بين البيانات مع التركيز على أنواع البرامج. والخوارزمية الثانية التي تعتمد على استخدام أكثر من قرار وعلى مبدأ الانتخاب لتحديد القرار السليم. وتم استخدام التعليم العميق بالاعتماد على الشبكات التكرارية باستخدام شبكات STM والتي تحوي على الذاكرة وتقوم بالعودة إلى الكلمات السابقة، ومن ثم تأخذ الكلمة التالية في الجملة. كما تم استخدام التقنيات الخاصة بتحليل المشاعر من خلال الحصول على البيانات ومعالجة النص بتقنيات معالجة النصوص واستخلاص السمات.

وبينت الباحثة لانا أنهم استخدموا ثلاثة أنواع من البيانات ومنها البيانات الصوتية من خلال داتا تحتوي على مليون و200 ألف أغنية، مع مستخرج البيان الصوتي منها من أجل تصنيف الكلمات، وتم استخدام قاعدة بيانات تحوي على الكلمات، وهناك داتا خاصة تحوي على الجمل من أجل تصنيفها ضمن الحالة الشعورية.

المنهجية المقترحة

انطلاقاً من الأغنية يتم استخلاص السمات الصوتية، ومن ثم يتم استخلاص الكلمات كل كلمة على حدة، وبعدها يتم استخلاص الجمل، ومن خلال السمات الصوتية تم التدريب على مصنف تعليم SVM وتم معالجة الكلمات والجمل من خلال إدخالها على الشبكة العصبية وتطبيق مجموعة قيود معتمدة عليها. وبالحديث عن كل مصنف على حدة نجد أن مصنف مزاج الأغاني يعتمد على الخصائص الصوتية لها. ويقصد بذلك الصوتيات التي تحتويها الأغنية، فهناك مجموعة من السمات الصوتية الأكثر أهمية يحددها الإيقاع وسرعة الأغنية وقوة الصوت والتي تمثل إيجابية الأغنية.

وتبين الشلاوي: أن تصنيف الأغاني بالاعتماد على الكلمات يتم باستخراجها عن طريق مجموعة محركات بحث وتتم معالجتها وأخذ أفضل السمات منها. وفي هذا البحث تم أخذ عشرة آلاف سمة ليتم إدخالها إلى الُمُصنف. كما تم التركيز على المشاعر بالاعتماد على الجملة الكاملة من خلال محركات البحث ومعالجة النص بالكامل واستخلاص السمات، ومن ثم إدخالها على الشبكة العصبية. ومنها تم الحصول على أربع أنواع من الأمزجة. وعند دمج المصنفات الثلاثة، نجد أن خرج كل منها هو دخل لمصنف رانكوفريست فنحصل على دقة 97% وهي دقة عالية جداً مقارنة مع بعض النتائج التي وصلت إليها بعض الدراسات، والتي اعتمدت على الكلمات فقط أو الخصائص الصوتية المدموجة معها. وأشارت إلى أن البحث هو أنموذج لتصنيف الحالة الشعورية للأغاني بالاعتماد على دمج عدة مصنفات مع بعضها البعض، وقد حقق فعالية أكبر في التصنيف. وهذه الدراسة تفوقت على جميع الدراسات السابقة.