ملخص المحتوى
شرح طرق تقييم كفاءة خوارزميات التصنيف والتنبؤ ومعايير اختيار خوارزمية التصنيف المناسبة بحسب الاحتياج مع التوضيح بالأمثلة التطبيقية، قياس نسبة صحة خوارزميات التصنيف، شرح مشكلة اختلال التوازن في خوارزميات التصنيف، قياس الحساسية والنوعية، قياس الدقة والمثالية، قياس السرعة والمتانة وقابلية التوسع وقابلية التفسير لخوارزميات التصنيف.
المحتويات
مفهوم تقييم كفاءة خوارزميات التصنيف
بعد بناء أحد الخوارزميات نموذج تصنيف معين يمكن أن نبدأ بالتساؤل مثلا عن مدى صحة التوقع أو التنبؤ الذي يقوم به نموذج التصنيف، مثلا لو افترضنا أننا قمنا ببناء خوارزمية تصنيف تتنبأ بالسلوك الشرائي لأحد الزبائن، ولكننا نريد أن نعرف مدى صحة هذا التنبؤ الذي توفره تلك الخوارزمية، أي مدى صحة التنبؤ بإقبال أحد الزبائن على شراء منتج معين.
أو نفرض أننا قمنا ببناء أكثر من نموذج تصنيف للتنبؤ بسلوك هذا الزبون، فكيف يمكننا أن نعرف أي من هذه النماذج هو أكثر صحة وكفاءة من غيره من النماذج ويمكن الاعتماد عليه في التنبؤ الصحيح عند مقارنتهم معًا من حيث وحدات القياس المختلفة مثل مقياس الصحة والمقاييس الأخرى.
إن الإجابة على هذا السؤال يتمثل في توضيح الطرق المختلفة لتقدير مدى كفاءة خوارزميات التصنيف من خلال حساب مقياس الصحة أو مقاييس أخرى مهمة تهدف لتقدير كفاءة الخوارزميات من حيث مدى صحتها وجودتها عند استخدامها من أجل التنبؤ.
مثال لتوضيح مفهوم كفاءة خوارزميات التصنيف
في إحدى قواعد البيانات الخاصة بمبيعات الأجهزة الإلكترونية لإحدى الشركات، نفرض أنه تم بناء نموذج تصنيف مخصص يهدف للتنبؤ بمدى إقبال زبون ما على شراء جهاز كمبيوتر، وكانت مهمة نموذج التصنيف هي التوقع أو التنبؤ بتصنيف كل سجل ليكون منتمي لأحد الفئتين التاليتين:
- فئة السجلات الموجبة (بالإنجليزية: Positives) (م): وهي السجلات التي فيها (شراء كمبيوتر= نعم)
- فئة السجلات السالبة (بالإنجليزية: Negatives) (ن): وهي السجلات التي فيها (شراء كمبيوتر= لا)
وذلك بفرض أن الفئة الأساسية هنا هي فئة السجلات الموجبة، وهي الفئة التي تحتوي على كل السجلات التي يكون فيها التوقع أو التنبوء بالتصنيف أمر إيجابي، وهذا الأمر هو عملية شراء جهاز الكمبيوتر، أما الفئة السلبية فهي التي تحتوي على كل السجلات الأخرى.
ونفرض أنه تم تطبيق هذه الخوارزمية على كل السجلات الموجودة، والتي نعرف بالفعل الفئة التي ينتمون لها، وذلك من أجل التنبؤ بتلك الفئة، بحيث يتم معرفة عدد السجلات التي يتم التنبؤ بفئتها بشكل صحيح أو (بالإنجليزية: True Positives) وليكن هذا العدد يساوي (ت م)، وهو عدد السجلات الموجبة التي تم التنبؤ لها بشكل صحيح باستخدام نموذج التصنيف.
وبالمثل يكون عدد السجلات السالبة الصحيحة أو (بالإنجليزية: True Negatives) وليكن (ت ن) هو عدد السجلات السالبة التي تم التنبؤ لها بشكل صحيح باستخدام نموذج التصنيف.
وعدد السجلات الموجبة الخاطئة (بالإنجليزية: False Positives) (خ م) هو عدد السجلات السالبة التي تنبأ لها نموذج التصنيف بشكل خاطئ وألحقها بالفئة الموجبة، مثلا التنبؤ بالإقبال على شراء الكمبيوتر لأحد السجلات الذي يبين أن الزبون لم يشترِ الكمبيوتر.
وعدد السجلات السالبة الخاطئة أو (بالإنجليزية: False Negatives) (خ ن) هو عدد السجلات الموجبة التي تم اعتبارها بالخطأ سالبة مع أنها موجبة. أي أنها سجلات تنتمي لموجوعة أو فئة (شراء الكمبيوتر = نعم) وقام نموذج التصنيف بالتنبؤ لها بأنها تنتمي للفئة (شراء كمبيوتر= لا).
وضع ملخص نتائج القيم في جدول
يمكن تلخيص كل القيم السابقة في الجدول التالي:
الفئة التي تم توقعها | ||||
الفئة الصحيحة | نعم | لا | المجموع | |
نعم | ت م | خ ن | م | |
لا | خ م | ت ن | ن | |
المجموع | م “ | ن” | م + ن |
حيث تخبرنا القيم (ت م) و (ت ن) متى كان نموذج التصنيف يعمل بشكل جيد من حيث التنبؤ بسلوك الزبون، سواء من حيث الإقبال أو عدم الإقبال على الشراء. بينما تخبرنا القيم (خ م) و (خ ن) متى كان نموذج التصنيف يعمل بشكل خاطئ.
ويلاحظ من هذا النموذج بأنه يقوم بالتنبؤ مجموعتين أو فئتين فقط وهي (شراء كمبيوتر = نعم) و(شراء كمبيوتر= لا)، ويمكن توسيعه ليغطي معطيات نموذج تصنيف يتوقع أو يتنبأ بعدة فئات تصنيفية بنفس الطريقة.
نسبة صحة خوارزمية التصنيف
من خلال معرفة جميع أعداد السجلات الواردة في الجدول السابق يمكن حساب نسبة صحة (بالإنجليزية: Accuracy) خوارزمية التصنيف أو نموذج التصنيف وذلك باستخدام المعادلة التالية:
نسبة الصحة = [(ت م) + (ت ن)] / [(م) + (ن)]
أي أن نسبة صحة خوارزمية التصنيف أو (بالإنجليزية Accuracy) هي نسبة عدد السجلات التي تم تصنيفها بشكل صحيح إلى إجمالي عدد السجلات، وتسمى أحيانًا بنسبة إدارك الخوارزمية.
كما يمكن الحديث عن نسبة الخطأ (بالإنجليزية: Error Rate) في نموذج التصنيف بنفس الطريقة، بحيث يكون:
نسبة الخطأ = [(خ م) + (خ ن)] / [(م) + (ن)]
أي أنها نسبة عدد السجلات التي تم التوقع أو التنبؤ بها بشكل خاطئ باستخدام نموذج التصنيف إلى إجمالي عدد السجلات.
كما يلاحظ أن نسبة الصحة = 1 – نسبة الخطأ
مشكلة اختلال التوازن في خوارزميات التصنيف
تظهر هذه المشكلة عندما تكون الفئة المهمة التي يتم استكشافها هي الفئة النادرة، أي أن توزيع البيانات يعكس الأغلبية للفئة السالبة، والأقلية للفئة الموجبة، ومن أمثلة ذلك ما نجده في البيانات الطبية، كأن تكون الفئة النادرة مثل (الإصابة بمرض السرطان) في نموذج تصنيف تكون مهمته تحليل سجلات البيانات الطبية للمرضى، ويتم التنبؤ بأن أحد السجلات الخاص بأحد المرضى يحتمل إصابته بمرض السرطان وذلك بالإجابة بالقيمة (نعم أو لا)، وفي هذه الحالة إذا كانت مثلا نسبة الصحة هي 97% فإنها قد تجعل نموذج التصنيف يبدو وكأنه يتمتع بنسبة صحة عالية، ولكن ماذا إذا لم يكن في قاعدة البيانات غير 3% فقط من السجلات المصابة بالفعل بمرض السرطان؟
من الواضح في هذه الحالة بأن نسبة الصحة 97% قد لا تكون مقبولة بشكل كافٍ أو مُقنع، حيث أنه من الممكن أن يكون هذا النموذج، مثلا، قادرًا على التصنيف الصحيح للسجلات التي لا تحتوي على الإصابة بمرض السرطان وبنفس الوقت يكون ضعيفًا أو غير قادر على تصيف السجلات التي تحتوي على الإصابة بالمرض فعلا.
الحاجة لأنواع أخرى من مقاييس كفاءة خوارزميات التصنيف
ومن هذه المنطلق تظهر لنا الحاجة لأنواع أخرى من مقاييس الكفاءة التي تُبين لنا مدى جودة نموذج التصنيف وقدرته على تمييز أو إدراك القيم الموجبة (السرطان = نعم) ومدى قدرته على إدراك السجلات ذات القيم السالبة (السرطان = لا). وهذه المقاييس الجديدة يتم التعبير عنها بمصطلحات كل من الحساسية والنوعية أو (بالإنجليزية: Sensitivity and Specificity)، وهي مقاييس يتم استخدامها من أجل هذا الغرض على الترتيب.
قياس كفاءة خوارزميات التصنيف من حيث الحساسية والنوعية
الحساسية (بالإنجليزية: Sensitivity) = (ت م) / (م)
النوعية (بالإنجليزية: Specificity) = (ت ن) / (ن)
كما أنه يمكن استنتاج أن نسبة الصحة يمكن التعبير عنها بدلالة الحساسية والنوعية من خلال المعادلة التالية:
نسبة الصحة = الحساسية × [(م) / (م) + (ن)] + النوعية × [(ن) / (م) + (ن)]
مثال توضيح قياس الحساسية والنوعية
الجدول التالي يوضح ملخص تجميعي لنتائج تصنيف سجلات بيانات طبية، وقيم فئات التصنيف في النموذج المستخدم هي (نعم و لا) والتي تعبر عن المتغير أو السمة (الإصابة بمرض السرطان):
الفئات | نعم | لا | المجموع | التقدير % |
نعم | 90 | 210 | 300 | 30.00 |
لا | 140 | 9560 | 9700 | 98.56 |
المجموع | 230 | 9770 | 10000 |
ومن هذا الجدول يمكن حساب القيم التالية:
الحساسية = 90 / 300 = 30%
النوعية = 9560 / 9700 = 98.56%
ونسبة الصحة للنموذج = 9650 / 10000 = 96.5%
وبالتالي فإنه في هذا النموذج، وبالرغم من أنه يمتلك نسبة صحة عالية إلاّ أن قدرته على التنبؤ بالقيم الموجبة، والتي تناظر هنا الفئة النادرة، هي قدرة ضعيفة، وهو ما بيّنه قياس الحساسية بقيمة (30%)، ومع ذلك فإن هذا النموذج يمتلك قيمة نوعية مرتفعة، وهو ما يعني أنه يمكنه التنبؤ بكفاءة عالية بالقيم السلبية، وبمعنى آخر فإنه يمكن الوثوق بشكل أكبر في قدرة هذا النموذج على التنبؤ بعدم الإصابة بمرض السرطان من الثقة في قدرته على التنبؤ بالإصابة به.
قياس كفاءة خوارزميات التصنيف من حيث الدقة والمثالية
قياس الدقة
إن مقياس الدقة (بالإنجليزية: Precision) يُستخدم كثيرًا في نماذج التصنيف، والدقة هي نسبة عدد السجلات الموجبة التي يتم التنبؤ لها وتصنيفها بشكل صحيح إلى إجمالي عدد السجلات الموجبة التي يتم التنبؤ لها بشكل صحيح أو خاطئ.
أو بالرموز:
الدقة = (ت م) / [(ت م) + (خ م)]
قياس المثالية
قياس المثالية أو (بالإنجليزية: Recall) هي نسبة السجلات الموجبة التي تم التنبؤ لها وتصنيفها بشكل صحيح إلى كل السجلات الموجبة، أي أنها نفس قيمة الحساسية.
أو بالرموز:
المثالية = (ت م) / (م)
ففي المثال السابق يكون لدينا:
الدقة = 90 / 230 = 39.13 %
المثالية = 90 / 300 = 30 %
مقاييس أخرى للتعبير عن كفاءة خوارزميات التصنيف
توجد بعض المقاييس الأخرى التي يمكن أن تُستخدم في تقييم خوارزميات التصنيف بطرق تقديرية من منظور كل مستخدم لها وبحسب البرمجيات المستخدمة في إنشاءها، وهي كما يلي:
سرعة الخوارزمية
سرعة الخوارزمية أو (بالإنجليزية: Speed)، هي تقدير لكمية وسرعة العمليات الحاسوبية التي اُستخدمت لتوليد وتطبيق خوارزمية التصنيف.
متانة الخوارزمية
متانة الخوارزمية (بالإنجليزية: Robustness) هي قدرة نموذج التصنيف على عمل التنبؤات الصحيحة عندما يكون هناك بيانات مزعجة أو بيانات مفقودة في قاعدة البيانات، ويتم تقييم هذا المقياس باستخدام معاملات تعبر عن درجة الإزعاج المتوفرة في البيانات وكمية البيانات المفقودة.
قابلية التوسع
وقابلية التوسع للخوارزمية أو (بالإنجليزية: Scalability) هي قدرة نموذج التصنيف على التعامل مع كميات أكبر من البيانات بنفس الكفاءة.
قابلية التفسير
وقابلية التفسير للخوارزمية أو (بالإنجليزية: Interpret-Ability) هي مدى الفهم للتركيب الداخلي لبنية نموذج التصنيف أو التنبؤ، وهو مقياس موضوعي وليس مقياس عددي، ففي شجرة القرار مثلا كلما كانت شجرة القرار أكثر تعقيدًا يكون مقياس قابلية التفسير لها بقيمة أقل، وهكذا.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى فؤاد عبيد، الطبعة الأولى، دار الفكر العربي، القاهرة، جمهورية مصر العربية، 2017م.