التصنيف باستخدام نظرية الاحتمالات

ملخص المحتوى

شرح وتبسيط نظرية الاحتمالات أو النظرية الافتراضية واستخدامها في خوارزميات التصنيف في تنقيب البيانات مع توضيح الخطوات العملية بالأمثلة التطبيقية المبسطة المستخدمة في التصنيف باستخدام نظرية الاحتمالات.

المقصود بـ التصنيف باستخدام نظرية الاحتمالات

التصنيف باستخدام نظرية الاحتمالات أو النظرية الافتراضية، هي طريقة تصنيف إحصائية وتعتمد فكرتها على بناء الاحتمالات، وذلك من خلال التنبوء باحتمال أن ينتمي سجل من سجلات قاعدة البيانات لفئة محددة، وتستند هذه الطريقة في التصنيف على النظرية الافتراضية ويُستفاد منها في تحليل البيانات الضخمة المخزنة في قواعد البيانات.

وسوف يتم بداية إلقاء نظرة على نظرية الاحتمالات أو النظرية الافتراضية.

نظرية الاحتمالات أو النظرية الافتراضية

نظرية الاحتمالات أو النظرية الافتراضية (بالإنجليزية: Bayes Theory)، وتعرف باسم العالم “بايز” (Bayes)، وقد وضعها في القرن الثامن عشر، ويمكن توضيحها من خلال المثال التالي:

مثال توضيحي

لو افترضنا أنه لدينا قاعدة بيانات فيها عدد كبير من السجلات، وأن (أ) هو أحد السجلات فيها، وأن هذا السجل معرّف بعدد (ن) من السمات المحددة (بالإنجليزية: Attributes)، وأن (ف) هي إحدى الفرضيات التي يمكن التعبير عنها رياضيًا أو بأشكال فن للمجموعات، مثل فرضية أن ينتمي السجل (أ) إلى فئة معينة.

ومن أجل تطبيق عمليات التصنيف فإن المطلوب حساب احتمال صحة هذه الفرضية، والذي يتم التعبير عنه رياضيًا بالرمز ح[(ف)/(أ)]، أي ما هو احتمال صحة فرضية أن ينتمي السجل (أ) للفئة (ف) إذا علمنا السمات التي تصف السجل (أ).

مثال تطبيقي

لتوضيح نظرية الاحتمالات واستخدامها في التصنيف بشكل تطبيقي، ليكن لدينا قاعدة بيانات مبيعات محل الأجهزة الإلكترونية وفيها بيانات الزبائن التي تشتمل على (العمر، الدخل)، ونفرض أنه لدينا زبون (أ) عمره (35 سنة) ودخله (4000)، وأن (ف) هي فرضية أن هذا الزبون سوف يقوم بشراء جهاز كمبيوتر، أو بمعنى آخر هي فرضية أن ينتمي هذا السجل للفئة المعرفة بأنها (شراء جهاز كمبيوتر=نعم).

أي أن ح [(ف)/(أ)] هي نسبة احتمال أن يقوم الزبون (أ) بشراء جهاز كمبيوتر عندما نعلم عمره ودخله.

كما يمكن حساب احتمال أن يقوم أي زبون بشراء جهاز كمبيوتر، بدون تحديد سماته أي بدون شروط، ويتم التعبير عن هذا الاحتمال رياضيًا بالرمز: ح (ف).

وبنفس الطريقة، يمكن حساب احتمال أن يكون الزبون الذي يشتري جهاز كمبيوتر هو بالفعل بعمر (35) سنة ودخله (4000)، أي عكس الاحتمال الأول، ويتم التعبير عن هذا الاحتمال رياضيًا بالرمز: ح [(أ)/(ف)].

أما احتمال أن يكون زبون (أ) في قاعدة البيانات هو بعمر (35) سنة ودخل (4000)، فيتم التعبير عنه بالرمز: ح (أ).

من جميع ما سبق، يمكن صياغة النظرية الافتراضية بالمعادلة التالية:

ح [(ف) / (أ)] = ح [(أ) / (ف)] × ح (ف) / ح (أ)  …… (1)

طريقة التصنيف باستخدام نظرية الاحتمالات

إن التصنيف باستخدام النظرية الافتراضية يمكن تلخيصه في الخطوات التالية:

1. حساب عدد السجلات

يتم حساب عدد السجلات في قاعدة البيانات محل الدراسة وليكن (ل)، مع تحديد السمات والمتغيرات محل الدراسة، بحيث يكون لكل سجل (أ)  عدد (ن) من السمات.

2. تصنيف السجلات في فئات

بفرض أنه لدينا عدد من الفئات (م) كما يلي: ف1، ف2، ف3،… فم، التي تحدد تصنيف كل سجل من سجلات قاعدة البيانات، والمطلوب هو إيجاد الفئة (فر) التي ينتمي لها السجل (أ) الذي يتم استكشافه، فيكون هذا السجل المستكشف ينتمي للفئة (فر) فقط إذا كان:

ح [(فر) / (أ) ] > ح [ (فو) / (أ) ]، لكل 1  ≤ و  ≤ م،   و ≠ ر  …….   (2)

أي أن يكون احتمال انتماء السجل (أ) للفئة (فر) أكبر من احتمال انتمائه لبقية الفئات الأخرى.

ومن النظرية الافتراضية، وبالتعويض عن ح [(فر) / (أ)] بقيمتها من النظرية وهي:

ح [(فر) / (أ)] = ح [(أ) / (فر)] × ح ( فر) / ح (أ)

فيصبح الشرط الموضح في المتباينة رقم (2) كما يلي:

ح [(أ) / (فر)] × ح (فر) / ح (أ) > ح [(أ) / (فو )] × ح (فو ) / ح (أ)

وحيث أن قيمة ح (أ) ثابتة لجميع الفئات، فيمكن اختصار النتيجة إلى المتباينة التالية:

ح [(أ) / (فر)] × ح (فر) > ح [(أ) / (فو)] × ح (فو)         ………   (3)

لكل 1  ≤ و  ≤ م،   و ≠ ر

3. حالة تعدد السمات

في قواعد البيانات التي تشتمل على العديد من السمات، قد يكون من الصعب حساب احتمالات ح [(أ) / (فر)] لكل السمات الخاصة بالسجل المستكشف (أ)، إلاّ أنه يتم في هذه الحالة افتراض استقلالية تلك السمات عن بعضها البعض ويكون ناتج احتمالها معًا هو حاصل ضربها جميعًا بحسب نظرية الاحتمالات، أي أنه لحساب احتمال ح [(أ) / (فر)] فإنه يمكن استخدام المعادلة التالية:

ح [(أ) / (فر)] = ح [(أ1) / (فر)] × ح [(أ2) / (فر)] × ح [(أ3) / (فر)] × …. × ح [(أن) / (فر)]

أي:

ح [(أ) / (فر)]  = مجـ ك = 1 إلى ن  ح [(أك) / (فر)]

حيث أ 1، أ 2، أ 3، ….. أ ن، هي كل السمات الخاصة بالسجل (أ).

4. حالة السمات الاسمية

في حالة السمات الاسمية تكون طريقة حساب احتمال كل سمة من السمات وتقاطعها مع أي فئة من خلال قسمة عدد مرات تكرار السجل بداخل الفئة.

أي أن ح [(أر) / (فر)] تساوي عدد السجلات التي تظهر في الفئة (فر) من إجمالي السجلات الموجودة فيها والتي تمتلك السمة (أر).

5. الخطوة الأخيرة في التصنيف باستخدام نظرية الاحتمالات

لكي يتم بناء التوقع الخاص بأحد السجلات (أ)، بمعلومية سماته الخاصة، يتم حساب احتمال ح [(أ) / (فر)] × ح (فر) لكل الفئات المتوفرة، ويقوم نموذج التصنيف بتوقع انتماء السجل للفئة (فر) فقط وفقط إذا تحققت المتباينة رقم (3)، أي إذا كان:

ح [(أ) / (فر)] × ح (فر) > ح [(أ) / (فو)] × ح (فو)، لكل 1 ≤ و  ≤ م، و ≠ ر

تطبيق عملي لطريقة التصنيف باستخدام نظرية الاحتمالات

نفرض أنه لدينا في قاعدة بيانات مبيعات الأجهزة الإلكترونية الجدول التالي:

مالعمرالدخلطالبالتصنيف الإئتمانيالفئة: شراء كمبيوتر
1شاب صغيرمرتفعلامتوسطلا
2شاب صغيرمرتفعلاممتازلا
3متوسط العمرمرتفعلامتوسطنعم
4رجل كبيرمتوسطلامتوسطنعم
5رجل كبيرمنخفضنعممتوسطنعم
6رجل كبيرمنخفضنعمممتازلا
7متوسط العمرمنخفضنعمممتازنعم
8شاب صغيرمتوسطلامتوسطلا
9شاب صغيرمنخفضنعممتوسطنعم
10رجل كبيرمتوسطنعممتوسطنعم
11شاب صغيرمتوسطنعمممتازنعم
12متوسط العمرمتوسطلاممتازنعم
13متوسط العمرمرتفعنعممتوسطنعم
14رجل كبيرمتوسطلاممتازلا
جدول (1)، سجلات من قاعدة بيانات المبيعات لمحل أجهزة إلكترونية

ويشتمل الجدول أعلاه على وصف بعض السمات الخاصة بالزبائن، مثل العمر، الدخل، طالب (نعم أو لا)، التصنيف الإئتماني، الفئة التي يتم استكشاف انتماء السجلات لها من عدمه، وتم التعبير عنها في هذا المثال باحتمال الإقبال على شراء جهاز كمبيوتر والقيم المتوقعة هي (نعم أو لا).

ونفرض أن السجل المراد تصنيفه (أو سجل لا ينتمي لقاعدة البيانات)، هو  (أ)، حيث:

(أ): (العمر = شاب صغير، الدخل = متوسط، طالب = نعم، التصنيف الإئتماني = متوسط).

ومن بيانات الجدول وأعداد تكرارات السجلات في كل فئة مقارنة بالعدد الإجمالي فيها، يمكن حساب القيم التالية:

احتمالات شراء جهاز الكمبيوتر أو عدم شراؤه:

ح (شراء الكمبيوتر = نعم) = 9 / 14 = 0.643

ح (شراء الكمبيوتر = لا) = 5 / 14 = 0.357

كما يمكن حساب الاحتمالات المشروطة الأخرى، وهي:

احتمالات شراء جهاز الكمبيوتر بحسب سمات الزبون المختلفة:

ح (العمر = شاب صغير، شراء الكمبيوتر = نعم) = 2 / 9 = 0.222

ح (العمر = شاب صغير، شراء الكمبيوتر = لا) = 3 / 5 = 0.600

كما أن:

ح (الدخل = متوسط، شراء الكمبيوتر = نعم) = 4 / 9 = 0.444

ح (الدخل = متوسط، شراء الكمبيوتر = لا) = 2 / 5 = 0.400

وكذلك:

ح (طالب = نعم، شراء الكمبيوتر = نعم) = 6 / 9 = 0.667

ح (طالب = نعم، شراء الكمبيوتر = لا) = 1 / 5 = 0.200

و:

ح (التصنيف الإئتماني = متوسط، شراء الكمبيوتر = نعم) = 6 / 9 = 0.667

ح (التصنيف الإئتماني = متوسط، شراء الكمبيوتر = لا) = 2 / 5 = 0.400

ومن كل الاحتمالات السابقة يمكن حساب احتمال (شراء جهاز الكمبيوتر = نعم) لكل السمات المطلوبة معًا للسجل الذي يتم استكشافه كما يلي:

احتمال (شراء جهاز الكمبيوتر = نعم) لكل السمات المطلوبة للسجل الذي يتم استكشافه:

ح [(أ)/(شراء كمبيوتر= نعم)] = ح (العمر=شاب صغير، شراء الكمبيوتر=نعم) × ح (الدخل=متوسط، شراء الكمبيوتر=نعم) × ح (طالب=نعم، شراء الكمبيوتر=نعم) × ح (التصنيف الإئتماني=متوسط، شراء الكمبيوتر=نعم)

أو:

= 0.222 × 0.444 × 0.667 × 0.667

= 0.044

مع ملاحظة أنه تم ضرب جميع الاحتمالات للحصول على الاحتمال الإجمالي حيث أن جميع السمات منفصلة عن بعضها ولا تعتمد على بعضها البعض (بالإنجليزية: Independent)، وذلك بحسب نظرية الاحتمالات.

وبنفس الطريقة يمكن حساب احتمال عدم شراء جهاز الكمبيوتر، والمعبر عنه باحتمال (شراء الكمبيوتر = لا)، للسجل المستكشف بنفس السمات، بحيث يكون:

احتمال (شراء الكمبيوتر = لا)، للسجل المستكشف بنفس السمات:

ح [(أ) / (شراء كمبيوتر = لا)] = 0.600 × 0.400 × 0.200 × 0.400

= 0.019

ويكون:

ح [(أ) / (شراء كمبيوتر = نعم)] × ح (شراء كمبيوتر = نعم) = 0.044 × 0.643

أو:

= 0.028

ويكون:

ح [(أ) / (شراء كمبيوتر = لا)] × ح (شراء كمبيوتر = لا) = 0.019 × 0.357

أو:

= 0.007

وحيث أنه لا توجد إلاّ فئتين فقط (نعم، لا)، وأن احتمال الانتماء للفئة (نعم) أكبر من احتمال الانتماء للفئة (لا) فتكون النتيجة أن نموذج التصنيف باستخدام النظرية الافتراضية يتوقع النتيجة (نعم) للسجل المستكشف.

أي أن الشخص (أ) بالسمات التالية: (العمر= شاب صغير، الدخل=متوسط، طالب=نعم، التصنيف الإئتماني=متوسط)، يُتوقع له أن يقوم بشراء جهاز الكمبيوتر أو الحاسوب.

موضوع مقترح: نظرية الاحتمالات – مفهومها وأنواعها وقوانين حسابها

موسوعة الرياضيات والإحصاء

المصدر

  • كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى فؤاد عبيد، دار الفكر العربي، القاهرة، 2017.
تنقيب البيانات - التصنيف باستخدام نظرية الاحتمالات
تنقيب البيانات – التصنيف باستخدام نظرية الاحتمالات
error:
Scroll to Top