ورقة عمل بعنوان: التنقيب في قواعد البيانات واستكشاف المعلومات المخبأة فيها – وصف خوارزمياتها وتطبيقاتها في المجتمع Data Mining and Knowledge Discovery
إعداد : د. م. مصطفى عبيد
قواعد البيانات والتنقيب في قواعد البيانات
- قواعد البيانات هي عبارة عن أوعية لحفظ البيانات على شكل سجلات فيها صفوف وأعمدة وتشمل معلومات مفصلة لكل سجل بشكل منفصل.
- إن التنقيب في قواعد البيانات يهدف إلى استخلاص المعلومات المخبأة فيها، وهي تكنولوجيا حديثة فرضت نفسها بقوة في عصر المعلوماتية وفي ظل التطور التكنولوجي الكبير وانتشار استخدام قواعد البيانات.
- استخدامها يوفر للشركات والمؤسسات في جميع المجالات القدرة على استكشاف، والتركيز على، أهم المعلومات في قواعد البيانات.
- كما تركز تقنيات التنقيب على بناء التنبؤات المستقبلية واستكشاف السلوك والاتجاهات، مما يسمح بتقدير القرارات الصحيحة واتخاذها في الوقت المناسب.
- وتجيب تقنيات التنقيب على العديد من الأسئلة، وفي وقت قياسي، بخاصة تلك النوعية من الأسئلة التي كان من الصعب الإجابة عليها، إن لم يكن مستحيلاً، باستخدام تقنيات الإحصاء الكلاسيكية، والتي كانت إن وجدت فإنها تستغرق وقتاً طويلاً والعديد من إجراءات التحليل.
التقنيات الحديثة للتنقيب في قواعد البيانات
- الجار الأقرب : Nearest Neighbor
- التجزئة العنقودية : Cluster Analysis
- شجر القرار : Decision Trees
- الشبكات العصبية : Neural Networks
- استقراء القاعدة : Rule Induction
1. خوارزمية الجار الأقرب Nearest Neighbor
- تعتبر من تقنيات التنقيب في البيانات التي تهدف للتنبؤ عن طريق مقارنة السجلات الشبيهة بالسجل المراد التنبؤ له وتقدير القيمة المجهولة لهذا السجل بناء على معلومات لتلك السجلات.
- كثيراً ما تستخدم خوارزمية الجار الأقرب في مجال الأعمال، ومن الأمثلة الشائعة الاستخدام تلك التي تساعد المستخدمين في الشراء عن طريق اختيار السلع الأقرب لاحتياجاتهم مقارنة بسلع قد تم شراؤها بالفعل.
- من أمثلتها ما يحدث عند شراء الكتب عن طريق الإنترنت، فقد يتم ترميز أحد الكتب التي يتم الاستعلام عنها بأنه كتاب جيد ومن ثم مقارنته بكتب قد تم شرائها بالفعل وتكون قريبة منه من حيث المضمون.
الثقة في نتائج الاستكشاف
- إن الثقة في نتائج ما يتم التوصل له من استكشاف باستخدام خوارزمية أقرب جار لها أهمية أيضاً، ويعبر عن ذلك بأن نقول أننا على ثقة 70% من قيمة معينة قمنا باستكشافها.
- تحديد الثقة يتم بناء على:
- المسافة بين السجل المستكشف وأقرب جار.
- مدى تجانس مجموعة الجوار وما إذا كانت تؤدي لنفس القيمة المستكشفة.
2. التحليل بالتجزئة العنقودية Cluster Analysis
- هي عملية تجميع السجلات المتشابهة في مجموعات، ويتم ذلك بهدف الاستكشاف عالي المستوى لما يجري داخل قاعدة البيانات.
- ففي مجال الأعمال عادة ما يستخدم التحليل العنقودي في تجزئة العملاء، أو السكان بشكل عام، إلى مجموعات يمكن التسويق لها بشكل مباشر ومحدد.
أنواع التجزئة العنقودية
- التجزئة الهرمية وغير الهرمية
- التجزئة الهرمية التشققية
- التجزئة الهرمية البركانية
تجانس المجموعات التي يتم إنشاءها
- بشكل عام، تهدف التجزئة العنقودية إلى وضع العناصر المتجانسة في مجموعات منفصلة.
- القاعدة العامة لضم أي عنصر في مجموعة هي أن يكون العنصر مائلاً للتشابه بعنصر منها أكثر من أن يكون شبيهاً لعنصر من مجموعة أخرى.
3. شجر القرار Decision Trees
- شجرة القرار هي نموذج استكشافي يظهر على شكل شجرة، كما يعبر اسمها، وبشكل دقيق يمثل كل فرع من فروعها سؤالاً تصنيفياً وتمثل أوراقها أجزاءاً من قاعدة البيانات تنتمي للتصنيفات التي تم بنائها.
الفرق بين شجر ة القرار والتجزئة العنقودية
- تهدف تقنية شجرة القرار إلى تقسيم قاعدة البيانات بهدف معين سبق وأن تم تحديده.
- وجود عنصر معين في إحدى المجموعات، وهي ممثلة هنا بالفروع، هو نتيجة لأنه حقق سلسلة الشروط الموضوعة وصولاً إلى هذا الفرع، وليس فقط لأنه يشبه بقية عناصره، بالرغم من أنه لم يتم تعريف التشابه في هذه الحالة.
- قد تكون شجرة القرار أكثر تعقيداً من التجزئة العنقودية ولكنها تؤدي إلى نتائج يمكن إظهارها بشكل مبسط وفائدة عالية المستوى.
4. الشبكات العصبية Neural Networks
- تعتبر الشبكات العصبية هي وأشجار القرار من أهم تقنيات التنقيب في البيانات، نظراً للنتائج الدقيقة التي يتم التوصل إليها باستخدام هذه الخوارزميات ولإمكانية تطبيقهما في حل العديد من المشاكل وبكافة الأنواع، هذا بالرغم من صعوبتهما والتي أدت لعدم الانتشار بشكل واسع لهما.
- خوارزمية الشبكة العصبية تشبه في تركيبتها تركيبة مخ الإنسان، فهي تعمل بنفس الطريقة كما يعمل المخ في نقل ومعالجة المعلومات والتوصل إلى الاستنتاجات واكتشاف الأنماط والتنبؤات ونستطيع من خلالها تطبيق بعض ما يطبقه المخ الطبيعي، رغم أن العلماء لا يزالون حتى اليوم يكتشفون المزيد ولم يلموا بكل تفاصيل عمل مخ الإنسان.
طريقة عمل خوارزمية الشبكة العصبية
- تتألف الشبكة العصبية من العقد (التي تناظر الخلايا العصبية) والروابط التي تصل بينها (التي تناظر الوصلات العصبية).
- الشكل التالي يوضح تركيب شبكة عصبية بسيطة، وهي تأخذ متغيري العمر والدخل وتعطي نتيجة تنبؤية ما إذا كان الشخص سيقبل على عرض معين لإحدى الشركات :
مثال تطبيقي
- لكي يتم التنبؤ باستخدام الشبكة العصبية، يتم إدخال قيم المتغيرات المعلومة في العقد المخصصة للإدخال، ويصبح لكل عقدة قيمة المتغير الذي تم إدخاله، بعد ذلك يتم ضرب قيمة كل عقدة بقيمة الرابط المتصل بها لنحصل على النتيجة.
- وهنا تم اعتبار أنه إذا كانت النتيجة 0 يكون من المتوقع الاستجابة للشخص للعرض المقدم، وإذا كانت 1 فيكون من المتوقع عدم الاستجابة.
- تم التعبير عن العمر بقيمة تقع بين 0.0 و 1.0 وهي هنا 0.47، وهذا يمثل عمر 47 سنة، والدخل بالقيمة 0.65، وهذا يمثل دخلاً بقيمة 65000$.
- بالنسبة للوصلات والتي تعبر عن الأوزان فقد تم تقديرها بالقيم 0.7، 0.1 على الترتيب وذلك بناء على معرفتنا بسجلات سابقة من قاعدة البيانات.
- بعد ضرب قيم العقد في قيم الوصلات وجمعها نحصل على قيمة المتغير الذي نريد التوقع له فيكون هنا 0.39 وهو رقم أقرب للصفر منه للواحد الصحيح وبذلك تكون النتيجة هي الاستجابة للشخص.
العقد المخفية في الشبكات العصبية
- قد تحتوي خوارزمية الشبكة العصبية على نوعية أخرى من العقد والتي تسمى العقد المخفية.
- مهمة هذه العقد استشارية ولا يؤخذ بقيمها إلا بعد أن يتم اعتماد استشارتها في حالة صحتها وبعد التجربة الفعلية، كما هي الحال مع مستشاري القادة في الجيش.
- كلما تم تطبيق الخوارزمية يتم تطوير وتحديث العقد الأصلية بأن تأخذ بالاعتبار قيم العقد المخفية المناسبة والتي تدعم الحصول على نتائج أكثر دقة، وبالمقابل يتم إهمال قيم العقد المخفية التي لم تحقق ذلك.
5. استقراء القاعدة Rule Induction
- أن تقنية استقراء القاعدة من التقنيات الأساسية في التنقيب في البيانات وأكثرها شيوعا في مجال استكشاف المعرفة، وهي أقرب ما تكون إلى ما يسمى بعملية التنقيب بحد ذاتها، والذهب في هذه الحالة هو “القاعدة”.
- تبين هذه القاعدة ما يجري داخل قاعدة البيانات وتظهر لنا ما لم نكن نعرفه من قبل، وربما أيضاً ما لن نستطيع أن نعرفه إلا من خلالها.
تقييم القاعدة
- ولكي تكون القاعدة مكتملة وذات فائدة، فإنه يلزم لها تقييم، وهو عبارة عن نوعين إضافيين من المعلومات التي يجب أن تلازمها، وهذه المعلومات الإضافية هي :
- الصحة Accuracy : كم هي نسبة صحة القاعدة (وقوع النتيجة في حال وقوع السبب).
- التغطية Coverage : كم نسبة السجلات المحققة للقاعدة إلى كافة السجلات في قاعدة البيانات.
مثال تطبيقي لطريقة تقييم القاعدة
في أحد أمثلة تحليل سلة مشتريات إحدى المراكز التجارية، ليكن لدينا القاعدة التالية :
” إذا اشترى الزبون حليب فإنه يشتري البيض “
والأعداد التالية كما يلي :
T = 100 : العدد الكلي للسجلات في قاعدة البيانات
E = 30 : عدد سجلات المشتريات التي تحتوي على البيض
M = 40 : عدد سجلات المشتريات التي تحتوي على الحليب
B = 20 : عدد سجلات المشتريات التي تحتوي على البيض والحليب معاً
فتكون نسبة صحة القاعدة هي حاصل قسمة عدد سجلات المشتريات التي تحتوي على البيض والحليب معاً مقسوماً على عدد سجلات المشتريات التي تحتوي على الحليب. وتكون في هذه الحالة مساوية لـ 40/20=50%.
أما التغطية فتكون حاصل قسمة عدد سجلات المشتريات المحتوية على الحليب مقسوماً على العدد الكلي للسجلات في قاعدة البيانات. ووهي هنا تساوي 40/100 = 40 %.
استثمار القاعدة
- إن استخدامات القاعدة كثيرة، فمن الممكن تحديد الكثير من القرارات المبنية على قواعد يتم استكشافها في قواعد البيانات.
- مثلاً، يمكن لمركز تجاري أن يستكشف كافة القواعد الخاصة بمنتج معين، بان يكون طرفاً مستقلاً فيها (الأيمن)، ويتفحص مدى تأثير بيعه لهذا المنتج على بيعه للمنتجات الأخرى، وهل من الضروري اتخاذ خطوات معينة في خطته للتسويق لهذا المنتج مع تلك المنتجات، أو إذا أراد إلغاء بيعه لهذا المنتج فهل سيكون هناك تأثير على عمليات بيع المنتجات الأخرى.
القاعدة المفيدة وغير المفيدة
إن أكبر مشكلة يمكن مواجهتها في خوارزميات استقراء القاعدة هي كيف يمكن تمييز القاعدة المفيدة من القاعدة غير المفيدة.
أمثلة للقاعدة غير المفيدة :
- أن لا تكون لها فائدة عملية
- أن تكون صحتها نادرة.
- أن تكون تغطيتها نادرة ولا يمكن تطبيقها.
- أن توضح معلومات بديهية لا حاجة لها.
وقد أدت عمليات البحث إلى نتائج يمكن من خلالها تحديد مدى فائدة القاعدة من خلال العديد من الاعتبارات.
اختيار التقنية المناسبة
- أخيراً، لا يوجد نظرية محددة يتم بناء عليها اختيار تقنية من تقنيات التنقيب، ويتم الاختيار عادة بناءاً على الخبرة في هذا المجال والتجربة الفعلية للتقنيات ومدى فاعليتها.
- من جهة أخرى قد تكون المفاضلة أيضاً بين التقنيات التقليدية والتقنيات الحديثة بقدر ما يكون هناك توفراً للأدوات المناسبة، والمحلل الخبير هو الذي يستطيع أن يقيم الخيارات ويحدد منها المناسب ويطبقه.
تخطيط عمليات التنقيب في قواعد البيانات
- تحديد المشكلة المراد بحثها وإيجاد الحلول لها
- بناء قاعدة بيانات التنقيب
- استكشاف البيانات
- تحضير البيانات للتنقيب
- بناء نموذج التنقيب المناسب
- تطبيق النموذج
- استخراج النتائج
تطبيقات عملية في المجتمع
- الطب والصحة
- تحليل واستكشاف السلوك المرضي لدى الشرائح المختلفة في المجتمع، واستكشاف العلاقات بين الأمراض وأية معطيات أخرى للمساهمة في الحد منها والعلاج أو الوقاية.
- التربية والتعليم
- تحليل واستكشاف السلوك التعليمي لدى الطلاب وبحث مقومات النجاح والتفوق أو أسباب الفشل والتسرب، وضع التنبؤات المستقبلية لمستويات الخريجين وتخصصاتهم.
- التجارة والاقتصاد
- تحليل واستكشاف الأسواق، توصيف السلوك الشرائي ودراسة المؤشرات الاقتصادية المتنوعة، المساهمة في التنبؤات للشركات وحل المشكلات.
- البنية التحتية
- تخطيط المدن واستكشاف التدفق المروري في الشوراع وتوزيع البنية التحتية بشكل عام.
- الشرطة وحوادث المرور
- تحليل واستكشاف السلوك الإجرامي، تحليل ودراسة المعلومات والعمل على الاستكشاف والتنبؤ قبل وقوع الحدث.
النتائج والتوصيات
- تخطيط وبناء قواعد البيانات بشكل استراتيجي مناسب يساعد على التحليل الجيد والسليم.
- تنظيم وتخطيط عمليات التحليل والتنقيب وإعطاءها دوراً فاعلاً في المؤسسات المختلفة.
- تطوير وتنمية قدرات المحللين وتدريبهم بشكل جيد.
- فتح المجال للتعاون بين المؤسسات المختلفة بهدف التحليل التنافسي والوصول إلى المعرفة الأكثر دقة وواقعية واستخدام هذه المعرفة في حل المشكلات والتطوير والتخطيط السليم.