الملخص
شرح وتبسيط مفهوم قواعد الارتباط متعددة المستويات وتعدد المستويات في الأنماط وقواعد الارتباط والتبعية المستكشفة باستخدام أمثلة تطبيقية من الواقع العملي. توضيح فوائد استشكاف قواعد الارتباط متعددة المستويات والحاجة لها، وطرق استكشافها وسبل أو طرق تقييمها. شرح كيفية تمييز القواعد المفيدة وغير المفيدة من قواعد الارتباط متعددة المستويات.
المحتويات
مفهوم تعدد المستويات في قواعد الارتباط والتبعية
في كثير من الأحيان قد يلزم لاستكشاف الأنماط المتكررة في قواعد البيانات توسيع مجال البحث في البيانات لمستويات أعلى من المستوى الذي تستهدفه الدراسة أو البحث. مثلاً، إذا افترضنا أن أحد الفروع في محلات بيع الأجهزة الإلكترونية يسعى لاستكشاف علاقات التبعية و قواعد الارتباط في قواعد البيانات الخاصة بحركة مبيعات المنتجات لديه وفق تعريف كل منتج قائم بذاته فإنه يمكن اعتبار أن هذه العملية أحادية المستوى وتولد قواعد تبعية وارتباط أحادية المستوى أيضًا.
أما إذا استهدفت الدراسة إيجاد علاقات التبعية وقواعد الارتباط بين فئات مختلفة للمنتجات تتدرج في مستويات متعددة فإنه سيتولد عنها استكشاف قواعد تبعية وارتباط متعددة المستويات. وفي كل الأحوال، سواء كانت الحاجة إلى توسيع الدراسة رأسيًا لمستويات أعلى للفئات الأكبر التي تحتوي العناصر الأصغر أو بالحفر نزولا إلى مستويات أدنى للفروع والأقسام والأنواع، فإنه ينتج عنها تعدد للمستويات.
سوف يتم توضيح ذلك في المثال التالي:
مثال توضيح تعدد المستويات
لو افترضنا أنه في أحد محلات بيع الأجهزة الإلكترونية لدينا أحد جداول قاعدة بيانات حركة المبيعات في المعرض.
ويظهر جزء من قاعدة البيانات كما يلي:
رمز الحركة | الأصناف المُباعة |
ح 1001 | جهاز ماك بوك نوع آبل، كاميرا ذكية نوع برو |
ح 1002 | برنامج مايركوسوفت أوفيس 2013، فأرة لاسلكية ضوئية نوع مايكروسوفت |
ح 1003 | فأرة ليزر نانو، لوحة مفاتيح كمبيوتر محمول |
ح 1004 | نوتبوك ستوديو نوع دل، كاميرا رقمية نوع كانون |
ح 1005 | تابلت نوع لينوفو، برنامج مضاد فايروسات نوع نورتون |
كما لدينا خريطة التمثيل الهرمي التسلسلي لكل من العناصر الممثلة للمنتجات المباعة والفئات التي تنتمي لها كما يظهر في الشكل التالي:
ويتضح من الشكل أنه يمكن تعميم بيانات المبيعات باستبدال المستويات الأدنى بما يناظرها من المستويات الأعلى، والتي تُمثل الآباء والأجداد لها، وبشكل هرمي تسلسلي تصاعدي.
ففي الشكل السابق، لدينا خمسة مستويات كما يلي:
- يمثل المستوى الأول كل الفئات والمنتجات بدون تمييز بينها.
- المستوى الثاني يمثل تصنيف عام للأجهزة أو المنتجات المباعة تم التعبير عنها بمسميات مثل (أجهزة كمبيوتر، برامج، طابعات وكاميرات، مستلزمات وأكسسوارات كمبيوتر).
- وفي المستوى الثالث تم إعادة تصنيف للفئات العامة مرة أخرى إلى مجموعات أو فئات جزئية تمثل (كمبيوتر محمول، كمبيوتر مكتبي، برامج أوفيس، برامج مضادة للفيروسات، … إلخ).
- وفي المستوى الرابع تم تصنيف الفئات الجزئية لفئات أصغر بحيث تشتمل على (أجهزة كمبيوتر محمول من نوع آي بي أم، أجهزة كمبيوتر مكتبي من نوع دل، برامج أوفيس من نوع مايكروسوفت، …. إلخ).
- والمستوى الخامس فهو يحدد كل مُنتج بعينه، كأن يكون (جهاز كمبيوتر مكتبي من نوع دل ومواصفات i7 ورقم تعريف xxxxx، …..إلخ).
طرق توليد التمثيل الهرمي
إن التمثيل الهرمي للبيانات والسمات الاسمية غالبًا ما يظهر ضمنيًا في قواعد البيانات ويتم توليده بشكل تلقائي، وذلك كما يظهر في الشكل السابق من خلال الانتماء التلقائي للعناصر في الفئات في المستويات الأدنى للفئات في المستويات الأعلى. ويتطلب هذا الأمر أن يتم بناء وتصميم قواعد البيانات منذ البداية بطريقة صحيحة تساهم في تحقيقه، كأن يتم استحداث الحقول والمتغيرات التي تعبر عن الفئات الأعلى مع مراعاة أنواع البيانات المختلفة.
وقد يلزم أحيانًا أن يتم توليد الفئات وبناء التسلسل الهرمي للمستويات الأعلى يدوياً، بخاصة إذا لم تكن متوفرة بقاعدة البيانات ولم تؤخذ بالاعتبار عند بدء تصميمها وبنائها، وذلك بأن يتم تطبيق أحد إجراءات تحضير البيانات للتحليل والتنقيب لتوليد حقول وسمات جديدة في قاعدة البيانات.
ومن أمثلة هذه العمليات:
- عمليات تنظيف البيانات
- عمليات اختزال البيانات
- وعمليات تحويل البيانات
- عمليات تفريد البيانات
فوائد استكشاف قواعد الارتباط والتبعية متعددة المستويات
تكمن الفائدة من استكشاف قواعد الارتباط والتبعية متعددة المستويات بأنها تساعد في معرفة المزيد من الارتباطات والعلاقات التي يمكن أن تكون أكثر قوة وفائدة للمحللين والباحثين، والتي يمكن استثمارها بشكل حقيقي وفعّال في التخطيط والإدارة بكل أنواعها ومستوياتها، وبخاصة في الإدارة الاستراتيجية العليا في الشركة أو المؤسسة.
مثلاً، في قاعدة بيانات حركة مبيعات الأجهزة الإلكترونية:
قد يكون من السهل استكشاف قاعدة تمثل علاقة ارتباط بين حركة بيع أجهزة الكمبيوتر من النوع دل (Dell) وبيع الكاميرات الرقمية من النوع كانون (Canon)، ولكنها سوف تكون قاعدة ضعيفة نظرًا لندرة تكرارها، حيث أن عدد قليل من الزبائن يمكن أن يشتروا هذين المنتجين معًا. وبالتالي فإنه يكون من المتوقع إستكشاف قواعد الارتباط والتبعية القوية بين الفئات في المستويات الأعلى التي تحتوي على تلك المنتجات، كأن يتم استكشاف قاعدة ارتباط بين مبيعات أجهزة الكمبيوتر والطابعات بشكل عام، وذلك نظرًا لكثرة تكرار هذا السلوك حيث أنه من الممكن أن يتكرر شراء منتجات من تلك الفئات معًا بغض النظر عن تحديد أنواعها.
طرق استكشاف قواعد الارتباط والتبعية متعددة المستويات
إن طريقة استكشاف قواعد الارتباط والتبعية متعددة المستويات هي نفس طريقة استكشاف قواعد الارتباط والتبعية الاعتيادية، ولكن مع الأخذ بالاعتبار تكرار السجلات في الفئات الجزئية المنبثقة من الفئات في المستويات الأعلى التي يتم استكشاف علاقات التبعية والارتباط فيما بينها.
مثلاً، في قاعدة بيانات حركة مبيعات الأجهزة الإلكترونية، يمكن أن يتم استكشاف القاعدة التالية:
“إذا اشترى الزبون كمبيوتر محمول من نوع ديل فإنه يشتري طابعة من نوع إتش بي معها باحتمال 60%.
وهذه الثنائية تحدث بإجمالي 2% من كافة المشتريات”.
أما إذا تم استكشاف قاعدة ارتباط بين فئات في المستوى الأعلى فسوف تكون كما يلي:
“إذا اشترى الزبون كمبيوتر محمول فإنه يشتري طابعة معها باحتمال 80%، وهذه الثنائية تحدث بإجمالي 18% من كافة المشتريات”.
ويلاحظ أنه لم يتم تحديد نوع الحاسوب أو الطابعة في هذه القاعدة.
ومعنى ذلك أنه تم إحتساب كل السجلات الخاصة بمبيعات أجهزة الكمبيوتر والطابعات من جميع الأنواع، وهو ما يفسر ارتفاع نسبة التغطية لها.
تقييم قواعد الارتباط و التبعية متعددة المستويات
يتم تقييم قواعد الارتباط و التبعية متعددة المستويات بنفس الطريقة الاعتيادية، من خلال حساب كل من:
- الصحة
- التغطية
وهي كما يلي:
الصحة Accuracy
كم هي نسبة صحة القاعدة (وقوع النتيجة في حال وقوع السبب).
التغطية Coverage
كم نسبة السجلات المحققة للقاعدة إلى كافة السجلات في قاعدة البيانات.
القواعد المفيدة والقواعد غير المفيدة
بطبيعة الحال قد تظهر بعض القواعد غير المفيدة نتيجة الإمعان في تعدد مستويات التصنيف نزولا في المستويات الأدنى، بحيث تكون نسبة السجلات المحققة للقاعدة إلى كافة السجلات ضئيلة.
كأن يتم استكشاف القاعدة التالية مثلاً:
- “إذا اشترى الزبون كمبيوتر محمول من نوع ديل فإنه يشتري طابعة من نوع إتش بي معها باحتمال 45%.
- وهذه الثنائية تحدث بإجمالي 1% من كافة المشتريات”.
أو أن يتم استكشاف قاعدة يمكن وصفها بأنها شخصية وفريدة ولا يمكن الاستفادة منها بغرض التعميم مثل:
- “إذا اشترى الزبون كمبيوتر محمول من نوع ديل بمواصفات (س) فإنه يشتري طابعة من نوع إتش بي بمواصفات (ص) معها باحتمال 60%.
- وهذه الثنائية تحدث بإجمالي 0.1% من كافة المشتريات”.
ويلاحظ في مثل هذا النوع من قواعد الارتباط والتبعية ارتفاع نسبة صحة القاعدة حيث أنها فريدة من نوعها وتتحقق دائمًا فور ظهورها في سجلات قاعدة البيانات.
ولكن ظهورها لا يُعتد به لأنه نادرًا ما يحدث، وبالتالي تصبح هذه القاعدة غير مفيدة.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.