ملخص المحتوى
شرح وتبسيط مفهوم خوارزميات تنقيب الأنماط وطرق استكشاف قواعد الارتباط والتبعية. شرح أنواع الأنماط التي يتم استكشافها وفوائدها واستخداماتها في الواقع العملي وشرح أحد الأمثلة الشهيرة وهو تحليل سلة المشتريات.
توضيح أهمية تنقيب الأنماط وقواعد الارتباط وكيفية استثمارها وطرق تقييمها وتمييز القاعدة المفيدة والقاعدة غير المفيدة.
المحتويات
مفهوم تنقيب الأنماط وقواعد الارتباط والتبعية
لو تخيلنا أحد مدراء المبيعات في معرض لمحلات بيع الأجهزة الكهربائية يتحدث لأحد الزبائن ممن اشتروا مؤخرًا جهاز حاسوب وكاميرا رقمية على الترتيب من نفس المعرض، فما هو المنتج الذي يمكن أن يرشحه هذا المدير لذلك الزبون حتى يشتريه أثناء زيارته للمعرض؟
إن المعلومات التي تبين أي من المنتجات يتكرر شراؤها من زبائن المعرض بعد شرائهم جهاز حاسوب وكاميرا رقمية على الترتيب سوف تساعد مدير المبيعات في انتقاء المنتج التالي لعرضه على الزبون.
وفي هذا السيناريو تحديدًا فإن تنقيب الأنماط و قواعد الارتباط والتبعية هي المعرفة التي تلزم لمتخذي القرار في مثل هذه الحالات.
أنواع الأنماط التي يتم استكشافها عند تنقيب الأنماط
الأنماط المتكررة يمكن أن تكون أحد ما يلي:
- مجموعة من العناصر أو المنتجات (بالإنجليزية: Item-set)
- أو الفئات المتسلسلة (بالإنجليزية: Sub-sequence)
- أو البناءات الجزئية (بالإنجليزية: Substructure)
والتي تظهر بشكل متكرر في قواعد البيانات.
نمط تكرار مجموعة من العناصر
مثلا، في إحدى قواعد البيانات الخاصة بأحد محلات بيع التجزئة يمكن أن يتكرر ظهور منتجات الحليب والبيض كمجموعة من المنتجات التي يتم شراؤها معًا في نفس رحلة التسوق.
ويصبح النمط في هذه الحالة هو تكرار مجموعة من العناصر (بالإنجليزية: Item-set).
نمط تكرار التسلسلات
أما تكرار التسلسلات فيكون بشراء الزبون لجهاز حاسوب أولا في أول رحلة تسوق ثم قيامه بشراء كاميرا رقمية في الرحلة الثانية ثم شراء كرت ذاكرة في الرحلة الثالثة، بحيث تتم هذه السلسلة بشكل متكرر في قاعدة البيانات.
ويطلق على هذه السلسلة نمط تكرار التسلسلات (بالإنجليزية: Sub-sequence).
نمط تكرار البناءات الجزئية
أما تسلسلات البناء الجزئي فيمكن أن تكون خليط من العناصر والفئات والتسلسلات المختلفة.
وبهذه الحالة يطلق عليها نمط تكرار البناءات الجزئية (بالإنجليزية: Substructure).
فوائد واستخدامات تنقيب الأنماط
إن استكشاف الأنماط المتكررة بكل أنوعها يلعب دورًا مهمًا في تنقيب واستكشاف علاقات التبعية والارتباطات والعلاقات الأخرى الشيقة بداخل قاعدة البيانات.
ويساعد استكشاف الأنماط في تصنيف وتجزئة البيانات وإجراءات التنقيب الأخرى للكميات الهائلة من البيانات التي يتم تجميعها وتخزينها بصفة مستمرة.
ويساهم كل ذلك في تحسين الإدارة الاستراتيجية في كثير من المجالات كالصناعة والتجارة والزراعة والأعمال والخدمات بكافة أنواعها وأشكالها.
وباستخدام تقنيات استكشاف الأنماط تستطيع المؤسسات والشركات بكافة أنواعها استكشاف العلاقات والارتباطات الخفية الشيقة بداخل قواعد البيانات وتبسيطها وتوضيحها لصنّاع القرار من أجل مساعدتهم في تحسين الإدارة واتخاذ القرارات ورفع كفاءة التخطيط وتحسين خطط التسويق المتعدد الأغراض وتحليل وإدارة وتقييم المخاطر بطرق تؤدي لأفضل النتائج.
وقد أصبحت عمليات تنقيب الأنماط المتكررة من العمليات المهمة في تنقيب البيانات ويتم التركيز عليها كأحد مسارات بحوث تنقيب البيانات بشكل عام.
في هذا القسم سوف نستعرض المفاهيم الأساسية وطرق تنقيب الأنماط المتكررة من أجل استكشاف علاقات الارتباط والتبعية الشيقة بين العناصر والفئات المختلفة بداخل قواعد البيانات العلائقية.
تحليل سلة المشتريات
إن تنقيب الأنماط المتكررة يؤدي لاستكشاف علاقات التبعية والارتباط في سجلات قواعد البيانات العلائقية.
ومع تراكم الكميات الهائلة من البيانات التي يتم جمعها وتخزينها بشكل مستمر تزداد الحاجة لاستكشاف مثل تلك الأنماط بداخل قواعد البيانات في كل مجالات الأعمال والصناعة والتجارة والأعمال والخدمات بكافة أنواعها.
واستكشاف علاقات التبعية و الارتباط الشيقة في تلك السجلات تساهم في تعزيز قدرات متخذي القرار في المؤسسات والشركات في جميع المجالات.
وفي مجال ذكاء الأعمال تساعد في اختيار التصاميم المناسبة للعروض والكتالوجات ووضع خطط التسويق وتحليل سلوك التسوق للزبائن.
ومن أمثلة تنقيب الأنماط المتكررة ” تحليل سلة المشتريات (Market Basket Analysis)، والذي يتم فيه تحليل السلوك والعادات الشرائية للزبائن من خلال إيجاد علاقات وقواعد التبعية والارتباط بين عناصر المنتجات المختلفة التي يضعها الزبائن في سلال مشترياتهم.
كذلك فإن استكشاف علاقات التبعية والارتباط يمكن أن يساعد تجار التجزئة في تطوير استراتيجيات التسويق من خلال معرفتهم للمنتجات التي يتكرر شرائها معًا من الزبائن.
مثال توضيحي على تنقيب الأنماط
مثلا، إذا قام الزبائن بشراء الحليب، فما هو احتمال أنهم يقومون بشراء الخبز (وأي نوع من الخبز) في نفس رحلة التسوق إلى المركز التجاري؟
وهذه المعلومات يمكن أن تؤدي إلى زيادة المبيعات لأنها تساعد تجار التجزئة في تخطيط وتنفيذ أساليب التسويق الانتقائية وهندسة وتوزيع المنتجات في الأماكن والرفوف المناسبة في مراكزهم التجارية.
ومن الأمثلة الشيقة التي تشرح تنقيب قواعد التبعية والارتباط هو مثال “تحليل سلة المشتريات” (بالإنجليزية: Market Basket Analysis). والذي يهدف إلى تحليل واستكشاف سلوك واتجاهات وعادات التسوّق للزبائن من خلال إيجاد الارتباطات الخفية بين كميات وأنواع المشتريات للمنتجات المختلفة لهم.
ففي مراكز التسوق الكبرى أو الهايبر ماركت (بالإنجليزية: Hyper Market)، يمكن القيام بعمليات تحليل واستكشاف للارتباطات الخفية والعادات والاتجاهات والسلوك الشرائي للزبائن وتحديد المنتجات التي يتم شرائها معًا بشكل متكرر، وذلك من أجل المساعدة في تطوير استراتيجيات التسويق في تلك المراكز.
فمثلا، إذا قام الزبائن بشراء الحليب، فإلى أي درجة يُقبلون على شراء الخبز في نفس رحلة التسوق، وأي نوع من الخبز يشترون.
وتستفيد الإدارة من هذه المعلومات في إعادة ترتيب المنتجات واختيار وضعها على الرفوف بطريقة أفضل وتسهل الوصول إليها بحسب الارتباطات التي يتم استكشافها.
كما تساعد المعلومات التي يتم التوصل إليها في توجيه خطط التسويق لتكون بطرق فيها دعم وتعزيز للمنتجات المرتبطة ببعضها البعض.
أهمية تنقيب الأنماط وقواعد الارتباط والتبعية
إن تقنية تنقيب واستكشاف الأنماط و قواعد التبعية والارتباط من التقنيات الأساسية في التنقيب في البيانات وأكثرها شيوعا في مجال استكشاف المعرفة.
وهذه التقنية هي أقرب ما تكون إلى ما يسمى بعملية التنقيب بحد ذاتها، والذهب في هذه الحالة هو النمط أو “قاعدة الارتباط أو التبعية”.
وهذه القاعدة تبين ما يجري داخل قاعدة البيانات وتظهر لنا ما لم نكن نعرفه من قبل، وربما أيضًا ما لن نستطيع أن نعرفه.
وتُعتبر القاعدة التي يتم استكشافها من سجلات قاعدة البيانات ذات أهمية كبرى، هذا بالإضافة إلى التقديرات التي تصاحبها، والتي تساعد في تحديد الاحتمالات لوقوع حدث معين أو عدة أحداث متلازمة والمتمثلة بعملية شراء منتج أو مجموعة من المنتجات معًا.
وبشكل عام تعتبر هذه القواعد سهلة وبسيطة نسبيًا.
فعلى سبيل المثال في تحليل قاعدة بيانات سلة مشتريات أحد المراكز التجارية يمكن أن نستكشف قاعدة الارتباط الشيقة التالية:
“إذا اشترى الزبون سلعة (أ) فإنه يشتري السلعة (ب) معها باحتمال 80%، وهذه الثنائية تحدث بإجمالي 3% من كافة المشتريات”.
والشكل العام للقاعدة هو:
” إذا كان كذا وكذا فإن كذا “
أي أنه لها طرفين: الأيمن المستقل والأيسر التابع.
مثلا:
“إذا اشترى الزبون شرائح بطاطا فإنه يشتري كاتشب”.
تقييم الأنماط وقواعد الارتباط والتبعية المستكشفة
لكي تكون القاعدة مكتملة وذات فائدة، فإنه يلزم لها تقييم، وهو عبارة عن نوعين إضافيين من المعلومات التي يجب أن تلازمها.
وهذه المعلومات الإضافية هي:
الصحة Accuracy
الصحة (بالإنجليزية: Accuracy) هي نسبة صحة القاعدة = نسبة السجلات التي يتحقق فيها وقوع النتيجة في حال وقوع السبب.
التغطية Coverage
التغطية (بالإنجليزية: Coverage) هي نسبة السجلات المحققة للقاعدة إلى كافة السجلات في قاعدة البيانات.
أي أنه لا يعني تسمية القاعدة بهذا الاسم أنها صحيحة دومًا، فإنه من الضروري توضيح مدى صحة هذه القاعدة والشك فيها، وهذا يوضحه مصطلح (الصحة).
من جهة أخرى، فإنه أيضًا يتوجب توضيح مدى تغطية هذه القاعدة للبيانات في قاعدة البيانات، وهذا يبينه مصطلح (التغطية).
والأمثلة التالية تبين بعض القواعد مع نسبة كل من الصحة والتغطية لها:
الصحة | التغطية | القاعدة |
85% | 20% | إذا اشترى الزبون بيض فإنه يشتري الحليب. |
15% | 6% | إذا اشترى الزبون خبز فإنه يشتري الجبنة. |
95% | 0.01% | إذا كان عمر الزبون 33 عام واشترى البيض والجبنة فإنه يشتري عصير البرتقال. |
كيف يتم استثمار القاعدة
إن استخدامات القاعدة كثيرة، فمن الممكن تحديد الكثير من القرارات المبنية على قواعد يتم استكشافها في قواعد البيانات.
مثلا، يمكن لمركز تجاري أن يستكشف كافة القواعد الخاصة بمنتج معين، بان يكون طرفًا مستقلا فيها (الأيمن)، ويتفحص مدى تأثير بيعه لهذا المنتج على بيعه للمنتجات الأخرى، وهل من الضروري اتخاذ خطوات معينة في خطته للتسويق لهذا المنتج مع تلك المنتجات.
أو إذا أراد إلغاء بيعه لهذا المنتج فهل سيكون هناك تأثير على عمليات بيع المنتجات الأخرى.
والعكس صحيح، فباستكشاف قواعد الارتباط الخاصة بمنتج معين بوضعه طرفًا تابعًا فيها (الأيسر)، يمكن استثمار تلك القواعد بأن يتم مثلا استكشاف مدى تلازم بيع هذا المنتج مع منتجات أخرى معينة وبالتالي إعادة توزيع ترتيب عرض تلك المنتجات بطريقة أكثر فائدة من أجل زيادة المبيعات.
كما يمكن استثمار القواعد المستكشفة في تقديم عروض وخصومات جديدة تعتمد على العلاقات التي تبرزها تلك القواعد.
وهكذا، فإنه يوجد العديد من الأفكار التي يمكن أن تفيد فيها عمليات استقراء القاعدة، سواء كان الطرف المستكشف فيها طرفًا مستقلا أو تابعًا ومن ثم استكشاف كافة العلاقات التي يكون طرفًا فيها.
قوة القاعدة المستكشفة في تنقيب الأنماط
كما تفيد معلومات الصحة والتغطية المتلازمة مع القاعدة أيضًا في استكشاف مدى قوة القاعدة وماذا يجري داخل قاعدة البيانات بشكل متكرر أكثر.
فالصحة والتغطية تعزز من اتخاذ القرارات الأنسب عندما نريد استثمار القاعدة بشكل أفضل.
وبالمقابل، لا يعني ذلك أن كل قاعدة محققة بشكل دائم. فالطرف الأيمن ليس بالضرورة أن يؤدي للطرف الأيسر بشكل حتمي.
والجدول أدناه يوضح علاقة نسبتي الصحة والتغطية للقاعدة ومدى تأثيرهما عليها:
الصحة منخفضة | الصحة عالية | |
القاعدة نادرًا ما تكون صحيحة ولكن يمكن استخدامها كثيرًا | القاعدة غالبًا صحيحة ويمكن استخدامها كثيرًا | التغطية عالية |
القاعدة نادرًا ما تكون صحيحة وتُستخدم نادرًا | القاعدة غالبًا صحيحة ولكنها نادرًا ما تُستخدم | التغطية منخفضة |
فعلى سبيل المثال إذا كان لدينا قاعدة ذات صحة عالية وتغطية منخفضة فإنها تشبه أن يكون لدينا فرس سباق يفوز دومًا في أي سباق يشترك به ولكنه لا يشترك في السباق إلا مرة واحدة فقط كل سنة. وحتى في مثل هذه الحالة سوف يكون بالإمكان تحقيق الجوائز الكبرى. ولكن في حالة اكتشاف قاعدة مثيلة في تحليل سلة مشتريات مركز تجاري فإنه لن تكون ذات فائدة فعلية يمكن تحقيق أية فوائد كبرى من خلالها.
وتكمن الفائدة في عملية تحديد هاتين القيمتين بأنها تساعد في تقدير طريقة الاستفادة من القاعدة ومدى الحاجة لاستثمارها بشكل جيد.
طريقة تقييم الأنماط والقاعدة المستكشفة
في مثال تحليل سلة مشتريات أحد المراكز التجارية، ليكن لدينا القاعدة التالية:
“إذا اشترى الزبون حليب فإنه يشتري البيض”
والأعداد التالية كما يلي:
ن = 100: العدد الكلي للسجلات في قاعدة البيانات.
ب = 30: عدد سجلات المشتريات التي تحتوي على البيض.
ح = 40: عدد سجلات المشتريات التي تحتوي على الحليب.
م = 20: عدد سجلات المشتريات التي تحتوي على البيض والحليب معًا.
فتكون:
نسبة صحة القاعدة:
هي حاصل قسمة عدد سجلات المشتريات التي تحتوي على البيض والحليب معًا مقسومًا على عدد سجلات المشتريات التي تحتوي على الحليب.
وتكون في هذه الحالة:
الصحة = 20/40 = 50%.
أما التغطية فتكون:
حاصل قسمة عدد سجلات المشتريات المحتوية على الحليب مقسومًا على العدد الكلي للسجلات في قاعدة البيانات.
وهي هنا:
التغطية = 40/100 = 40%.
والشكل التالي يبين هذه القاعدة:
مقومات الأنماط والقواعد المفيدة
إن أكبر مشكلة يمكن مواجهتها في خوارزميات تنقيب الأنماط واستقراء قواعد الارتباط والتبعية هي:
كيف يمكن تمييز القاعدة المفيدة من القاعدة غير المفيدة؟
فمن القواعد التي يتم استكشافها ما لا يكون لها فائدة عملية، ومنها ما تكون صحتها نادرة.
ومنها ما تكون تغطيتها نادرة ولا يمكن تطبيقها، ومنها ما توضح معلومات بديهية لا حاجة لها.
من جهة أخرى، تعتبر القاعدة البسيطة والواضحة مفيدة أيضًا بعكس ما إذا كانت معقدة وصعبة الفهم.
كذلك يمكن اعتبار القاعدة مفيدة في حالة ما إذا كانت توضح علاقة فريدة.
كما توجد أنواع أكثر تعقيدًا من قواعد الارتباط والتي يطُلق عليها قواعد الارتباط متعددة المستويات والتي يتم تنقيبها واستكشافها في قواعد البيانات الضخمة.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.