ملخص المحتوى
شرح وتبسيط مفهوم القيم المتطرفة والفائدة من تنقيب القيم المتطرفة في قواعد البيانات، وتطبيقاتها في الواقع العملي في المجالات المختلفة. شرح طرق تنقيب واستكشاف القيم المتطرفة والتعبير عنها بالرسم البياني، وبيان أنواعها المختلفة. القيمة المتطرفة العامة أو الاعتيادية، والقيم الخاصة أو الفردية، والقيم المتطرّفة الجماعية، وفي البيانات عالية الأبعاد.
المحتويات
مفهوم القيم المتطرفة
القيم المتطرفة (بالإنجليزية: Outliers) هي القيم التي يمكن أن تتواجد وسط مجموعة من البيانات في قواعد البيانات بحيث أنها لا تتوافق أو لا تشبه في سلوكها السلوك العام لبقية البيانات.
وغالبًا ما تكون هذه القيم مختلفة بشكل واضح وملفت للانتباه عن بقية البيانات الموجودة معها.
ويمكن أن تظهر هذه القيم عن طريق الخطأ، كأن يتم التعبير عن عمر أحد الأشخاص بالقيمة (999) نتيجة خطأ في إدخال البيانات.
كما يمكن أن تظهر هذه القيم نتيجة استخدام القيم الافتراضية في برنامج الإدخال عن طريق الخطأ.
وخلاف ذلك فقد تكون قيم متطرفة بالفعل مقارنة بمثيلاتها من القيم الأخرى في قاعدة البيانات.
أمثلة وتطبيقات
مثلا، يمكن أن يكون راتب المدير العام في أحد الشركات يمثل قيمة متطرفة وسط بقية القيم الخاصة برواتب بقية الموظفين.
وكثيرًا من الخوارزميات المستخدمة في تنقيب البيانات تحاول التقليل من تأثيرها المُزعج أو حتى إزالتها نهائيًا، وهو ما يؤدي أحيانًا إلى فقدان المعلومات المهمة المخبأة أو الخفية.
وحيث أن الإزعاج بالنسبة لشخص ما قد يكون إشارة مهمة لشخص آخر، فإن القيم المتطرفة نفسها، التي قد تكون مزعجة من منظور ما، يمكن أن يكون لها دلالات شيّقة ومهمة في بعض الأحيان من منظور آخر. ففي محل لبيع المجوهرات يمكن أن يكون ثمن قطعة من الألماس قيمة من النوع المتطرف مقارنة بثمن بقية أنواع المجوهرات التي تُباع في هذا المحل، وبالتالي تُشكل مصدرًا للربح لصاحب المحل، وبالتالي فهي ليست قيمة متطرفة مُزعجة بالنسبة له.
وهناك تطبيقات عديدة في تنقيب القيم المتطرفة واستكشاف البيانات المتطرفة.
ومن أشهر هذه التطبيقات تلك المستخدمة في كشف عمليات الاحتيال (بالإنجليزية: Fraud Detection)، حيث يتم استخدامها في كشف الاستعمال غير الطبيعي وغير المألوف لبطاقات الائتمان أو خدمات الاتصالات.
كما يمكن استخدامها في وضع خطط التسويق وبخاصة التسويق الاستهدافي والمخصص لتعريف السلوك الشرائي للزبائن من ذوي الدخل المنخفض جدًا أو المرتفع جدًا، باعتبارها قيم متطرفة.
كما يمكن استخدامها في المجالات الطبية وتحليل الحالات المَرَضية من أجل إيجاد الاستجابات غير الطبيعية للعلاجات الطبية المتنوعة.
وصف تنقيب القيم المتطرّفة
يمكن وصف عملية تنقيب القيم المتطرفة كما يلي:
إذا كان لدينا عدد من البيانات أو العناصر (ن)
وكان لدينا عدد (م) من القيم المتطرفة المتوقع تواجدها وسط تلك العناصر
فيكون المطلوب هو إيجاد عناصر الفئة (م) والتي يمكن اعتبارها العناصر الأكثر تطرفًا ولا تتناسق مع بقية البيانات.
الشكل التالي يوضح وضعية القيم المتطرفة بالنسبة لمجموعة من البيانات:
أنواع القيم المتطرفة
توجد أربعة أنواع من القيم المتطرفة حيث يمكن أن تكون:
- عامة أو اعتيادية
- خاصة أو فردية
- جماعية
- في البيانات عالية الأبعاد
وفيما يلي وصفًا موجزًا لكل نوع:
القيم المتطرفة العامة أو الاعتيادية
وتكون فيها القيم بذاتها متطرفة بطبيعتها، أي بدون الاقتران بسمات أخرى تجعلها قيم متطرفة مشروطة.
مثلا، راتب المدير العام في الشركة هو قيمة بذاتها متطرفة من هذا النوع، لأنه ثابت لكل الأشهر وطوال العام ولا يقترن بسمات أخرى.
القيم المتطرفة الخاصة أو الفردية
القيم المتطرفة الاعتيادية هي التي تكون متطرفة في أحوال أو ظروف معينة.
مثلا، درجة الحرارة في مدينة ما يمكن أن تكون قيمة من هذا النوع كما يلي:
إذا كانت مدينة ما في منطقة باردة شتاءًا وحارة صيفًا، فإن درجة الحرارة (12) درجة مئوية هي قيمة غير متطرفة في فصل الشتاء.
أما إذا كانت في فصل الصيف فتكون عندئذٍ قيمة متطرفة فردية، حيث أنها اعتمدت على الموقع الجغرافي والتاريخ، أو أية معطيات أخرى.
مثلا، يمكن لنظام مراقبة حركة مشتريات بطاقات الإئتمان في أحد البنوك، والذي يهدف لكشف عمليات الاحتيال، أن يقوم بالكشف عن حركة شراء غير اعتيادية، باعتبارها قيمة متطرفة، مقارنة بالسلوك الاعتيادي للزبون صاحب البطاقة، سواء من حيث القيمة الشرائية أو مكان تنفيذ عملية الشراء. ويحدث ذلك عند ملاحظة إجراء عملية شراء بمبلغ كبير نسبيًا مقارنة بمتوسط مبالغ الشراء الذي اعتاد عليه الزبون بحيث يتم اعتبارها قيمة متطرفة.
وإذا اعتبرنا أن مكان تنفيذ عملية الشراء معطيات يمكن الاستناد عليها فإن هذه العملية يمكن أن لا يتم اعتبارها قيمة متطرفة طالما أنه تم تنفيذها من نفس المكان الذي يستخدمه صاحب البطاقة، وبالتالي فإنها تتحول إلى فرصة، باعتبار أن هذا الزبون ينتقل إلى شريحة أعلى من شرائح الزبائن بحسب حجم المشتريات باستخدام تلك البطاقات.
القيم المتطرفة الجماعية
القيم المتطرفة الجماعية هي حالة من حالات ظهور مجموعة من القيم المتطرفة معًا.
ومن أمثلتها ما يمكن أن يحدث في أحد مطاعم الوجبات السريعة من تأخير في توصيل الطلبات للمنازل.
فالتأخير يمكن أن يحدث في أي وقت وفي أي يوم، ولا يمكن أن يتم احتسابه كقيمة متطرفة، فهو يحدث من حين إلى آخر.
ولكن عندما يحدث تأخير في توصيل (100) طلب في يوم واحد فإن كل تلك الطلبات كمجموعة كاملة يشكلون معًا قيمة متطرفة تسمى قيم متطرفة جماعية، بالرغم من أن كل واحد منها لا يمكن اعتباره قيمة متطرفة بشكل منفرد.
وبالتالي يتطلب الأمر أن تقوم إدارة المطعم ببحث هذه المشكلة في ذلك اليوم لمعرفة أسبابها ومنع تكرارها.
وبشكل عام، فإن أي مجموعة من البيانات يمكن أن يكون فيها أنواع مختلفة من العناصر المتطرّفة.
كما أنه يمكن لعنصر ما أن ينتمي لأكثر من نوع من هذه الأنواع.
ويمكن استخدام تطبيقات تنقيب البيانات المتطرفة في العديد من المجالات ولأهداف متنوعة.
فالقيم المتطرفة العامة هي أبسط الأنواع، والخاصة تستلزم مزيدًا من المعلومات لتحديد الخصائص والسمات التي تجعلها قيمًا متطرفة.
أما القيم المتطرّفة الجماعية فإنها تتطلب معلومات أكثر عن العلاقات البينية بداخل مجموعة معينة من البيانات حتى يمكن الكشف عن إمكانية اعتبارها متطرفة بشكل جماعي.
القيم المتطرفة في البيانات عالية الأبعاد
يُشكل استكشاف وتنقيب القيم المتطرّفة في بيئة البيانات عالية الأبعاد تحديًا كبيرًا، وذلك لأن اعتبار القيمة في مثل هذه الحالات متطرفة يكون وفقًا لمعايير أكثر تعددًا وتشعبًا بحكم تعدد الأبعاد التي يتم القياس بالنسبة لها، وبالتالي صعوبة معرفة العلاقة الحقيقية التي تربط بين العناصر المختلفة للبيانات فيها.
وفي حالة استكشاف هذه القيم في بيئات البيانات عالية الأبعاد فإنه يلزم تحديد المزيد من المعلومات المرتبطة بتلك القيم حتى يتم توضيح طبيعة تطرفها بشكل محدد.
فينبغي مثلا تفسير كيفية اعتبار العنصر متطرف وتوضيح السياق الذي تم اعتباره متطرفًا وفقًا له، بالإضافة لتحديد الفئة الجزئية التي تم اعتبار هذا العنصر متطرفًا بالنسبة لها.
وأخيرًا يجب توضيح مدى قابلية التوسع في اعتبار هذا العنصر متطرفًا بحسب وضعه بالنسبة لمجموعات جزئية أخرى من بيئة البيانات.
طرق استكشاف القيم المتطرفة
يمكن استكشاف القيم المتطرفة بعدة طرق كما يلي:
استكشاف القيمة المتطرفة باستخدام خوارزميات التصنيف
يمكن استكشاف القيمة المتطرفة باستخدام خوارزميات التصنيف والتنبؤ ويتم ذلك من خلال تحديد بعض السمات ومقاييسها الطبيعية أو الاعتيادية مع تحديد معدلات الحد الأقصى لتلك القيم بحيث يمكن اعتبار القيم التي تتخطاها هي قيم متطرفة.
وتكون مهمة خوارزمية التصنيف هي فحص كل عنصر من العناصر واكتشاف الفئة التي ينتمي إليها، بحيث تكون أحد الفئتين التاليتين:
- فئة العناصر الطبيعية أو غير المتطرفة
- فئة العناصر المتطرفة
ومن ثم يتم استكشاف القيمة المتطرفة من خلال التنبؤ بالفئة التي تنتمي لها عند تطبيق خوارزمية التصنيف عليها.
استكشاف القيم المتطرفة باستخدام خوارزميات التحليل العنقودي
وتتم هذه الطريقة على مرحلتين، المرحلة الأولى تكوين المجموعات الجزئية باستخدام خوارزمية التحليل العنقودي، ومن ثم البحث عن العناصر التي لا تنتمي لأي مجموعة من تلك المجموعات فتكون هي القيمة المتطرفة.
والفرق بين طريقة استكشاف القيم المتطرفّة باستخدام خوارزميات التصنيف وطريقة استكشافها باستخدام خوارزميات التحليل العنقودي هو:
أن الأولى تُستخدم عندما يكون لدينا معلومات نستند عليها من أجل تصنيف البيانات واكتشاف ما هو شاذ أو متطرف قياسًا مع تلك المعلومات.
أما في الحالة الثانية فيتم استخدامها عندما لا يكون لدينا معلومات أو خصائص وسمات نستند عليها في القياس.
في الواقع، إن الاختلاف في استخدام الطريقتين يوضح بالفعل الاختلاف القائم بين أساليب التحليل والتنقيب باستخدام الخوارزميات المختلفة، وبالتحديد الاختلاف بين خوارزميات التصنيف والتنبؤ وخوارزميات التحليل العنقودي أو التجزئة العنقودية بشكل عام.
في الشكل أعلاه، العنصر (أ) قيمة متطرفة، لأنه لا ينتمي لأي من المجموعات الأخرى.
كما يمكن اعتبار الفئة (م3) بأكملها قيمة متطرفة أيضًا.
استكشاف القيم المتطرفة باستخدام المقاييس الإحصائية الكلاسيكية
وهي الطريقة المتبعة في التحليل الإحصائي الكلاسيكي، وباستخدام المقاييس الإحصائية المتنوعة.
ومن هذه المقاييس المتوسط والوسيط والإنحراف المعياري.
ويتم الحكم على القيم التي تبتعد كثيرًا عن تلك المقاييس بأنها قيمة متطرفة طالما أنها تبتعد كثيرًا عن مراكز تجمع البيانات.
استكشاف القيم المتطرفة بقياس القرب من الجيران
يمكن استكشاف القيمة المتطرفة من خلال قياس المسافة بينها وبين اقرب جيرانها.
فإذا كانت هذه المسافة كبيرة جدًا مقارنة بالمسافة بين العناصر الأخرى وجيرانها فإنها تمثل قيمًا متطرفة في نفس الفئة من البيانات.
وعادة ما يتم قياس المسافة إلى عدد محدد من الجيران، (3) مثلا.
كما تختلف النظرة للقيمة المتطرفة بحسب موقع الفئة التي يتم القياس بالنسبة لها أو لعناصرها.
مثلا، في الشكل التالي يظهر كيف تكون القيم (أ)، (ب) قيمًا متطرفة بالنسبة للفئة (م1) ولكنها قيم غير متطرفة بالنسبة للفئة (م2).
أما القيمة (ج) فهي قيمة متطرفة بالنسبة للفئتين (م1) و(م2).
والقيمة (د) قيمة ليست متطرفة بالنسبة للفئة (م2).
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى فؤاد عبيد، إصدار: دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.