ملخص المحتوى
شرح المقصود بعمليات تحويل البيانات وتفريد البيانات، وشرح الاستراتيجيات المختلفة لتحويل البيانات: تنعيم البيانات وإنشاء السمات الجديدة، التجميع، التطبيع، تفريد البيانات: توليد التسلسل الهرمي للبيانات الاسمية والسلاسل الزمنية، مع التوضيح بالأمثلة التطبيقية.
المحتويات
تحويل البيانات
تُعتبر إجراءات كل من تحويل البيانات (بالإنجليزية: Data Transformation) وتفريد البيانات من المراحل المهمة في تحضير البيانات للتحليل والتنقيب، حيث أنها تُساعد في الحصول على نتائج أفضل في التحليل والتنقيب وترفع من كفاءته، كما أنها تُساعد في تبسيط فهم الأنماط والارتباطات التي يتم استكشافها.
ويمكن حصر الاستراتيجيات المتنوعة لتحويل البيانات فيما يلي:
1. تحويل البيانات بطريقة التنعيم
تنعيم البيانات (بالإنجليزية: Smoothing) هي تقنية من تقنيات تحويل البيانات تُستخدم لإزالة الإزعاج من البيانات وتشتمل على كل من التكييس (تجميع البيانات في سلات) وتقنية الانحدار والتجزئة العنقودية، والتي تم استعراضها جميعًا في قسم تنظيف البيانات سابقًا.
2. تحويل البيانات بإنشاء السمات الجديدة
إنشاء السمات الجديدة أو (بالإنجليزية: Attribute Construction) هي عملية تحويل البيانات عن طريق إضافة سمة جديدة لها لم تكن موجود سابقاً، وذلك للمساعدة في عمليات التحليل والتنقيب.
مثلا في قاعدة بيانات زبائن أحد المراكز التجارية يمكن إضافة سمة جديدة لكل الزبائن تكون وظيفتها التعبير عن قيمة مناظرة لحجم المشتريات لكل منهم، بحيث تأخذ قيمة واحدة من قيم الفئات التالية (منخفض – متوسط – مرتفع)، وذلك من واقع الأرقام المحددة في قاعدة البيانات ومحددات يتم وضعها مسبقًا من قِبل القائمين على عمليات التحليل والتنقيب.
الجدول التالي يوضح هذه الطريقة:
م | الفرع | الزبون | العمر | الدخل | حجم المشتريات | الفئة |
1 | ل | أ | 40 | 1000 | 200 | منخفض |
2 | ل | ب | 30 | 800 | 200 | منخفض |
3 | م | ج | 50 | 1500 | 300 | مرتفع |
4 | م | د | 45 | 1200 | 250 | متوسط |
…. |
ويلاحظ من الجدول أعلاه كيف تمت عملية إنشاء السمات الجديدة باستحداث متغير جديد باسم “الفئة” ومنحه قيم مختلفة بحسب حجم مشتريات الزبون، بحيث تم اعتبار الفئات كما يلي:
- منخفض: حجم المشتريات يقع في الفئة (صفر – 200)
- متوسط: حجم المتشريات يقع ضمن الفئة (201 – 250)
- مرتفع: حجم المشتريات يقع ضمن الفئة (251 – 300)
3. تحويل البيانات بطريقة التجميع
التجميع (بالإنجليزية: Aggregation) وهي طريقة لتحويل البيانات عن طريق تجميع ملخصات البيانات، مثلا بيانات المبيعات اليومية في أحد المراكز التجارية يمكن تجميعها وحساب المبيعات الشهرية والسنوية الإجمالية. وهذه الطريقة تشبه طريقة إنشاء مكعب البيانات أو (بالإنجليزية: Data Cube) بهدف تحليلها في عدة مستويات.
4. تحويل البيانات بطريقة التطبيع
التطبيع (بالإنجليزية: Normalization) هي طريقة لقياس البيانات والسمات باستخدام تدريج معين، بحيث يتم حصرها في مدى محدد، مثلا من صفر إلى 1، أو من -1 إلى 1، ويتم حساب القيم المناظرة لهذه القيم باعتبارها حدود عظمى ودنيا من كل القيم المتوفرة في قاعدة البيانات.
مثال تطبيقي على تحويل البيانات
مثلا في قاعدة بيانات أحد المراكز التجارية إذا كان لدينا بيانات الزبائن كما يلي:
م | الفرع | الزبون | العمر | الدخل | حجم المشتريات |
1 | ل | أ | 40 | 1000 | 200 |
2 | ل | ب | 30 | 800 | 200 |
3 | م | ج | 50 | 1500 | 300 |
4 | م | د | 45 | 1200 | 250 |
…. |
فإنه يمكن إضافة سمة جديدة بعنوان تدريج الدخل ليتم التعبير عنه بشكل نسبي لكل الزبائن على تدريج يقع حديه بين الصفر والواحد الصحيح، وذلك كما يلي:
- أقل قيمة للدخل في الجدول هي 800 = الحد الأدنى للتدريج
- أعلى قيمة للدخل في الجدول هي 1500 = الحد الأعلى للتدريج
أي أن الحد الأدنى والحد الأعلى لقيمة الدخل = (800 – 1500)
فتكون هاتين القيمتين مناظرتين لقيم الحد الأدنى والأعلى على التدريج الذي يتم اختياره، وليكن هنا (صفر – 1 ).
ويتم حساب أي قيمة من قيم الدخل على هذا التدريج باستخدام المعادلة التالية:
قيمة الدخل على التدريج = (قيمة الدخل – الحد الأدنى) / (الحد الأعلى – الحد الأدنى)
وبحساب جميع القيم في الجدول يصبح لدينا سمة جديدة تكون قيمتها لكل سجل كما في الجدول التالي:
م | الفرع | الزبون | العمر | الدخل | حجم المشتريات | تدريج الدخل |
1 | ل | أ | 40 | 1000 | 200 | 0.29 |
2 | ل | ب | 30 | 800 | 200 | 0.00 |
3 | م | ج | 50 | 1500 | 300 | 1.00 |
4 | م | د | 45 | 1200 | 250 | 0.57 |
…. |
تفريد البيانات
تفريد البيانات (بالإنجليزية: Data Discretization) هي طريقة يتم فيها استبدال السمات أو المتغيرات الرقمية بسمات أسمية أو تسميات فئوية، مثلما يحدث في سمة العمر، كأن يتم استبدال متغير العمر بفئات عمرية مختلفة مثلا (من 10 إلى 20، من 21 إلى 30، من 32 إلى 40، … إلخ)، أو أن يتم استبدالها بتسمية أسمية مثل (أطفال – بالغين – كبار السن).
كما يمكن إعادة التفريد مرة أخرى في مستويات أعلى بشكل هرمي.
ويمكن تعريف أكثر من تسمية جديدة للمتغير نفسه، وذلك بحسب حاجات التحليل والتنقيب لكل متغير.
توليد التسلسل الهرمي للبيانات الأسمية
توليد التسلسل الهرمي للبيانات الأسمية (بالإنجليزية: Hierarchy Generation of Nominal Data) هي طريقة تُستخدم لتعميم البيانات الاسمية لمستويات أعلى، مثلا في البيانات المتعلقة بالعنوان الخاص بالزبون الذي يظهر فيها اسم المنطقة يمكن توليد متغير جديد يتم تخصيصه لاسم المدينة، ويتم تحويل كل أسماء المناطق إلى اسم المدينة التي ينتمون لها.
وقد تحتوي إحدى قواعد البيانات على عدة مستويات من المتغيرات الاسمية ضمنيًا، مثلا عندما يكون فيها متغير يعبر عن المدينة ومتغير يعبر عن البلد، فطبيعي أن يكون متغير البلد في مستوى أعلى من مستوى المدينة، أو بمعنى آخر يشتمل على كل المدن التي تقع فيها بتسلسل هرمي.
مثال تطبيقي على تفريد البيانات
الشكل التالي يوضح بيانات زبائن أحد سلاسل المطاعم العالمية تم تجميعها حسب البلد والمحافظة أو الولاية والمدينة والمنطقة بشكل هرمي:
ويتضح أنه كلما يتم استحداث متغير جديد في المستوى الأعلى (مدينة، أو محافظة، أو بلد..) فإنه يحتوي على عدد من الفئات الأدنى مجتمعة بشكل تراكمي هرمي ويقل عدد السجلات المختلفة كلما تم الصعود في المستويات الأعلى، نظرًا لاحتواء المجموعات في المستويات الأعلى على عدد من المجموعات الجزئية التي تتشابه فيها العناصر المشتركة. (انظر موضوع تشابه واختلاف البيانات).
ويتم التعبير عن هذا الأمر رقميًا بأن يُقال أن لدى شركة ما زبائن من خمسة عشر دولة مختلفة، أو أن نقول أن لديها زبائن من 250 محافظة مختلفة تقع في 15 دولة، أو أن لديها زبائن من 724 مدينة أو قرية مختلفة مثلاً، وأخيرًا فإنه يمكن القول بأن لديها زبائن من 12400 حي أو منطقة سكنية مختلفة.
توليد التسلسل الهرمي في السلاسل الزمنية
ومع ذلك، فإن هذه العملية من عمليات تحويل البيانات وتفريد البيانات قد تبدو معكوسة إذا تم استخدامها في السلاسل الزمنية، مثلا في قاعدة بيانات مبيعات إحدى الشركات يمكن أن يتم توليد سلاسل هرمية بحسب فترات زمنية مختلفة مثل السنوات والأشهر والأيام، يتوفر فيها سجلات لعدد كبير من السنوات. ولكن إذا تم تجميع السجلات حسب أسماء الأشهر فسوف ينتج عدد (12) قيمة مختلفة فقط وهي القيم المناظرة لأسماء الأشهر في السنة. أما لو تم تجميع المبيعات بحسب أسماء أيام الأسبوع فسوف نحصل على (7) أسماء مختلفة فقط وهي المناظرة لأيام الأسبوع، وهو ما يجعل التسلسل الهرمي يظهر وكأنه ينتقل إلى مستويات أعلى بشكل تصاعدي، وهذا الأمر لا ينطبق في هذه الحالة، بالرغم من أن أيام الأسبوع أقل من عدد الأشهر والسنوات.
في الواقع، فإن هذه الطريقة تفيد فقط عند دراسة وتحليل ومقارنة حجم المبيعات خلال أيام الأسبوع بهدف استكشاف أيام الذروة أو حتى ساعاتها في حال إضافة التوقيت بالساعة للبيانات محل الدراسة، أما توليد التسلسل الهرمي بهذا الشكل فإنه لا يشترط تشابه الأيام من حيث الأسم فقط، ولكنه يستلزم تطابقها أيضًا، وهو ما يعني أن السنة الواحدة سوف تظل تحتوي على (365) يوم مختلف، والشهر الواحد يحتوي على (30) يوم مختلف.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.