ما هو تخطيط عمليات تنقيب البيانات
يُعتبر تخطيط عمليات تنقيب البيانات من الأمور المهمة للحصول على أفضل النتائج، فالتخطيط الجيد يؤدي للنتائج الجيدة.
ويمكن تلخيص الخطوات الأولية للتنقيب في البيانات في ما يلي:
- تحديد المشكلة المراد بحثها وإيجاد الحلول لها
- بناء قاعدة بيانات التنقيب
- التعرف على واستكشاف البيانات
- تحضير البيانات للتنقيب
- بناء نموذج التنقيب المناسب
- تطبيق النموذج
- استخراج النتائج
خطوات تخطيط عمليات تنقيب البيانات
فيما يلي شرحًا مختصرًا لكل خطوة من خطوات تخطيط عمليات تنقيب البيانات:
تحديد المشكلة المراد بحثها وإيجاد الحلول لها
من الضروري لبحث حل مشكلة ما أن يتم تحديدها بشكل دقيق، وجمع كافة المعلومات المتعلقة بها.
وتبدأ هذه العملية بمراجعة وافية لطبيعة عمل الشركة أو المؤسسة المعنية وأهدافها والبدء بتحديد طبيعة المشكلة وأسبابها وجذورها وتفرعاتها.
وليس بالضرورة أن تكون هناك مشكلة بمعنى الكلمة ولكن قد تكون المشكلة مُصاغة على شكل هدف معين.
ومن أحد الأمثلة على مشاكل من هذا النوع ما يمكن صياغته على شكل غرض أو هدف مثل:
“زيادة نسبة المبيعات في السنة القادمة بنسبة 30%”
بناء قاعدة بيانات التنقيب
وتعتبر من ضمن العمليات المهمة في مراحل التحضير في تخطيط عمليات تنقيب البيانات، وهي من المراحل التي قد تأخذ وقتًا طويلا، وحتى إذا كانت هناك عدد من قواعد البيانات الموجودة بالفعل فإنه يُستحسن بناء قاعدة بيانات جديدة بهدف التحليل والتنقيب، بحيث تشتمل على أية تعديلات أو عمليات تحضير بكل الطرق التي يمكن تطبيقها والتي تلزم لأغراض التنقيب بشكل خاص، مثلا كأن يتم إضافة حقول جديدة أو إجراء عمليات تحويل لبعض الحقول الموجودة بالفعل.
التعرف على واستكشاف البيانات
البدء بالتعرف على البيانات ومعرفة أنواع البيانات واستكشافها وتحديد الحقول الأكثر أهمية والقيم التي يمكن من خلالها تحقيق أفضل النتائج، كذلك يمكن في هذه المرحلة إعداد بعض الأشكال البيانية الأولية التي تلخص البيانات أو تقدم وصفًا إحصائيًا بسيطًا لها بهدف التعرف على طبيعة البيانات عن قرب واستكشاف ما يمكن أن يكون له دلالة تساهم في تحديد مسارات وملامح التحليل الإحصائي المتقدم والتنقيب المزمع تنفيذه.
تحضير البيانات للتنقيب
وتشمل جميع عمليات التحضير التي يمكن تطبيقها على البيانات، والتي تشتمل على عمليات تنظيف البيانات ودمج واختزال البيانات والتحويل التي يمكن أن يلزم تطبيقها على البيانات، ومن أمثلتها تحديد وانتقاء المتغيرات والسجلات وتخليق متغيرات جديدة بحسب الحاجة، كإنشاء المتغيرات القابلة للقياس بدلا من بعض المتغيرات غير الرقمية في قاعدة البيانات، وكذلك حساب متغيرات جديدة مبنية على أكثر من متغير إذا لزم الأمر، أو تحويل وحدات القياس المستخدمة في قياس تلك المتغيرات أو استخدام وحدات القياس المشتقة وغيرها من عمليات التحضير المختلفة.
بناء نموذج التنقيب المناسب
اختيار خوارزمية التنقيب المناسبة من الخوارزميات المختلفة والبدء بإنشائها، وذلك وفق العديد من الاعتبارات التي يمكن الاستناد عليها، كالغرض أو الهدف من الخوارزمية وإمكانية تطبيقها وتحقيقها لهذا الغرض ومدى إمكانية تحقيقها للأهداف المرجوة منها.
تطبيق النموذج
تطبيق نموذج التنقيب وإجراء كافة التعديلات المناسبة بعد التطبيق الأولي في حالة وجود أخطاء، مع مراعاة أهداف المشكلة وبحث إمكانية حلها بالنموذج الذي تم بناءه.
استخرج النتائج
استخراج نتائج التحليل والتنقيب وتوضيح الحلول للمسألة أو المشكلة محل البحث وكيفية تطبيقها وفق ما توفر من نتائج تم التوصل إليها.
اختيار التقنية المناسبة أثناء تخطيط عمليات تنقيب البيانات
لا توجد قاعدة محددة يتم البناء عليها لاختيار تقنية من تقنيات التنقيب، ويتم الاختيار عادة بناءًا على الخبرة في هذا المجال والتجربة الفعلية للتقنيات والخوارزميات المختلفة ومدى فاعليتها، ومن جهة أخرى قد تكون المفاضلة أيضًا بين التقنيات بقدر ما يكون هناك توفرًا للأدوات المناسبة والخبرة في استخدام التطبيقات الجاهزة، ومع تراكم الخبرة والتجربة يتم تقييم الخيارات وتحديد المناسب منها وتطبيقه بالشكل الأفضل الذي يتناسب مع الإمكانات والأدوات المتوفرة من جهة ويناسب الاحتياجات والأهداف المرجوة من التحليل والتنقيب من جهة أخرى.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، الطبعة الأولى، 2017.