ما هو تنقيب البيانات المعقدة
تُستخدم الخوارزميات وتقنيات تحليل وتنقيب البيانات المعقدة في مجالات عديدة تزداد اتساعًا يوميًا وتزداد معها التحديات في مواجهة أنواع البيانات المتعددة والأكثر تعقيدًا، كما تتنوع اتجاهات بحوث التنقيب وفقًا لتنوع وتعدد تلك المجالات، ويزداد استخدامها في هذا العصر في مجال الذكاء الاصطناعي الذي يهدف إلى تسهيل الحياة اليومية للبشر في شتى المجالات. ويشتمل تنقيب أنواع البيانات المعقدة على تنقيب السلاسل الزمية والسلاسل الرمزية والسلاسل البيولوجية. بالإضافة إلى تنقيب الأشكال البيانية وشبكات الكمبيوتر والإنترنت، والبيانات المكانية والبيانات الزمكانية، وبيانات الأشياء المتحركة وبيانات النظم الإلكترونية، وبيانات الوسائط المتعددة، وتنقيب النصوص وبيانات الإنترنت وتدفقات البيانات.
وسيتم إلقاء الضوء على كل نوع من هذه الأنواع في هذا القسم.
المحتويات
تنقيب البيانات المعقدة من نوع السلاسل
(السلاسل الزمنية أو السلاسل الرمزية أو السلاسل البيولوجية).
إن السلسلة هي قائمة من الأحداث المرتبة، سواء كانت مرتبة زمنيًا أو من حيث الرمز أو الطبيعة البيولوجية.
السلاسل الزمنية تتكون من سلسلة طويلة من البيانات الرقمية التي يتم تسجيلها في فترات زمنية متساوية، كالدقيقة أو الساعة أو اليوم، ويمكن استخدام السلاسل من هذا النوع في الكثير من المجالات، كالأعمال والعلوم والطب ودراسات البيئة والمناخ. مثلا يمكن استخدامها في التنبؤ بتوقعات المبيعات المستقبلية وتحليل حركة أسعار الأسهم وتحليل الظواهر الطبيعية. وتحليل درجات الحرارة والرياح، ودراسات توقعات الزلالزل والأعاصير.
وفي سلاسل البيانات الرمزية، فإنها تتكون من سلاسل طويلة من الأحداث أو البيانات الاسمية، والتي لا يمكن ملاحظتها في فترات زمنية متساوية، ففي كثير من الأحيان تكون الفترات بين الأحداث غير مهمة. ومن أمثلتها سلاسل رحلات تسوق الزبائن أو سلاسل التفاعل مع صفحات الإنترنت. وكذلك في سلاسل الأحداث المتعددة في مجالات العلوم والهندسة والطب والطبيعة والبيئة وتنمية المجتمع.
أما في السلاسل البيولوجية فهي تشتمل على سلاسل تحليل الـ دي أن إيه DNA وتحليل البروتين، ومثل هذه السلاسل طويلة جدًا وتحمل بين طياتها دلالات خفية، منطقية مهمة وشديدة التعقيد. كما أن الفترات بين عناصر تلك السلاسل له أهمية أيضًا.
تنقيب الأشكال البيانية وبيانات الشبكات
إن الأشكال البيانية أو (بالإنجليزية: Graph) تمثل بنية أكثر تعميمًا وتشعبًا في تركيبها من البيانات العادية. بحيث أنها يمكن أن تشتمل على العناصر والمجموعات والسلاسل أو الشبكات أو الأشجار. وهناك تشكيلة واسعة من أنواع الأشكال البيانية التي تمثل بيانات الإنترنت وشبكات التواصل الاجتماعي والشبكات البيولوجية والمعلوماتية الكيميائية والمعلوماتية الحيوية والوسائط المتعددة والنصوص.
وقد ازدادت أهمية تنقيب الأشكال البيانية والشبكات وأصبحت تشكل مسارًا مهمًا من مسارات دراسات أو بحوث التنقيب نظرًا للتقدم التكنولوجي واتساع انتشار التكنولوجيا في هذا العصر.
وتنقيب أنماط الأشكال البيانية يهدف عادة لاستكشاف تكرارات الأشكال البيانية الجزئية في شكل بياني واحد أو عدة أشكال. وتنقيب أنماط الأشكال البيانية له عدة تطبيقات شيقة في العديد من المجالات.
مثلا، يمكن استكشاف تكرارات الأشكال الجزئية المميزة التي تعبر عن بنية متشابهة من البيانات الخاصة بتركيب أنواع متعددة من العلاجات الطبية واستجابات المرضى لها.
تنقيب البيانات المعقدة المكانية
إن تحليل وتنقيب البيانات المعقدة المكانية (بالإنجليزية: Mining Spatial Data) يهدف إلى استكشاف الأنماط والمعرفة وقواعد الارتباط المكانية وأنماط التشابه المكاني للبيانات المكانية، وهذه البيانات يمكن أن تكون على شكل متجهات أو نقاط أو صور نقطية أو الوسائط المتعددة الجغرافية.
ومن أمثلتها دراسات التطور التاريخي للمدن والشواطئ والأراضي والتضاريس وأنماط المناخ، والتوقع أو التنبؤ بالزلازل والأعاصير، واتجاهات الاحترار المستقبلية.
وقد تطور هذا المجال كمسار من مسارات بحوث التنقيب وزاد من أهميتة وكفاءته بعد التطور الملحوظ في استخدام أجهزة الهاتف المحمول ونظام تحديد المواقع الجغرافية العالمي ويُرمز له بالاختصار (GPS) (بالإنجليزية: Global Positioning System). وكذلك خدمات خرائط الإنترنت وخدمات المناخ والأقمار الصناعية وتكنولوجيا الفيديو.
مثلا، علماء الحيوان يستخدمون أدوات القياس عن بُعد والتصوير والمراقبة الحية للحيوانات البرية من أجل تحليل سلوكهم البيئي.
وفي أنظمة المرور، تم تزويد المركبات بأنظمة تحديد المواقع الجغرافية لكي تقوم بإرشاد السائقين للمواقع المختلفة وتقدير المسافات التي تفصلهم عنها.
وفي الأرصاد الجوية، يتم استخدام الأقمار الصناعية لملاحظة واستكشاف الأعاصير وتقديرات أو تنبؤات المناخ ودرجات الحرارة اليومية.
تنقيب بيانات نظم المراقبة
يشتمل تنقيب البيانات المعقدة بيانات نظم المراقبة أو (بالإنجليزية: Observation System Data) على عدد كبير من المعلومات والبيانات الفيزيائية المركبة والمتداخلة، ومن أمثلتها نظم مراقبة المرضى في أقسام العناية المركزة في المستشفيات، والتي تربط نظام مراقبة المريض مرئيًا بالكاميرات وإلكترونيًا بأجهزة القياس المختلفة بشبكة الطوارئ المركزية.
ومن أمثلتها أيضًا أنظمة مراقبة شبكة المواصلات والطرق العامة التي ترتبط بأماكن التحكم والإشراف وإدارات المرور. والتي تتكون من مجموعة من أجهزة الاستشعار والرادارات وكاميرات الفيديو التي ترتبط بمركز البيانات أو المعلومات والتحكم بإدارات المرور.
ومعظم البيانات من هذا النوع ذات طبيعة متحركة ومتقلبة وغير متناسقة أو مترابطة. وهي معلومات مهمة جدًا لصناعة القرار اللحظي. فهي بحاجة دائمًا لوجود ارتباط وثيق بين ما يحدث في الموقف الحالي وقاعدة كبيرة من المعلومات والمعرفة تقوم بعمل الحسابات والتقديرات اللحظية وتعطي استجابة فورية، مثلا عند حدوث أمر طارئ لأحد المرضى في غرفة العناية المركّزة يقوم نظام التنقيب بتقييم هذا الحدث ومعرفة مدى خطورته ومن ثم إرسال إشارة للأجهزة الإليكترونية التي تطلق الإنذار وتقوم بتنبيه المختصين في المستشفى للأمر الطارئ الذي حدث للمريض.
وأبحاث التنقيب في هذا المجال تشتمل على العديد من الأهداف. كاستكشاف الأحداث النادرة والشاذة وتقدير الدقة والفاعلية في سير العمل وتقدير جودة أو كفاءة ومدى تكامل الأنظمة المستخدمة.
تنقيب بيانات الوسائط المتعددة
وهي عملية تهدف لاستكشاف الأنماط الشيّقة في قواعد بيانات الوسائط المتعددة أو (بالإنجليزية: Multimedia Data) التي تخزن وتدير تشكيلة واسعة من كائنات الوسائط المتعددة. والتي تشتمل على بيانات الصور والفيديو والصوت بالإضافة إلى سلاسل البيانات والنصوص والعلامات والعلاقات.
وتستهدف عمليات الاستكشاف بحث التشابه أو التطابق في الصور والخطوط والأصوات وغيرها من البحوث. ففي البحوث المتخصصة في شبكة الإنترنت تهدف عمليات التحليل والتنقيب لاستكشاف سلوك المستخدمين للشبكة ومعرفة تفضيلاتهم واهتماماتهم تجاه المحتويات المتشابهة في مواقع الإنترنت المختلفة. ويتم استخدام نتائج التحليل والتنقيب في وضع الإعلانات التي تناسب كل مستخدم بحسب تفضيلاته واهتماماته. كأن يتم توجيه الإعلانات الخاصة بالكاميرات الرقمية لهواة التصوير من المستخدمين.
تنقيب النصوص
تنقيب النصوص أو (بالإنجليزية: Text Mining) هي عمليات تحليل وفحص النصوص. مثل الأخبار والمقالات والأوراق والبحوث العلمية والفنية والكتب ومحتويات المكتبات الإلكترونية والمدونات وصفحات الإنترنت.
ومن أهم أهداف تنقيب النصوص هو استخراج المعلومات المهمة وذات الجودة العالية من كميات النصوص الكبيرة. وذلك من خلال استكشاف الأنماط والاتجاهات الفريدة، ومدى أصالة الأفكار الواردة في النص، كما يمكن أن تهدف إلى تصنيف المقالات بحسب المجالات المختلفة أو تلخيصها بملخصات وافية. ومن أمثلتها عمليات تحليل آراء الزبائن وتقييمهم للمنتجات على مواقع الشركات المُنتجة لها على الإنترنت.
ويكثر استخدام هذا النوع من التنقيب في المؤسسات الأكاديمية والمنتديات العلمية بهدف تقييم البحوث وتحكيمها وقياس مدى تميّزها مقارنة بالبحوث الأخرى الشبيهة بها، بالإضافة لتصنيفها وفهرستها بحسب الكلمات المفتاحية وتحليلها من حيث المحتوى.
تنقيب البيانات المعقدة على الإنترنت
إن شبكة الإنترنت الدولية ضخمة ومنتشرة على مستوى العالم ترتبط بها الكثير من أجهزة الحاسوب حول العالم، وهي مركز معلومات عالمي، يتضمن الأخبار والإعلانات والمعلومات العامة في شتى المجالات، كالصحة والتعليم والتجارة والصناعة والزراعة وسائر المجالات الأخرى، وهي تحتوي على تشكيلة ديناميكية وغنية من المعلومات وتُشكل مصدرًا خصبًا للبيانات القابلة للتحليل والتنقيب.
وتطبيقات تنقيب البيانات المعقدة على الإنترنت تهدف لاستكشاف الأنماط والتركيب الهيكلي والمعرفة بشكل عام من الإنترنت.
ووفقًا لأهدف تحليل وتنقيب بيانات الإنترنت فإنه يمكن تقسيمها إلى ثلاثة أنواع، وهي كما يلي:
- تنقيب محتويات الإنترنت
- تنقيب بنية وهيكلية الإنترنت
- وتنقيب استخدام الإنترنت
- تنقيب التدفق المعلوماتي أو تدفق الإنترنت
وفيما يلي وصفًا موجزًا لكل منها:
1. تنقيب محتويات الإنترنت
تنقيب محتويات الإنترنت أو (بالإنجليزية: Web Content) يتم باستخدامها تحليل المحتوى، كالنصوص والوسائط المتعددة، من أجل فهم محتوى صفحات الإنترنت وفهرستها بحسب المضمون والكلمات المفتاحية وترتيبها العالمي وملخصاتها. وقد اهتمت شركات البحث على الإنترنت بهذا النوع من أنواع التنقيب من أجل زيادة كفاءة الخدمات التي تقدمها لمستخدمي الإنترنت.
2. تنقيب بنية وهيكلية الإنترنت
وتتم باستخدام تقنية تنقيب الأشكال البيانية من أجل تحليل بنية وهيكلية الشبكة والصلات بين المواقع والارتباطات التشعيبية التي تساعد على التنقل بين المواقع المختلفة، أو بهدف مقارنة المواقع المختلفة وتحليل البنية الشجرية والهيكلية للمحتوى في كل موقع.
3. تنقيب استخدام الإنترنت
تنقيب استخدام الإنترنت (بالإنجليزية: Web Usage) وهي عملية استخراج المعلومات المفيدة التي تبين سلوك المستخدمين في التصفح واستكشاف أنماط الاستخدام لمجموعات من المستخدمين، من أجل فهم أساليب واتجاهات البحث على الإنترنت والارتباطات فيما بينها، والتنبؤ بما يبحث عنه المستخدمون على الإنترنت.
ويساعد هذا النوع من التنقيب في تحسين كفاءة وفاعلية البحث وتحسين أو ترقية المنتجات وإظهارها بشكل أفضل لمجموعات مختلفة من المستخدمين وبالوقت المناسب.
وشركات البحث على الإنترنت تستخدم هذا النوع من التنقيب بشكل روتيني من أجل تحسين جودة الخدمات التي تقدمها للمستخدمين.
4. تنقيب التدفق المعلوماتي أو تدفق البيانات
تنقيب التدفق المعلوماتي أو تدفق البيانات (بالإنجليزية: Data Streams) ويقصد به تحليل وتنقيب البيانات التي تتدفق بكثافة عالية وبأشكال متغيرة، وبطريقة لانهائية، وسمات متعددة الأبعاد.
ومثل هذه البيانات لا يمكن تخزينها في نظم قواعد البيانات التقليدية، كما أن معظم النظم المخصصة لهذا النوع من البيانات يمكن أن تقرأ ما يتدفق فيها لمرة واحدة فقط في ترتيب تسلسلي معين، وهو ما يشكل تحديًا كبيرًا لتقنيات التنقيب فيها.
وقد أدت بعض البحوث المهمة إلى تقدم في تطوير طرق فعّالة لتنقيب تدفق البيانات وخاصة في مجال استكشاف الأنماط المتكررة والمتسلسلة والتحليل متعدد الأبعاد والتصنيف والتجزئة العنقودية.
وكانت الفلسفة العامة لهذه التقنيات هي تطوير خوارزميات تهدف إلى تنقيب مجموعات من اللقطات المنفردة لهذا التدفق باستخدام قدرات محدودة في التخزين والحوسبة.
ومن أمثلة تطبيقات تنقيب البيانات المعقدة لهذا النوع من أنواع التنقيب، المراقبة الحية للحيوانات البرية، لدراسة سلوكهم اليومي والبيئي، ودراسات التفاوض والإقناع، وتدفق النصوص والفيديو وتدفق شبكات الكهرباء وأجهزة الاستشعار وبحوث الإنترنت وأنظمة المراقبة.
مثال على تنقيب البيانات المعقدة
في النموذج التالي خريطة العالم مقسمة حسب الدول وتم فيها إظهار عدد الأبناء لكل امرأة مع إعطاء لون مميز لكل عدد بدءًا من 0 وحتى 10 أبناء، بحيث تُظهر الخريطة التباين الواضح بين الدول في تلك الأعداد بشكل يبين الفرق فيما بينها من حيث عدد الأبناء.
وتساعد مثل هذه الخرائط في إظهار البيانات وتوزيعها بالشكل الذي يساهم في دراستها ووضع الخطط والاستراتيجيات الشاملة التي تساعد في حل المشكلات وعلاج الظواهر السلبية في المجتمع.
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى فؤاد عبيد، الطبعة الأولى، دار الفكر العربي، القاهرة، جمهورية مصر العربية، 2017م.