ملخص المحتوى
مقدمة عن مستودعات البيانات وتعريف مستودع البيانات، الاختلافات بين أنظمة قواعد البيانات التشغيلية ومستودعات البيانات، والحاجة إلى استخدام مخازن البيانات لتحليل البيانات، بدلا من إجراء التحليل مباشرة على قواعد البيانات التقليدية. عرض بنية مستودع البيانات، ثلاثة نماذج لمخازن البيانات – نموذج المؤسسة، ومركز البيانات، والمستودع الافتراضي. الأدوات المساعدة الخلفية لتخزين البيانات، مثل الاستخراج والتحويل والتحميل. مستودع البيانات الوصفية، الذي يخزن البيانات حول البيانات.
المحتويات
ما هي مستودعات البيانات
تقوم مستودعات البيانات أو مخازن البيانات (بالإنجليزية: Data Warehouses) بتعميم البيانات ودمجها في مساحة متعددة الأبعاد.
يتضمن بناء مستودعات البيانات تنظيف البيانات، ودمج البيانات، وتحويل البيانات، ويمكن اعتباره خطوة مهمة في المعالجة المسبقة من أجل تنقيب البيانات. علاوة على ذلك، توفر مخازن البيانات أدوات معالجة تحليلية عبر الإنترنت (OLAP) للتحليل التفاعلي للبيانات متعددة الأبعاد من درجات الدقة المتنوعة، مما يسهل التعميم الفعَّال للبيانات وتنقيب البيانات. يمكن دمج العديد من وظائف تنقيب البيانات الأخرى، مثل تنقيب الأنماط وقواعد الارتباط وخوارزميات التصنيف والتنبؤ والتحليل العنقودي، مع عمليات (OLAP) لتعزيز التنقيب التفاعلي للمعرفة عند مستويات متعددة من التجريد. وبالتالي، أصبح مستودع البيانات منصة متزايدة الأهمية لتحليل البيانات و(OLAP) وسيوفر منصة فعالة لتنقيب البيانات.
لذلك، يُشكل مستودع البيانات و(OLAP) خطوة أساسية في عملية استكشاف المعرفة.
تعد هذه النظرة العامة ضرورية لفهم عملية تنقيب البيانات واستكشاف المعرفة بشكل عام.
فوائد مستودعات البيانات
يوفر مستودع البيانات الهياكل والأدوات لمديري الأعمال لتنظيم بياناتهم بشكل منهجي وفهمها واستخدامها لاتخاذ القرارات الاستراتيجية.
تُعد أنظمة مستودعات البيانات أدوات قيّمة في عالم اليوم التنافسي سريع التطور.
في السنوات العديدة الماضية، أنفقت العديد من الشركات ملايين الدولارات في بناء مخازن بيانات على مستوى المؤسسة.
يشعر الكثير من الناس أنه مع تزايد المنافسة في كل صناعة، فإن تخزين البيانات هو أحدث سلاح تسويقي لا بد منه كوسيلة للاحتفاظ بالعملاء من خلال معرفة المزيد عن احتياجاتهم.
تعريف مستودعات البيانات
تم تعريف مستودعات البيانات بطرق عديدة، مما يجعل من الصعب صياغة تعريف دقيق.
بشكل عام، يُشير مخزن البيانات إلى مخزن بيانات يتم الاحتفاظ به بشكل منفصل عن قواعد البيانات التشغيلية للمؤسسة.
وتسمح أنظمة مخازن البيانات بدمج مجموعة متنوعة من أنظمة التطبيقات.
وهي تدعم معالجة المعلومات من خلال توفير منصة صلبة من البيانات التاريخية الموحدة للتحليل.
وفقًا لـ William H. Inmon، أحد المهندسين الرائدين في بناء أنظمة تخزين البيانات والذي يُعرف بأنه أبو مستودعات البيانات، حيث يعرّفه كما يلي:
“مستودع البيانات عبارة عن مجموعة بيانات موجهة نحو الموضوع ومتكاملة وزمنية وغير متقلبة لدعم عملية اتخاذ قرارات الإدارة”.
William H. Inmon, Inm96
يقدم هذا التعريف القصير والشامل السمات والمميزات الرئيسية لمستودع البيانات. تميز الكلمات الرئيسية الأربع (الموجهة نحو الموضوع، والمتكاملة، والزمنية، وغير المتقلبة) مخازن البيانات عن أنظمة مستودعات البيانات الأخرى، مثل أنظمة قواعد البيانات العلائقية، وأنظمة معالجة المعاملات، وأنظمة الملفات.
مميزات مستودعات البيانات
من تعريف مستودعات البيانات أعلاه، يمكن استخلاص الميزات الرئيسية لمخازن البيانات وإلقاء الضوء على كل منها بالتفصيل، وهي كما يلي:
بيانات موجهة نحو الموضوع
يتم تنظيم مستودع البيانات حول الموضوعات الرئيسية مثل العملاء والموردين والمنتج والمبيعات. بدلا من التركيز على العمليات اليومية ومعالجة المعاملات في أي مؤسسة، يُركز مستودع البيانات على نمذجة وتحليل البيانات لصانعي القرار. ومن ثم، توفر مخازن البيانات عادةً عرضًا بسيطًا وموجزًا لقضايا موضوع معين من خلال استبعاد البيانات غير المفيدة في عملية دعم القرار.
بيانات مدمجة أو متكاملة
عادةً ما يتم إنشاء مستودع بيانات من خلال دمج مصادر متعددة غير متجانسة، مثل قواعد البيانات العلائقية والملفات الثابتة وسجلات المعاملات عبر الإنترنت. يتم تطبيق تقنيات تنظيف البيانات ودمج البيانات وتكاملها لضمان الاتساق في اصطلاحات التسمية وهياكل الترميز ومقاييس السمات وما إلى ذلك.
بيانات زمنية
يتم تخزين البيانات لتوفير المعلومات من منظور تاريخي (على سبيل المثال، السنوات 5-10 الماضية). تحتوي كل بنية رئيسية في مستودع البيانات، إما بشكل ضمني أو صريح، على عنصر زمني.
بيانات غير متقلبة
مستودع البيانات هو دائمًا مخزن منفصل للبيانات يتم تحويله من بيانات التطبيق الموجودة في بيئة التشغيل. بسبب هذا الفصل، لا يتطلب مستودع البيانات معالجة المعاملات واستردادها وآليات التحكم في التزامن. عادة ما يتطلب عمليتين فقط في الوصول إلى البيانات: التحميل الأولي للبيانات والوصول إلى البيانات.
خلاصة مميزات مستودعات البيانات
وباختصار، فإن مستودع البيانات هو مخزن بيانات متناسق لغويًا يعمل بمثابة تنفيذ فعلي لنموذج بيانات دعم القرار. يقوم بتخزين المعلومات التي تحتاجها المؤسسة لاتخاذ قرارات استراتيجية. غالبًا ما يُنظر إلى مستودع البيانات على أنه بنية يتم إنشاؤها من خلال دمج البيانات من مصادر متعددة غير متجانسة لدعم الاستعلامات المنظمة و/ أو الاستعلامات المؤقتة وإعداد التقارير التحليلية وصنع القرار.
استنادًا إلى هذه المعلومات، فإننا نعتبر مخازن البيانات بمثابة عملية بناء واستخدام مخازن البيانات. يتطلب بناء مستودع البيانات تنظيف البيانات ودمج البيانات وتماسكها. غالبًا ما يتطلب استخدام مستودع بيانات مجموعة من تقنيات دعم القرار. يسمح هذا “للعاملين في مجال المعرفة” (مثل المديرين والمحللين والمديرين التنفيذيين) باستخدام المستودع للحصول على نظرة عامة سريعة على البيانات بشكل ملائم واتخاذ قرارات سليمة بناءً على المعلومات الموجودة في المستودع. يستخدم بعض المؤلفين مصطلح مستودعات البيانات للإشارة فقط إلى عملية بناء مستودع البيانات، بينما يستخدم مصطلح نظام إدارة قواعد بيانات مستودع البيانات (DBMS) للإشارة إلى إدارة مخازن البيانات واستخدامها. لن يتم التمييز بينهما هنا.
استخدام المعلومات من مستودعات البيانات
تستخدم العديد من المؤسسات هذه المعلومات لدعم أنشطة اتخاذ القرارات التجارية، بما في ذلك:
- زيادة التركيز على العملاء، والذي يتضمن تحليل أنماط الشراء لدى العملاء (مثل تفضيل الشراء، ووقت الشراء، ودورات الميزانية، وشهية الإنفاق)
- إعادة تنظيم المنتجات وإدارة محافظ المنتجات عن طريق مقارنة أداء المبيعات حسب ربع السنة والعام وحسب المناطق الجغرافية لتحسين استراتيجيات الإنتاج
- تحليل العمليات والبحث عن مصادر الربح
- إدارة علاقات العملاء وإجراء التصحيحات البيئية وإدارة تكلفة أصول الشركة.
تخزين البيانات مفيد أيضًا من وجهة نظر تكامل قاعدة البيانات غير المتجانسة. تجمع المؤسسات عادةً أنواعًا متنوعة من البيانات وتحتفظ بقواعد بيانات كبيرة من مصادر معلومات متعددة وغير متجانسة ومستقلة وموزعة. من المرغوب فيه للغاية، ولكن من الصعب، دمج هذه البيانات وتوفير الوصول إليها بسهولة وكفاءة. تم بذل الكثير من الجهد في صناعة قواعد البيانات ومجتمع البحث العلمي من أجل تحقيق هذا الهدف.
النهج التقليدي لقاعدة البيانات
نهج قاعدة البيانات التقليدية التي تهدف إلى دمج قواعد البيانات غير المتجانسة هو بناء مغلفات وموحدات (أو وسطاء) على رأس قواعد بيانات متعددة غير متجانسة. عندما يتم طرح استعلام على موقع عميل، يتم استخدام قاموس بيانات التعريف لترجمة الاستعلام إلى استعلامات مناسبة للمواقع الفردية غير المتجانسة المعنية. ثم يتم تعيين الاستعلامات وإرسالها إلى معالجات الاستعلام المحلية. يتم دمج النتائج التي تم إرجاعها من مواقع مختلفة في مجموعة إجابات عامة. يتطلب هذا النهج القائم على الاستعلام عمليات تصفية ودمج معلومات معقدة، ويتنافس مع المواقع المحلية لمعالجة الموارد. وهي غير فعَّالة ويمكن أن تكون مكلفة للاستعلامات المتكررة، وخاصة الاستعلامات التي تتطلب تجميعات.
نهج مستودعات البيانات
توفر مستودعات البيانات بديلا مثيرًا للاهتمام لهذا النهج التقليدي. بدلا من استخدام نهج قائم على الاستعلام، تستخدم مخازن البيانات نهجًا مستحدثًا يتم فيه دمج المعلومات من مصادر متعددة غير متجانسة مسبقًا وتخزينها في مستودع للاستعلام والتحليل المباشرين. على عكس قواعد بيانات معالجة المعاملات عبر الإنترنت، لا تحتوي مخازن البيانات على أحدث المعلومات. ومع ذلك، فإن مستودع البيانات يجلب أداءً عاليًا لنظام قاعدة البيانات غير المتجانسة المتكاملة لأنه يتم نسخ البيانات ومعالجتها مسبقًا ودمجها وإضافة تعليقات توضيحية لها وتلخيصها وإعادة هيكلتها في مخزن بيانات دلالي واحد. علاوة على ذلك، لا تتداخل معالجة الاستعلام في مخازن البيانات مع المعالجة في المصادر المحلية. علاوة على ذلك، يمكن لمستودعات البيانات تخزين ودمج المعلومات التاريخية ودعم الاستعلامات المعقدة متعددة الأبعاد. ونتيجة لذلك، أصبحت مخازن البيانات شائعًة في الصناعة.
الاختلافات بين أنظمة قواعد البيانات التشغيلية و مستودعات البيانات
نظرًا لأن معظم الأشخاص على دراية بأنظمة قواعد البيانات العلائقية التجارية، فمن السهل فهم ماهية مستودع البيانات من خلال مقارنة هذين النوعين من الأنظمة.
المهمة الرئيسية لأنظمة قواعد البيانات التشغيلية عبر الإنترنت هي إجراء المعاملات عبر الإنترنت ومعالجة الاستعلام. تسمى هذه الأنظمة أنظمة معالجة المعاملات عبر الإنترنت (OLTP). وهي تغطي معظم العمليات اليومية لمؤسسة مثل الشراء والمخزون والتصنيع والخدمات المصرفية والرواتب والتسجيل والمحاسبة. من ناحية أخرى، تخدم أنظمة مستودعات البيانات المستخدمين أو العاملين في مجال المعرفة ومدراء تحليل البيانات وصنع القرار. يمكن لهذه الأنظمة تنظيم وتقديم البيانات بتنسيقات مختلفة من أجل استيعاب الاحتياجات المتنوعة للمستخدمين المختلفين.
تُعرف هذه الأنظمة بأنظمة المعالجة التحليلية عبر الإنترنت (OLAP).
الفرق بين OLTP و OLAP
يمكن تلخيص الفرق بين الميزات الرئيسية لـ (OLTP) و(OLAP) على النحو التالي:
توجيه المستخدمين والنظام
نظام (OLTP) موجه للعملاء ويستخدم للمعالجة والاستعلام من قبل كتبة وعملاء ومتخصصين في تكنولوجيا المعلومات. نظام (OLAP) موجه نحو السوق ويستخدم لتحليل البيانات من قبل العاملين في مجال المعرفة، بما في ذلك المديرين والمديرين التنفيذيين والمحللين.
محتويات البيانات
يدير نظام (OLTP) البيانات الحالية التي عادة ما تكون مفصَّلة للغاية بحيث لا يمكن استخدامها بسهولة لاتخاذ القرار. يدير نظام (OLAP) كميات كبيرة من البيانات التاريخية، ويوفر تسهيلات للتلخيص والتجميع، ويخزن ويدير المعلومات على مستويات مختلفة من الدقة. تعمل هذه الميزات على تسهيل استخدام البيانات لاتخاذ قرارات مستنيرة.
تصميم قاعدة البيانات
عادة ما يعتمد نظام (OLTP) نموذج بيانات علاقة الكيان (ER) وتصميم قاعدة بيانات موجهة نحو التطبيق. عادة ما يعتمد نظام (OLAP) إما نموذج النجمة أو ندفة الثلج (انظر القسم 4.2.2) وتصميم قاعدة بيانات موجهة نحو الموضوع.
العرض
يركز نظام (OLTP) بشكل أساسي على البيانات الحالية داخل مؤسسة أو قسم معين فيها، دون الرجوع إلى البيانات التاريخية أو البيانات في المنظمات المختلفة. في المقابل، غالبًا ما يمتد نظام (OLAP) إلى إصدارات متعددة من مخطط قاعدة البيانات، بسبب العملية التطورية للمؤسسة. تتعامل أنظمة (OLAP) أيضًا مع المعلومات التي تنشأ من منظمات مختلفة، وتدمج المعلومات من العديد من مخازن البيانات. بسبب حجمها الضخم، يتم تخزين بيانات (OLAP) على وسائط تخزين متعددة.
أنماط الوصول
تتكون أنماط الوصول لنظام (OLTP) بشكل أساسي من المعاملات الفردية الدقيقة القصيرة. مثل هذا النظام يتطلب آليات تحكم واسترداد التزامن. ومع ذلك، فإن الوصول إلى أنظمة (OLAP) هي في الغالب عمليات للقراءة فقط (لأن معظم مستودعات البيانات تقوم بتخزين المعلومات التاريخية بدلا من المعلومات الحديثة)، على الرغم من أن العديد منها يمكن أن يكون استعلامات معقدة.
وتشمل الميزات الأخرى التي تميز بين أنظمة (OLTP) و(OLAP) حجم قاعدة البيانات، وتكرار العمليات، ومقاييس الأداء.
أهمية فصل مستودعات البيانات
يمكن تلخيص أسباب استخدام مستودع البيانات بشكل منفصل عن قواعد البيانات الأساسية فيما يلي:
كميات البيانات الضخمة
نظرًا لأن قواعد البيانات التشغيلية تخزن كميات هائلة من البيانات قد تتساءل: “لماذا لا تجري معالجة تحليلية عبر الإنترنت مباشرة على قواعد البيانات هذه بدلا من قضاء وقت وموارد إضافية لإنشاء مستودع بيانات منفصل؟” أحد الأسباب الرئيسية لهذا الفصل هو المساعدة في تعزيز الأداء العالي لكلا النظامين. تم تصميم قاعدة بيانات تشغيلية وضبطها من المهام وأحمال العمل المعروفة مثل الفهرسة والتجزئة باستخدام المفاتيح الأساسية، والبحث عن السجلات المفصلية، وتحسين الاستعلامات “المقولبة”. من ناحية أخرى، غالبًا ما تكون استعلامات مستودع البيانات معقدة. أنها تنطوي على حساب مجموعات البيانات الكبيرة على مستويات ملخصة، وقد تتطلب استخدام تنظيم البيانات الخاصة، والوصول، وأساليب التنفيذ على أساس وجهات نظر متعددة الأبعاد. معالجة استعلامات (OLAP) في قواعد البيانات التشغيلية من شأنه أن يؤدي إلى تدهور كبير في أداء المهام التشغيلية.
المعالجة المتزامنة
علاوة على ذلك، تدعم قاعدة البيانات التشغيلية المعالجة المتزامنة لمعاملات متعددة. هناك حاجة إلى آليات التزامن والاسترداد (مثل القفل والتسجيل) لضمان اتساق المعاملات وقوتها. غالبًا ما يحتاج استعلام (OLAP) إلى الوصول للقراءة فقط لسجلات البيانات من أجل التلخيص والتجميع. قد تؤدي آليات التحكم في التزامن والاسترداد، إذا تم تطبيقها على عمليات (OLAP) هذه، إلى تعريض تنفيذ المعاملات المتزامنة للخطر وبالتالي تقليل إنتاجية نظام (OLTP) بشكل كبير.
البيانات التاريخية
وأخيرًا، يعتمد فصل قواعد البيانات التشغيلية عن مخازن البيانات على الهياكل والمحتويات واستخدامات البيانات المختلفة في هذين النظامين. يتطلب دعم القرار بيانات تاريخية، في حين أن قواعد البيانات التشغيلية لا تحتفظ عادة ببيانات تاريخية. في هذا السياق، فإن البيانات الموجودة في قواعد البيانات التشغيلية، على الرغم من وفرتها، عادة ما تكون بعيدة عن الاكتمال لصنع القرار. يتطلب دعم القرار الدمج (مثل التجميع والتلخيص) للبيانات من مصادر غير متجانسة، مما يؤدي إلى بيانات عالية الجودة ونظيفة ومتكاملة. على النقيض من ذلك، تحتوي قواعد البيانات التشغيلية فقط على بيانات أولية تفصيلية، مثل المعاملات، التي يجب دمجها قبل التحليل. نظرًا لأن النظامين يوفران وظائف مختلفة تمامًا ويتطلبان أنواعًا مختلفة من البيانات، فمن الضروري حاليًا الاحتفاظ بقواعد بيانات منفصلة. ومع ذلك، بدأ العديد من موردي أنظمة إدارة قواعد البيانات العلائقية التشغيلية في تحسين هذه الأنظمة لدعم استعلامات (OLAP). مع استمرار هذا الاتجاه، من المتوقع أن ينخفض الفصل بين أنظمة (OLTP) و(OLAP).
مستودعات البيانات: بنية متعددة المستويات
غالبًا ما تعتمد مستودعات البيانات على بنية من ثلاث طبقات، كما هو موضح في الشكل التالي:
الطبقة السفلى
هو خادم قاعدة بيانات المستودعات والذي يكون دائمًا تقريبًا نظام قاعدة بيانات علائقية.
تُستخدم الأدوات والمرافق الخلفية لتغذية البيانات في المستوى السفلي من قواعد البيانات التشغيلية أو مصادر خارجية أخرى (على سبيل المثال، معلومات الملف الشخصي للعميل المقدمة من المستشارين الخارجيين). تقوم هذه الأدوات والأدوات المساعدة في استخلاص البيانات والتنظيف والتحويل (على سبيل المثال، لدمج البيانات المماثلة من مصادر مختلفة في تنسيق موحد)، بالإضافة إلى وظائف التحميل والتحديث لتحديث مستودع البيانات (انظر القسم 4.1.6). يتم استخلاص البيانات باستخدام واجهات برنامج التطبيق المعروفة بالبوابات. البوابة مدعومة من قبل (DBMS) الأساسي وتسمح لبرامج العميل بإنشاء كود لغة استعلام هيكلية SQL ليتم تنفيذه على الخادم. تتضمن أمثلة العبّارات (ODBC) (اتصال قاعدة البيانات المفتوح) و(OLEDB (ObjectLinking وتضمين قاعدة البيانات بواسطة (Microsoft) و(JDBC) (اتصال قاعدة بيانات Java). يحتوي هذا المستوى أيضًا على مستودع بيانات التعريف، الذي يقوم بتخزين معلومات حول مستودع البيانات ومحتوياته. وسوف يتم التطرق لوصف مستودع البيانات الوصفية بشكل أكبر بعد قليل.
الطبقة الوسطى
عبارة عن خادم (OLAP) يتم تطبيقه عادةً باستخدام إما (1) نموذج (OLAP) علائقي (ROLAP) (أي، نظام DBMS علائقي موسّع يقوم بتعيين العمليات على بيانات متعددة الأبعاد إلى عمليات علائقية قياسية)؛ أو (2) نموذج (OLAP) متعدد الأبعاد (MOLAP) (أي خادم لأغراض خاصة ينفذ البيانات والعمليات متعددة الأبعاد بشكل مباشر). وسوف يتم التطرق لخوادم (OLAP) بعد قليل.
الطبقة العليا
هي طبقة المستخدم النهائي، والتي تحتوي على أدوات الاستعلام وإعداد التقارير، وأدوات التحليل، و/ أو أدوات تنقيب البيانات (على سبيل المثال، تحليل الاتجاهات، والتنبؤ، وما إلى ذلك).
نماذج مستودعات البيانات
من وجهة النظر الهندسية، هناك ثلاثة نماذج لمستودعات البيانات:
- مستودع المؤسسة
- مراكز البيانات
- المستودع الافتراضي
مستودع المؤسسة
يجمع مستودع المؤسسة جميع المعلومات حول الموضوعات التي تغطي المؤسسة بأكملها. يوفر تكامل البيانات على مستوى الشركة، عادة من نظام تشغيل أو أكثر أو من موفري المعلومات الخارجيين، وهو متعدد الوظائف في النطاق. عادةً ما يحتوي على بيانات تفصيلية بالإضافة إلى بيانات ملخصة، ويمكن أن يتراوح في الحجم من بضعة غيغابايت إلى مئات غيغابايت أو تيرابايت أو أكثر. قد يتم تنفيذ مستودع بيانات المؤسسة على أجهزة الحاسوب المركزية التقليدية، أو أجهزة الخادم الفائقة، أو منصات العمارة المتوازية. يتطلب نمذجة تجارية واسعة النطاق وقد يستغرق سنوات في التصميم والبناء.
مركز البيانات
مركز البيانات (بالإنجليزية: Data Mart) يحتوي على مجموعة فرعية من البيانات على مستوى الشركة ذات قيمة لمجموعة معينة من المستخدمين. يقتصر النطاق على مواضيع محددة مختارة. على سبيل المثال، قد يقتصر سوق بيانات إدارة التسويق على بيانات للعملاء والمنتجات والمبيعات. تميل البيانات الواردة في مخططات البيانات إلى تلخيصها.
عادةً ما يتم تنفيذ مخططات البيانات على خوادم الأقسام منخفضة التكلفة التي تستند إلى نظام تشغيل (Unix / Linux) أو (Windows). من المرجح أن يتم قياس دورة تنفيذ سوق البيانات بالأسابيع بدلا من الأشهر أو السنوات. ومع ذلك، فقد ينطوي على تكامل معقد على المدى الطويل إذا لم يكن تصميمه وتخطيطه على مستوى المؤسسة.
اعتمادًا على مصدر البيانات، يمكن تصنيف مراكز البيانات على أنها مستقلة أو تابعة. يتم الحصول على بيانات مراكز البيانات المستقلة من البيانات الملتقطة من واحد أو أكثر من أنظمة التشغيل أو موفري المعلومات الخارجية، أو من البيانات التي يتم إنشاؤها محليًا داخل إدارة معينة أو منطقة جغرافية معينة. مصادر البيانات في مراكز البيانات التابعة يتم الحصول عليها مباشرة من مخازن بيانات المؤسسة.
المستودع الافتراضي
المستودع الافتراضي عبارة عن مجموعة من معاينات قواعد البيانات التشغيلية.
من أجل معالجة استعلام فعَّالة، قد تتحقق فقط بعض طرق عرض التلخيص المحتملة.
من السهل بناء مستودع افتراضي ولكنه يتطلب سعة إضافية على خوادم قواعد البيانات التشغيلية.
ما هي إيجابيات وسلبيات نهج التطوير من أعلى إلى أسفل ومن أسفل إلى أعلى لتطوير مستودع البيانات؟
يعمل التطوير من أعلى إلى أسفل لمستودع المؤسسة كحل منظم ويقلل من مشاكل التكامل.
ومع ذلك، فهو مُكلف ويستغرق وقتًا طويلا للتطوير ويفتقر إلى المرونة نظرًا لصعوبة تحقيق الاتساق والتوافق على نموذج بيانات مشترك للمؤسسة بأكملها.
يوفر النهج التصاعدي لتصميم وتطوير ونشر مراكز البيانات المستقلة المرونة والتكلفة المنخفضة والعائد السريع للاستثمار.
ومع ذلك، يمكن أن يؤدي إلى مشاكل عند دمج مختلف بيانات مراكز البيانات المتباينة في مستودع بيانات المؤسسة المتسق.
تطوير أنظمة مستودعات البيانات بطريقة تدريجية وتطورية
تتمثل إحدى الطرق المُوصى بها لتطوير أنظمة مخازن البيانات في تنفيذ المستودع بطريقة تدريجية وتطورية، كما يلي:
أولا: تعريف نموذج البيانات
يتم تعريف نموذج بيانات الشركة عالي المستوى خلال فترة زمنية قصيرة إلى حد معقول (مثل شهر أو شهرين) يوفر نظرة متكاملة ومتسقة ومتكاملة للبيانات بين الموضوعات المختلفة والاستخدامات المحتملة. هذا النموذج رفيع المستوى، على الرغم من أنه سوف يحتاج إلى تحسين في تطوير مخازن بيانات المؤسسة وسلاسل بيانات الأقسام، لإلاّ أنه سوف يقلل إلى حد كبير من مشاكل التكامل في المستقبل.
ثانيًا: تنفيذ مخططات البيانات
يمكن تنفيذ مخططات البيانات المستقلة بالتوازي مع مستودع بيانات المؤسسة بناءً على نفس مجموعة بيانات الشركة المذكورة سابقًا. ثالثًا، يمكن إنشاء مخططات البيانات الموزعة لدمج مراكز البيانات المختلفة عبر خوادم الموزع. أخيرًا، يتم إنشاء مستودع بيانات متعدد المستويات حيث يكون مستودع المؤسسة هو الوصي الوحيد على جميع بيانات المستودع، ثم يتم توزيعه على مختلف مراكز البيانات التابعة.
الاستخلاص والتحويل والتحميل
تستخدم أنظمة مخزن البيانات الأدوات والمرافق الخلفية لتعبئة وتحديث بياناتها، كما يظهر في الشكل السابق، تتضمن هذه الأدوات والمرافق الوظائف التالية:
استخلاص البيانات، الذي يجمع البيانات عادة من مصادر خارجية متعددة وغير متجانسة.
تنظيف البيانات، الذي يكشف الأخطاء في البيانات ويصححها قدر الإمكان.
تحويل البيانات، الذي يحول البيانات من تنسيق قديم أو مضيف إلى تنسيق المستودعات.
تحميل، الذي يفرز، يلخص، يدمج، يحسب المشاهدات، يتحقق من التكامل، ويبني المؤشرات والأقسام.
تحديث، الذي ينشر التحديثات من مصادر البيانات إلى المستودع.
إلى جانب أدوات التنظيف والتحميل والتحديث وأدوات تعريف البيانات، توفر أنظمة مستودع البيانات عادة مجموعة جيدة من أدوات إدارة مخزن البيانات.
يعد تنظيف البيانات وتحويل البيانات من الخطوات المهمة في تحسين جودة البيانات، وبالتالي نتائج تنقيب البيانات.
موضوع مقترح: تنظيف البيانات – المقصود به وأهميته وطرقه وإجراءاته
كتاب تنقيب البيانات – مركز البحوث والدراسات متعدد التخصصات
نظرًا لأن الاهتمام هنا في الغالب بجوانب تكنولوجيا تخزين البيانات المتعلقة بتنقيب البيانات، فلن ندخل في تفاصيل الأدوات المتبقية، ونوصي القرّاء المهتمين بذلك مراجعة الكتب المخصصة لتقنية تخزين البيانات.
مستودع البيانات الوصفية
البيانات الوصفية هي بيانات حول البيانات.
عند استخدامها في مستودع بيانات، فإن البيانات الوصفية هي البيانات التي تحدد كائنات المستودع.
يُظهر الشكل السابق مخزن البيانات الوصفية داخل الطبقة السفلى من بنية تخزين البيانات.
يتم إنشاء بيانات التعريف لأسماء البيانات وتعاريف المستودع المعطى.
يتم إنشاء بيانات التعريف الإضافية والتقاطها من أجل الطابع الزمني لأي بيانات مستخرجة، ومصدر البيانات المستخرجة، والحقول المفقودة التي تمت إضافتها بواسطة عمليات تنظيف البيانات أو عمليات الدمج.
مكونات مستودع البيانات الوصفية
يجب أن يحتوي مستودع البيانات الوصفية على ما يلي:
وصف بنية مستودع البيانات
والذي يتضمن كل من:
- مخطط المستودع،
- والعرض،
- والأبعاد،
- والتسلسل الهرمي،
- وتعريفات البيانات المشتقة،
- بالإضافة إلى مواقع ومحتويات مراكز البيانات.
البيانات الوصفية التشغيلية
والتي تشمل كل من:
- نسب البيانات (تاريخ البيانات التي تم ترحيلها وتسلسل التحولات المطبقة عليها)،
- وحالةالبيانات (نشطة، أو مؤرشفة، أو منظفة)،
- ومعلومات المراقبة (إحصاءات استخدام المستودعات، وتقارير الأخطاء، ومسارات المراجعة).
الخوارزميات المستخدمة من أجل التلخيص
الخوارزميات المستخدمة من أجل التلخيص تتضمن كل من:
- خوارزميات تعريف القياس والأبعاد،
- بيانات عن التفاصيل،
- الأقسام،
- مجالات الموضوع،
- التجميع،
- التلخيص،
- الاستعلامات والتقارير المحددة مسبقًا.
رسم الخرائط من البيئة التشغيلية إلى مستودع البيانات
رسم الخرائط من البيئة التشغيلية إلى مخزن البيانات يتضمن كل من:
- قواعد بيانات المصدر ومحتوياتها،
- وأوصاف البوابة،
- وأقسام البيانات،
- واستخلاص البيانات،
- والتنظيف،
- وقواعد التحويل والافتراضات،
- وقواعد تحديث البيانات وتنظيفها،
- والأمن (إذن المستخدم والتحكم في الوصول).
خصائص بيانات مستودع البيانات الوصفية
يحتوي مستودع البيانات على مستويات تلخيص مختلفة، منها البيانات الوصفية.
البيانات المتعلقة بأداء النظام، والتي تتضمن مؤشرات وملفات تعريف تعمل على تحسين الوصول إلى البيانات وأداء الاسترداد، بالإضافة إلى قواعد توقيت وجدولة عمليات التحديث والنسخ الدوري.
البيانات الوصفية للأعمال، والتي تشمل مصطلحات وتعريفات الأعمال، ومعلومات ملكية البيانات، وسياسات الرسوم.
تشمل الأنواع الأخرى:
- البيانات التفصيلية الحالية (والتي تكون دائمًا على القرص)،
- البيانات التفصيلية القديمة (والتي عادة ما تكون على القرص الثانوي)،
- والبيانات الملخصة بشكل أولي،
- والبيانات الملخصة بشكل نهائي (التي قد تكون أو لا تكون مخزنة بالفعل).
تلعب البيانات الوصفية دورًا مختلفًا تمامًا عن بيانات مخزن البيانات الأخرى وهي مهمة لأسباب عديدة.
على سبيل المثال، يتم استخدام البيانات الوصفية كدليل لمساعدة محلل نظام دعم القرار في تحديد محتويات مخزن البيانات، وكدليل لرسم الخرائط عند تحويل البيانات من بيئة التشغيل إلى بيئة مستودع البيانات. تعمل البيانات الوصفية أيضًا كدليل للخوارزميات المستخدمة للتلخيص بين البيانات التفصيلية الحالية والبيانات الملخصة بشكل أولي، وبين البيانات الملخصة بشكل أولي والبيانات الملخصة بشكل نهائي.
ويجب تخزين البيانات الوصفية وإدارتها باستمرار (أي على القرص).
المصدر
- كتاب التحليل المتقدم وتنقيب البيانات، د. م. مصطفى عبيد، دار الفكر العربي، القاهرة، 2017.