التحليل العنقودي من خطوتين

التحليل العنقودي من خطوتين

إجراء التحليل العنقودي المكون من خطوتين TwoStep Cluster Analysis هو أداة استكشافية مصممة للكشف عن التجمعات الطبيعية (أو المجموعات) ضمن مجموعة بيانات ما كانت لولا ذلك لتكون ظاهرة. تحتوي الخوارزمية المستخدمة في هذا الإجراء على العديد من السمات المرغوبة التي تميزها عن تقنيات التحليل العنقودي التقليدية:

  • القدرة على إنشاء مجموعات بناءً على المتغيرات الفئوية والمتصلة.
  • التحديد التلقائي لعدد المجموعات.
  • القدرة على تحليل ملفات البيانات الكبيرة بكفاءة.

مبادئ التحليل العنقودي

من أجل التعامل مع المتغيرات الفئوية والمتصلة، يستخدم إجراء التحليل العنقودي أو التجزئة العنقودية من خطوتين TwoStep Cluster Analysis مقياس مسافة التشابه likelihood distance measure الذي يفترض أن المتغيرات في نموذج المجموعة مستقلة. علاوة على ذلك، يُفترض أن يكون لكل متغير متصل توزيع عادي (غاوسي) Gaussian ويفترض أن يكون لكل متغير فئوي توزيع متعدد الحدود multinomial distribution. يشير الاختبار الداخلي التجريبي إلى أن الإجراء قوي إلى حد ما في مواجهة انتهاكات كل من افتراض الاستقلالية وافتراضات التوزيع، ولكن يجب أن تحاول أن تكون على دراية بمدى تلبية هذه الافتراضات.

يمكن تلخيص خوارزمية إجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis بخطوتين أساسيتين على النحو التالي:

الخطوة 1. يبدأ الإجراء ببناء شجرة سمات المجموعة Cluster Features أو بالاختصار (CF). تبدأ الشجرة بوضع الحالة الأولى في جذر الشجرة في عقدة ورقية تحتوي على معلومات المتغير حول هذه الحالة. ثم يتم إضافة كل حالة متتالية إلى عقدة موجودة أو تشكل عقدة جديدة، بناءً على تشابهها مع العقد الحالية واستخدام مقياس المسافة كمعيار تشابه. تحتوي العقدة التي تحتوي على حالات متعددة على ملخص لمعلومات المتغير حول تلك الحالات. وبالتالي، توفر شجرة CF ملخصًا كبسوليًا لملف البيانات.

الخطوة 2. يتم بعد ذلك تجميع العقد الورقية لشجرة CF باستخدام خوارزمية التجميع التراكمي agglomerative clustering algorithm. يمكن استخدام التجزئة العنقودية لإنتاج مجموعة من الحلول. لتحديد أي عدد من المجموعات هو “الأفضل”، تتم مقارنة كل من حلول المجموعة هذه باستخدام معيار Schwarz’s Bayesian (BIC) أو معيار معلومات Akaike (AIC) كمعيار التجميع.

استخدام التحليل العنقودي من خطوتين لتصنيف المركبات ذات المحركات

يحتاج مصنعو السيارات إلى أن يكونوا قادرين على تقييم السوق الحالي لتحديد المنافسة المحتملة لسياراتهم. إذا كان من الممكن تجميع السيارات وفقًا للبيانات المتاحة، فيمكن أن تكون هذه المهمة تلقائية إلى حد كبير باستخدام التحليل العنقودي.

توجد معلومات عن مختلف الماركات والموديلات للسيارات في ملف car_sales.sav. راجع موضوع “ملفات الأمثلة” للحصول على مزيد من المعلومات. استخدم إجراء التحليل العنقودي أو التجزئة العنقودية من خطوتين TwoStep Cluster Analysis لتجميع السيارات وفقًا لأسعارها وخصائصها المادية.

تشغيل التحليل

لإجراء التحليل العنقودي أو التجزئة العنقودية من خطوتين:

1. اختر من القوائم: تحليل> تصنيف> تحليل عنقودي من خطوتين …

Analyze > Classify > TwoStep Cluster…

يظهر مربع الحوار الرئيسي لإجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis كما يلي:

مربع الحوار الرئيسي لإجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis
مربع الحوار الرئيسي لإجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis

2. إذا لم تعرض قائمة المتغيرات تسميات المتغيرات بحسب ترتيب الملفات، فانقر بزر الماوس الأيمن في أي مكان في قائمة المتغيرات variable list ومن قائمة السياق context، اختر عرض تسميات المتغيرات Display Variable Labels والفرز حسب ترتيب الملفات Sort by File Order.

3. حدد نوع السيارة Vehicle type كمتغير فئوي categorical variable.

4. حدد الحقول من السعر بالآلاف Price in thousands ولغاية كفاءة استخدام الوقود Fuel efficiency كمتغيرات متصلة continuous variables.

5. انقر فوق الإخراج Output.

6. يظهر مربع حوار المخرجات لإجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis كما يلي:

مربع حوار المخرجات لإجراء التحليل العنقودي من خطوتين
مربع حوار المخرجات لإجراء التحليل العنقودي من خطوتين

7. حدد المبيعات بالآلاف Sales in thousands الحقل [sales] وقيمة إعادة البيع لمدة 4 سنوات 4-year resale value الحقل [resale] كحقول تقييم evaluation fields. لن يتم استخدام هذه الحقول لإنشاء نموذج التحليل العنقودي، ولكن يمكن أن توفر لك مزيدًا من المعلومات عن المجموعات التي تم إنشاؤها بواسطة الإجراء.

8. انقر فوق “متابعة” Continue ثم انقر فوق “موافق” OK.

ملخص النموذج وجودة التحليل العنقودي

الشكل التالي يبين عرض ملخص النموذج Model Summary view:

Model Summary view
عرض ملخص النموذج – التحليل العنقودي من خطوتين

يحتوي العارض على كائن Model Viewer. من خلال تنشيط (النقر المزدوج) هذا الكائن، يمكنك الحصول على عرض تفاعلي للنموذج. العرض الرئيسي الافتراضي هو عرض ملخص النموذج Model Summary view.

  • يشير جدول ملخص النموذج إلى أنه تم العثور على ثلاث مجموعات بناءً على ميزات الإدخال العشر (الحقول) التي حددتها.
  • يشير مخطط جودة التحليل العنقودي cluster quality chart إلى أن جودة النموذج الإجمالية “عادلة”.

توزيع المجموعات

الشكل التالي يبين جدول توزيع المجموعات أو الكتل Cluster Distribution:

جدول توزيع المجموعات أو الكتل
جدول توزيع المجموعات أو الكتل

تُظهر طريقة العرض Cluster Sizes تكرار كل مجموعة. يؤدي التمرير فوق شريحة في المخطط الدائري إلى إظهار عدد السجلات المعينة للمجموعة. تم تخصيص 40.8٪ (62) من السجلات للمجموعة الأولى، و 25.7٪ (39) للمجموعة الثانية، و 33.6٪ (51) للمجموعة الثالثة.

ملفات تعريف المجموعات (أو الكتل)

1. في طريقة العرض الرئيسية main view، حدد المجموعات Clusters من القائمة المنسدلة لعرض طريقة عرض المجموعات.

يظهر الشكل التالي وهو جدول المجموعات Clusters table كما يلي:

جدول المجموعات - التحليل العنقودي من خطوتين
جدول المجموعات – التحليل العنقودي من خطوتين

بشكل افتراضي، يتم فرز المجموعات من اليسار إلى اليمين حسب حجم المجموعة، لذلك يتم ترتيبها حاليًا 1، 3، 2.

الشكل التالي يبين ملامح المجموعات: الخلايا تظهر مراكز المجموعة Cluster profiles: cells show cluster centers:

ملامح المجموعات: الخلايا تظهر مراكز المجموعة
ملامح المجموعات: الخلايا تظهر مراكز المجموعة

متوسطات المجموعات تقترح أن المجموعات مفصولة جيدًا، كما أن:

  • السيارات في المجموعة 1 هي سيارات رخيصة وصغيرة وذات كفاءة في استهلاك الوقود، باستثناء شاحنة واحدة (1.6 ٪ من المجموعة لا تتألف من السيارات).
  • السيارات في المجموعة 2 (العمود 3) أسعارها معتدلة، وثقيلة، ولها خزان غاز كبير، على الأرجح للتعويض عن ضعف كفاءتها في استهلاك الوقود. تتكون المجموعة 2 بالكامل أيضًا من الشاحنات.
  • السيارات في المجموعة 3 (العمود 2) باهظة الثمن وكبيرة الحجم وذات كفاءة متوسطة في استهلاك الوقود.

الشكل التالي يبين ملفات تعريف المجموعات: تظهر الخلايا توزيعات مطلقةCluster profiles: cells show absolute distributions، كما يلي:

ملفات تعريف المجموعات: تظهر الخلايا توزيعات مطلقة
ملفات تعريف المجموعات: تظهر الخلايا توزيعات مطلقة

متوسطات المجموعات

متوسطات المجموعات cluster means (للحقول المتصلة) والأوضاع modes (للحقول الفئوية) مفيدة، ولكنها تعطي فقط معلومات حول مراكز المجموعات.

2. من أجل الحصول على تصور لتوزيع القيم لكل حقل حسب المجموعة، انقر فوق الزر الخلايا تظهر توزيعات مطلقة Cells show absolute distributions في شريط الأدوات.

يمكنك الآن أن ترى، على سبيل المثال، أن هناك بعض التداخل بين المجموعتين 1 و 3 على وزن السيارة curb weight وحجم المحرك engine size وسعة الوقود fuel capacity. هناك تداخل كبير بين المجموعتين 2 و 3 في هذه الحقول، مع اختلاف أن المركبات ذات الوزن الإجمالي الأعلى وسعة الوقود الأكبر موجودة في المجموعة 2 (العمود 3) والمركبات ذات الحجم الأكبر للمحرك تبدو في المجموعة 3 (العمود 2).

3. للاطلاع على هذه المعلومات الخاصة بحقول التقييم، انقر فوق الزر “عرض” Display في شريط الأدوات.

يظهر مربع حوار عرض Display كما يلي:

مربع حوار عرض Display
مربع حوار عرض Display 

4. حدد حقول التقييم Evaluation fields.

5. انقر فوق موافق OK.

يجب أن تظهر حقول التقييم الآن في جدول المجموعة كما يلي في شكل ملفات تعريف المجموعات لحقول التقييم: تُظهر الخلايا توزيعات مطلقة:

ملفات تعريف الكتلة لحقول التقييم: تظهر الخلايا التوزيعات المطلقة
ملفات تعريف الكتلة لحقول التقييم: تظهر الخلايا التوزيعات المطلقة

يتشابه توزيع المبيعات عبر المجموعات، باستثناء أن المجموعات 1 و 2 لها ذيول أطول من المجموعة 3 (العمود 2). يوجد قدر معقول من التداخل في توزيعات قيمة إعادة البيع لمدة 4 سنوات 4-year resale، ولكن تتركز المجموعتان 2 و 3 على قيمة أعلى من المجموعة 1، وللمجموعة 3 ذيل أطول من المجموعة 1 أو 2.

طرق أخرى لمقارنة المجموعات

6. للحصول على طريقة أخرى لمقارنة المجموعات، حدد (control-click) على أرقام المجموعات (عناوين الأعمدة) في جدول المجموعات.

7. في العرض الإضافي auxiliary view، حدد مقارنة المجموعات Cluster Comparison من القائمة المنسدلة.

يظهر شكل طريقة عرض مقارنة المجموعات Cluster comparison view: مع إظهار الحقول الأربعة الأولى كما يلي:

طريقة عرض مقارنة المجموعات Cluster comparison view: مع إظهار الحقول الأربعة الأولى
طريقة عرض مقارنة المجموعات Cluster comparison view: مع إظهار الحقول الأربعة الأولى

لكل حقل فئوي categorical field، يُظهر مخطط نقطي dot plot للفئة المشروطة modal category لكل مجموعة، مع حجم النقطة المطابق للنسبة المئوية للسجلات. بالنسبة للحقول المتصلة، يُظهر مخطط boxplot لتوزيع القيم داخل كل مجموعة متراكبة على boxplot لتوزيع القيم بشكل عام. تؤكد هذه المخططات بشكل عام ما رأيته في طريقة عرض المجموعات. يمكن أن تكون طريقة عرض مقارنة المجموعات مفيدة بشكل خاص عندما يكون هناك العديد من المجموعات، وتريد مقارنة عدد قليل منها فقط.

ملخص إجراء التحليل العنقودي من خطوتين

باستخدام إجراء التحليل العنقودي المكون من خطوتين TwoStep Cluster Analysis، قمت بتقسيم السيارات إلى ثلاث فئات عامة إلى حد ما. من أجل الحصول على فواصل أدق داخل هذه المجموعات، يجب عليك جمع معلومات عن سمات أخرى للمركبات. على سبيل المثال، يمكنك ملاحظة أداء اختبار الأعطال crash test أو الخيارات المتاحة في المركبة options available.

الإجراءات ذات الصلة

يعد إجراء التحليل العنقودي أو التجزئة العنقودية من خطوتين TwoStep Cluster Analysis مفيدًا في العثور على مجموعات طبيعية للحالات أو المتغيرات. إنه يعمل بشكل جيد مع المتغيرات الفئوية والمتصلة، ويمكنه تحليل ملفات البيانات الكبيرة جدًا.

  • إذا كان لديك عدد قليل من الحالات، وتريد الاختيار من بين عدة طرق لتشكيل المجموعات، وتحويل المتغيرات، وقياس الاختلاف بين المجموعات، فجرّب إجراء التحليل العنقودي الهرمي Hierarchical Cluster Analysis. يسمح لك إجراء التحليل العنقودي الهرمي أيضًا بتجميع المتغيرات بدلاً من الحالات.
  • يقتصر إجراء التحليل العنقودي باستخدام الخوارزمية التصنيفية K-Means Cluster Analysis على المتغيرات من نوع المقياس (لأن المتوسط الحسابي لا يعمل إلا مع متغيرات من نوع المقياس)، ولكن يمكن استخدامه لتحليل البيانات الكبيرة ويسمح لك بحفظ المسافات من مراكز المجموعة لكل كائن.

المصدر

error:
Scroll to Top