التحليل العنقودي الهرمي

التحليل العنقودي الهرمي

التحليل العنقودي الهرمي أو بالإنجليزية Hierarchical Cluster Analysis أو بالرموز (HCA) هو أداة استكشافية مصممة للكشف عن التجمعات الطبيعية (أو المجموعات) clusters داخل مجموعة البيانات التي لولا ذلك لن تكون واضحة. يكون مفيدًا للغاية عندما تريد تجميع عدد صغير (أقل من بضع مئات) من الكائنات.

يمكن أن تكون الكائنات في التحليل العنقودي الهرمي حالات أو متغيرات، اعتمادًا على ما إذا كنت تريد تصنيف الحالات أو فحص العلاقات بين المتغيرات.

مبادئ التحليل العنقودي الهرمي

يبدأ التحليل العنقودي الهرمي بفصل كل كائن في كتلة أو مجموعة cluster من تلقاء نفسه. في كل مرحلة من مراحل التحليل، يتم تخفيف المعيار الذي يتم من خلاله فصل الكائنات من أجل ربط أكثر المجموعتين تشابهًا حتى يتم ضم كل الكائنات في شجرة تصنيف كاملة classification tree.

المعيار الأساسي لأي مجموعة هو المسافة. يجب أن تنتمي الكائنات القريبة من بعضها البعض إلى نفس المجموعة، ويجب أن تنتمي الكائنات البعيدة عن بعضها البعض إلى مجموعات مختلفة. بالنسبة لمجموعة معينة من البيانات، تعتمد المجموعات التي تم إنشاؤها على المواصفات الخاصة بك للمعلمات التالية:

  1. تحدد طريقة التحليل العنقودي Cluster method قواعد تكوين المجموعة أو الكتلة. على سبيل المثال، عند حساب المسافة بين مجموعتين، يمكنك استخدام زوج من الكائنات الأقرب بين المجموعات أو زوج من العناصر الأبعد، أو حل وسط بين هاتين الطريقتين.
  2. المقياس Measure يحدد معادلة حساب المسافة. على سبيل المثال، يحسب مقياس المسافة الإقليدية Euclidean distance المسافة على أنها “خط مستقيم” straight line بين مجموعتين. تفترض مقاييس الفترة Interval measures أن المتغيرات هي من نوع المقياس scale؛ تفترض مقاييس المعدود count measures أنها عددية منفصلة discrete numeric؛ وتفترض المقاييس الثنائية binary measures أنها تأخذ قيمتين فقط.
  3. يسمح لك التوحيد Standardization بموازنة تأثير المتغيرات المقاسة على مقاييس مختلفة.

استخدام التحليل العنقودي الهرمي لتصنيف السيارات

يحتاج مصنعو السيارات إلى أن يكونوا قادرين على تقييم السوق الحالي لتحديد المنافسة المحتملة لسياراتهم. إذا كان من الممكن تجميع السيارات وفقًا للبيانات المتاحة، فيمكن أن تكون هذه المهمة تلقائية إلى حد كبير باستخدام التحليل العنقودي.

توجد معلومات عن مختلف الماركات والموديلات للسيارات في ملف car_sales.sav. راجع موضوع “ملفات الأمثلة” للحصول على مزيد من المعلومات. استخدم إجراء التحليل العنقودي الهرمي لتجميع السيارات الأكثر مبيعًا وفقًا لأسعارها وخصائصها المادية.

تحضير البيانات

1. لتحديد الحالات المراد تحليلها، اختر من القوائم: البيانات> تحديد الحالات …

Data Select Cases…

يظهر مربع حوار تحديد الحالات Select Cases كما يلي:

مربع حوار تحديد الحالات - التحليل العنقودي الهرمي
مربع حوار تحديد الحالات – التحليل العنقودي الهرمي

2. حدد إذا تم استيفاء الشرط If condition is satisfied.

3. انقر فوق “إذا” If لتعريف الشرط المطلوب تطبيقه.

يظهر مربع حوار “تحديد الحلالات إذا” Select Cases If كما يلي:

مربع حوار "تحديد الحلالات إذا" Select Cases If
مربع حوار “تحديد الحلالات إذا” Select Cases If

4. في حقل النص، اكتب ما يلي: (type=0) & (sales>100)

5. انقر فوق متابعة Continue.

6. انقر فوق “موافق” في مربع حوار تحديد الحالات.

تشغيل التحليل

1. لتشغيل التحليل العنقودي الهرمي، اختر من القوائم: تحليل> تصنيف> عنقدة هرمية …

Analyze Classify Hierarchical Cluster…

يظهر مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster Analysis dialog box كما يلي:

مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster Analysis dialog box
مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster Analysis dialog box

2. إذا لم تعرض قائمة المتغيرات تسميات المتغيرات بحسب ترتيب الملفات، فانقر بزر الماوس الأيمن في أي مكان في قائمة المتغيرات variable list ومن قائمة السياق context، اختر عرض تسميات المتغيرات Display Variable Labels والفرز حسب ترتيب الملفات Sort by File Order.

3. حدد الحقول من “السعر بالآلاف” Price in thousands ولغاية “كفاءة استخدام الوقود” Fuel efficiency كمتغيرات التحليل nalysis variables.

4. حدد النموذج Model كمتغير تسمية الحالة case labeling variable.

5. انقر فوق المخططات Plots.

يظهر مربع حوار المخططات Plots كما يلي:

مربع حوار المخططات Plots
مربع حوار المخططات Plots

6. حدد مخطط شجري أو تفرعي Dendrogram.

7. حدد لا شيء None في مجموعة Icicle.

8. انقر فوق متابعة Continue.

9. انقر فوق الطريقة Method في مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster Analysis.

يظهر مربع حوار الطريقة Method كما يلي:

مربع حوار الطريقة Method
مربع حوار الطريقة Method

10. حدد أقرب جار Nearest neighbor كطريقة العنقدة cluster method.

11. حدد درجات Z أو (Z scores) كتوحيد قياسي standardization في مجموعة قيم التحويل Transform Values.

12. انقر فوق متابعة Continue.

13. انقر فوق “موافق” OK في مربع حوار التحليل العنقودي الهرمي.

النتائج في المخطط الشجري Dendrogram

الشكل التالي يبين المخطط الشجري Dendrogram لحل الربط الفردي single linkage solution:

مخطط شجري Dendrogram لحل الربط الفردي - التحليل العنقودي الهرمي
مخطط شجري Dendrogram لحل الربط الفردي – التحليل العنقودي الهرمي

المخطط الشجري dendrogram هو ملخص رسومي للحل العنقودي. يتم سرد الحالات على طول المحور الرأسي الأيسر. يُظهر المحور الأفقي المسافة بين المجموعات عند ضمها.

يعد تحليل شجرة التصنيف لتحديد عدد المجموعات عملية ذاتية. بشكل عام، تبدأ بالبحث عن “فجوات” “gaps” بين الوصلات على طول المحور الأفقي. بدءًا من اليمين، توجد فجوة بين 20 و 25 تقسم السيارات إلى مجموعتين. هناك فجوة أخرى من حوالي 10 إلى 15، مما يقترح التجزئة إلى إلى 6 مجموعات.

جدول التكتل أو التجميع

الشكل التالي يبين جدول التكتل Agglomeration schedule لحل الربط الفردي single linkage solution:

جدول التكتل Agglomeration schedule لحل الربط الفردي
جدول التكتل Agglomeration schedule لحل الربط الفردي

جدول التكتل هو ملخص رقمي لحل العنقدة أو التحليل العنقودي الهرمي. في المرحلة الأولى، يتم الجمع بين الحالتين 8 و 11 لأن المسافة بينهما هي الأصغر. تظهر الكتلة التي تم إنشاؤها عن طريق الانضمام بعد ذلك في المرحلة 7. في المرحلة 7، يتم ضم المجموعات التي تم إنشاؤها في المرحلتين 1 و 3. تظهر المجموعة الناتجة بعد ذلك في المرحلة 8. عندما يكون هناك العديد من الحالات، يصبح هذا الجدول طويلًا نوعًا ما، ولكن قد يكون من الأسهل فحص عمود المعاملات بحثًا عن فجوات كبيرة بدلاً من مسح المخطط الشجري dendrogram.

يرى حل العنقدة الجيد قفزة مفاجئة (فجوة) (gap) في معامل المسافة. الحل قبل الفجوة يشير إلى الحل الجيد. تحدث الفجوات الأكبر في عمود المعاملات بين المرحلتين 5 و 6، مما يشير إلى حل مكون من 6 مجموعات، والمراحل 9 و 10، مما يشير إلى حل ثنائي الكتلة. هذه هي نفس النتائج التي توصلت إليها من المخطط الشجري dendrogram. هذا غير مرض إلى حد ما كحل، لأنه لا يوجد تصنيف قوي. جرب حلًا باستخدام الربط الكامل (أبعد الجار) Furthest neighbor كطريقة التحليل العنقودي.

حل الربط الكامل

لتشغيل تحليل الكتلة باستخدام الربط الكامل:

1. قم باستدعاء مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster.

يظهر مربع حوار التحليل العنقودي الهرمي كما يلي:

مربع حوار التحليل العنقودي الهرمي
مربع حوار التحليل العنقودي الهرمي

2. انقر فوق الطريقة Method.

يظهر مربع حوار الطريقة Method dialog box كما يلي:

مربع حوار الطريقة Method dialog box
مربع حوار الطريقة Method dialog box

3. حدد أبعد جار Furthest neighbor كطريقة للتجميع أو التكتل cluster method.

4.. انقر فوق متابعة Continue.

5. انقر فوق موافق OK في مربع حوار التحليل العنقودي الهرمي Hierarchical Cluster Analysis dialog box.

جدول التكتل أو التجميع

الشكل التالي يبين جدول التكتل لحل الربط الكامل Agglomeration schedule for complete linkage solution:

Agglomeration schedule for complete linkage solution
جدول التكتل لحل الربط الكامل

بالنسبة للمراحل القليلة الأولى، يكون الجدول الزمني لحل الربط الكامل مشابهًا للجدول الزمني لحل الربط الفردي. في المراحل القليلة الأخيرة، تكون مختلفة تمامًا حيث أن حل الربط الكامل يصنع تصنيفًا قويًا لمجموعتين أو ثلاث مجموعات.

المخطط الشجري Dendrogram

الشكل التالي يبين المخطط الشجري Dendrogram لحل الربط الكامل:

المخطط الشجري Dendrogram لحل الربط الكامل
المخطط الشجري Dendrogram لحل الربط الكامل

تنعكس أهمية هذا التصنيف في المخطط الشجري. يشكل الانقسام الأولي للشجرة مجموعتين clusters. الجزء العلوي يحتوي على سيارات أصغر. الجزء السفلي يحتوي على سيارات أكبر. يمكن تقسيم مجموعة السيارات الأصغر إلى سيارات صغيرة واقتصادية. إن كلا من Civic و Corolla هما أخوان أصغر وأرخص من Accord و Camry، على التوالي.

ملخص التحليل العنقودي الهرمي في تصنيف السيارات

حل الربط الكامل complete linkage solution مرضٍ لأن مجموعاته متميزة distinct، في حين أن حل الربط الفردي أقل شمولية. باستخدام تجميع الروابط الكامل، يمكنك تحديد المنافسة على المركبات في مرحلة التصميم عن طريق إدخال مواصفاتها كحالات جديدة في مجموعة البيانات وإعادة تشغيل التحليل.

الإجراءات ذات الصلة

يعتبر إجراء التحليل العنقودي الهرمي مفيدًا في العثور على مجموعات طبيعية للحالات أو المتغيرات. يعمل بشكل أفضل عندما يحتوي ملف البيانات الخاص بك على عدد صغير (أقل من بضع مئات) من الكائنات ليتم تجميعها.

  • إذا كان لديك عدد كبير من الحالات المطلوب تجميعها، فاستخدم إجراء التحليل العنقودي من خطوتين TwoStep Cluster Analysis.
  • وإذا كان لديك عدد كبير من الحالات المراد تجميعها وكانت جميع المتغيرات الخاصة بك مقياسًا، فيمكنك بدلاً من ذلك استخدام إجراء التحليل العنقودي باستخدام الخوارزمية التصنيفية K-Means Clustering.
  • أما إذا كنت مهتمًا بفحص بنية المتغيرات الخاصة بك وهي متغيرات من نوع المقياس، يمكنك تجربة التحليل العاملي Factor Analysis كبديل.

المصدر

error:
Scroll to Top