تحليل الجار الأقرب
تحليل الجار الأقرب أو أقرب جار Nearest Neighbor Analysis هو طريقة لتصنيف الحالات بناءً على تشابهها مع الحالات الأخرى. في التعلم الآلي، تم تطويره كطريقة للتعرف على أنماط البيانات دون الحاجة إلى تطابق تام مع أي أنماط أو حالات مخزنة. الحالات المماثلة قريبة من بعضها البعض والحالات المتباينة بعيدة عن بعضها البعض. وبالتالي، فإن المسافة بين حالتين هي مقياس للاختلاف بينهما.
يقال إن الحالات القريبة من بعضها البعض هي “جيران”. عندما يتم عرض حالة جديدة (معارضة)، يتم حساب المسافة بين كل حالة من الحالات في النموذج. يتم حصر تصنيفات الحالات الأكثر تشابهًا – أقرب الجيران – ويتم وضع الحالة الجديدة في الفئة التي تحتوي على أكبر عدد من أقرب الجيران.
يمكنك تحديد عدد أقرب الجيران لفحصها؛ هذه القيمة تسمى k. توضح الصور كيف يمكن تصنيف حالة جديدة باستخدام قيمتين مختلفتين لـ k. عندما k = 5، يتم وضع الحالة الجديدة في الفئة 1 لأن غالبية أقرب الجيران ينتمون إلى الفئة 1. ومع ذلك، عندما k = 9، يتم وضع الحالة الجديدة في الفئة 0 لأن غالبية الجيران الأقرب ينتمون إلى الفئة 0.
يمكن أيضًا استخدام تحليل الجار الأقرب لحساب القيم لهدف متصل continuous. في هذه الحالة، يتم استخدام متوسط القيم المستهدفة أو الوسيط لأقرب الجيران للحصول على القيمة المتوقعة للحالة الجديدة.
استخدام تحليل الجار الأقرب لتقييم عروض السيارات الجديدة
يحتوي ملف البيانات car_sales.sav على تقديرات مبيعات افتراضية وقائمة الأسعار ومواصفات مادية لمختلف أنواع وموديلات المركبات. راجع موضوع “ملفات الأمثلة” لمزيد من المعلومات. من خلال إضافة المواصفات التالية لمركبتين من النموذج الأولي أو “prototype” إلى هذه المعلومات واستخدام تحليل أقرب جار، يمكنك تحديد المركبات الموجودة التي تشبه النماذج الأولية إلى حد كبير، والبدء في التعرف على المكان الذي قد تتناسب فيه النماذج الأولية مع السوق.
جدول قيم البيانات لنماذج السيارات والشاحنات
Variable | Car Prototype Case 158 | Truck Prototype Case 159 |
---|---|---|
model | newCar | newTruck |
price | 21.5 | 34.2 |
engine_s (engine size) | 1.5 | 3.5 |
horsepow (horsepower) | 76 | 167 |
wheelbas (wheelbase) | 106.3 | 109.8 |
width | 67.9 | 75.2 |
length | 175 | 188.4 |
curb_wgt (curb weight) | 2.932 | 4.508 |
fuel_cap (fuel capacity | 11.9 | 17.2 |
mpg (fuel efficiency) | 46 | 26 |
تحضير البيانات من أجل تحليل الجار الأقرب
1. في الحالة 158، اكتب newCar كقيمة للنوع أو model، وفي الحقول من السعر price ولغاية mpg، اكتب 21.5 و 1.5 و 76 و 106.3 و 67.9 و 175 و 2.932 و 11.9 و 46 كقيم.
2. في الحالة 159، اكتب newTruck كقيمة للنوع أو model، وفي الحقول من السعر price ولغاية mpg، اكتب 34.2 و 3.5 و 167 و 109.8 و 75.2 و 188.4 و 4.508 و 17.2 و 26 كقيم.
أنت الآن بحاجة إلى وضع علامة على هذه الحالات باعتبارها ذات أهمية خاصة. أولاً، قم بإنشاء معرف حالة بؤري focal case identifier. سيعرض الإخراج الافتراضي معلومات حول أي المركبات هي “الجيران الأقرب” nearest neighbors للحالات البؤرية.
3. لإنشاء معرف حالة بؤري، اختر من القوائم: تحويل> حساب المتغير …
Transform > Compute Variable…
يظهر مربع حوار حساب المتغير Compute Variable كما يلي:
4. اكتب focal كاسم المتغير الهدف أو target variable.
5. اكتب any(model, ‘newCar’, ‘newTruck’) كتعبير رقمي numeric expression. يؤدي هذا إلى تعيين قيمة البؤرة إلى 1 لأي حالة تكون قيمتها في نموذج المتغير ‘newCar’ or ‘newTruck’، وتعيين القيمة 0 بخلاف ذلك.
6. انقر فوق موافق OK.
الآن قم بإنشاء متغير تقسيم أو partitioning variable. إن تحديد أن مركبات النموذج الأولي عبارة عن نقاط متعارضة holdouts يضمن عدم استخدامها لإنشاء نموذج أقرب جار، ولكن سيتم تضمينها في الإخراج.
7. استدع مربع حوار حساب المتغير أو Compute Variable.
8. اكتب التقسيم partition كاسم المتغير الهدف أو target variable.
9. قم بتعديل التعبير الرقمي ليكون 1-any(model, ‘newCar’, ‘newTruck’). يؤدي هذا إلى تعيين قيمة التقسيم إلى 0 لأي حالة تكون قيمتها في نموذج المتغير ‘newCar’ or ‘newTruck’، وتعيين القيمة 1 بخلاف ذلك.
10. انقر فوق “موافق” أو OK.
فحص فضاء السمات للمتنبئين
أولاً، دعنا نلقي نظرة على كيفية مقارنة النماذج الأولية بالمركبات الحالية، بناءً على مواصفات التصميم فقط.
1. لإجراء تحليل أقرب الجار، اختر من القوائم: تحليل> التصنيف> أقرب الجار …
Analyze > Classify > Nearest Neighbor…
يظهر مربع حوار تحليل أقرب جار على علامة تبويب المتغيرات Nearest Neighbor Analysis Variables tab كما يلي:
2. حدد الحقول من “السعر بالآلاف” أو Price in thousands [السعر] [price] ولغاية “كفاءة استهلاك الوقود” Fuel efficiency أو [mpg] كسمات features.
3. حدد البؤري focal كمعرف الحالة البؤرية أو focal case identifier.
4. حدد نموذج Model [model] كمعرف الحالة أو case identifier.
5. انقر فوق علامة التبويب الأقسام Partitions.
6. حدد استخدام متغير لتعيين الحالات Use variable to assign cases وحدد القسم partition كمتغير القسم أو partition variable.
7. انقر فوق “موافق” أو OK.
ملخص معالجة الحالة
الشكل التالي يبين ملخص معالجة الحالة Case processing summary:
يوضح ملخص معالجة الحالة أنه تم تخصيص 152 حالة لعينة التدريب و 2 حالة إلى العينة المتناقضة. الحالات الخمس المستبعدة من التحليل لها قيم مفقودة في واحد أو أكثر من السمات features.
عارض نموذج تحليل الجار الأقرب
الشكل التالي يبين نافذة عارض النموذج الذي تم نشيطه أو Activated Model Viewer :
يحتوي العارض أيضًا على كائن Model Viewer. من خلال تنشيط (النقر المزدوج) هذا الكائن، يمكنك الحصول على عرض تفاعلي للنموذج. يشتمل عرض النموذج على نافذة من لوحتين وهما كما يلي:
- تعرض اللوحة الأولى نظرة عامة على النموذج المسمى العرض الرئيسي. العرض الرئيسي لنموذج الجوار الأقرب هو مساحة سمات المتنبئين.
- تعرض اللوحة الثانية أحد نوعين من طرق العرض:
- يُظهر عرض النموذج الإضافي مزيدًا من المعلومات حول النموذج، لكنه لا يركز على النموذج نفسه.
- العرض المرتبط هو طريقة عرض تعرض تفاصيل حول سمة واحدة في النموذج عند التنقل لأسفل في جزء من طريقة العرض الرئيسية.
فضاء السمات
الشكل التالي يبين مخطط دائري لفضاء السمات أو Rotated feature space chart:
مخطط فضاء السمات هو رسم بياني تفاعلي لفضاء سمات المتنبئين. هنا يتم عرض فضاء جزئي، مع سمات القوة الحصانية [horsepow]، وحجم المحرك [engine_s]، والسعر بالآلاف [price] ممثلة على المحاور.
- يشير الشكل إلى القسم الذي تنتمي إليه النقطة، حيث يتم تمثيل المتعارضين (النماذج الأولية) بالمثلثات.
- كما أن المتعارضين holdouts هم أيضًا حالات محورية، وقد تم تحديدهم باللون الأحمر. تربط الخطوط الحالات البؤرية بأقرب الجيران لها.
من خلال النقر على الرسم البياني وسحبه، يمكنك تدويره للحصول على عرض أفضل لتوزيع النقاط في فضاء السمات.
مخطط الأقران
الشكل التالي يبين مخطط الأقران أو Peers chart:
يعرض هذا المخطط الحالات البؤرية المحددة في فضاء الميزة وأقرب جيرانهم في كل سمة. يُظهر مخطط كل معلم فردي شريحة ذات بعد واحد من فضاء الميزة. هذا يجعل من السهل، على سبيل المثال، رؤية أن newCar لديها قاعدة عجلات أكبر من أقرب جيرانها، أو أن هناك قدرًا معقولاً من التباين في أطوال newTruck وأقرب جيرانها.
المصدر
- التحليل الإحصائي باستخدام برنامج SPSS، ترجمة وإعداد: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات
- الموقع الرسمي لشركة IBM ® برنامج SPSS