الانحدار الخطي
يُستخدم الانحدار الخطي Linear Regression لنمذجة قيمة متغير تابع من نوع المقياس dependent scale variable بناءً على علاقته الخطية بواحد أو أكثر من متغيرات التنبؤ أو المتنبئين predictors.
استخدام الانحدار الخطي لنمذجة مبيعات السيارات
تقوم مجموعة صناعة السيارات بتتبع مبيعات مجموعة متنوعة من السيارات الشخصية. في محاولة لتكون قادرًا على تحديد النماذج ذات الأداء العالي والضعيف، فأنت تريد إنشاء علاقة بين مبيعات السيارات وخصائص السيارة.
المعلومات المتعلقة بمختلف أنواع وموديلات السيارات موجودة في ملف car_sales.sav. راجع موضوع “ملفات الأمثلة” للحصول على مزيد من المعلومات. استخدم الانحدار الخطي لتحديد النماذج التي لا تباع بشكل جيد.
إجراء تحليل الانحدار الخطي
لإجراء تحليل انحدار خطي:
1. اختر من القوائم: تحليل> الانحدار> خطي …
Analyze > Regression > Linear…
يظهر مربع حوار الانحدار الخطي Linear Regression، والذي سوف يتم استخدامه لعرض المتغيرات في الملف المتاح للتحليل، والمبيعات المحولة من السجل المختارة كمتغير تابع، ومتغيرات أخرى متعددة محددة كمتغيرات مستقلة، وذلك كما يلي:
2. حدد المبيعات المحولة Log-transformed sales كمتغير تابع dependent variable.
يكون توزيع المبيعات المحولة Log-transformed sales أقرب إلى الطبيعي من المبيعات بالآلاف Sales in thousands، ويعمل نموذج الانحدار الخطي بشكل أفضل مع المتغيرات العادية.
3. إذا كانت قائمة متغيرات المصدر source variable list لا تعرض المتغيرات وفقًا لتسميات المتغير وبحسب ترتيب الملف، فانقر بزر الماوس الأيمن في أي مكان في القائمة وحدد “عرض تسميات المتغير” Display Variable Labels و”فرز ترتيب الملف” Sort by File Order من قائمة السياق context.
4. حدد المتغيرات بدءا من “نوع السيارة” Vehicle type ولغاية “كفاءة استخدام الوقود” Fuel efficiency كمتغيرات مستقلة independent variables.
5. انقر فوق إحصائيات Statistics.
يظهر مربع حوار الإحصائيات كما يلي:
6. حدد الارتباطات الجزئية والتقسيم Part and partial correlations وتشخيص العلاقة الخطية المتداخلة Collinearity diagnostics.
7. انقر فوق متابعة Continue.
8. انقر فوق موافق OK في مربع حوار الانحدار الخطي Linear Regression.
التحقق من ملاءمة النموذج
الشكل التالي يبين جدول ANOVA الذي يوضح مجموع المربعات ودرجات الحرية ومتوسط المربع و F والأهمية.
يشير جدول ANOVA إلى إحصائي F المهم والدال إحصائيًا، مما يشير إلى أن استخدام النموذج أفضل من تخمين المتوسط.
الشكل التالي يبين جدول ملخص النموذج وهو يعرض قيمة R-square = .486:
بشكل عام، يقوم الانحدار بعمل جيد في نمذجة المبيعات. يفسر النموذج ما يقرب من نصف التباين variation في المبيعات.
المعاملات
الشكل التالي يبين جدول المعاملات، النصف الأول، وهو يُظهر المعاملات غير القياسية والقياسية، إحصائي t، والدلالة لجميع المتغيرات المستقلة:
على الرغم من أن ملائمة النموذج تبدو إيجابية، إلا أن القسم الأول من جدول المعاملات يوضح أن هناك عددًا كبيرًا جدًا من المتنبئين في النموذج. هناك العديد من المعاملات غير الهامة، مما يشير إلى أن هذه المتغيرات لا تساهم كثيرًا في النموذج.
لتحديد الأهمية النسبية للمتنبئين المهمين، انظر إلى المعاملات القياسية standardized coefficients. على الرغم من أن السعر بالآلاف Price in thousands له معامل صغير مقارنة بنوع السيارة Vehicle type، إلا أن السعر بالآلاف يساهم فعليًا بشكل أكبر في النموذج لأنه يحتوي على معامل قياسي مطلق أكبر absolute standardized coefficient.
الشكل التالي يبين جدول المعاملات، النصف الثاني، وهو يعرض الارتباطات الجزئية الصفرية zero-order, partial and part correlations، والتسامح tolerance و VIF كما يلي:
يوضح القسم الثاني من جدول المعاملات أنه قد تكون هناك مشكلة في العلاقة الخطية المتعددة. بالنسبة لمعظم المتنبئين، تنخفض قيم الارتباطات الجزئية بشكل حاد من ارتباط الترتيب الصفري. هذا يعني، على سبيل المثال، أن الكثير من التباين في المبيعات الذي يتم تفسيره بالسعر يتم تفسيره أيضًا من خلال متغيرات أخرى.
التفاوت هو النسبة المئوية للتباين في متنبئ معين لا يمكن تفسيره بواسطة المتنبئين الآخرين. وهكذا، تظهر التفاوتات الصغيرة أن 70٪ – 90٪ من التباين في متنبئ معين يمكن تفسيره بواسطة المتنبئين الآخرين. عندما تكون التفاوتات قريبة من 0، يكون هناك ارتباط خطي عالٍ والخطأ المعياري لمعاملات الانحدار يكون متضخمًا. عادةً ما يعتبر عامل تضخم التباين variance inflation factor الأكبر من 2 مشكلة، وأصغر VIF في الجدول هو 3.193.
تشخيص العلاقة الخطية المتداخلة
الشكل التالي يبين جدول تشخيص العلاقة الخطية المتداخلة Collinearity diagnostics table، وهو يعرض القيم الذاتية eigenvalues وقيم مؤشر الحالة condition index values:
تؤكد تشخيصات العلاقة الخطية المتداخلة أن هناك مشاكل خطيرة في العلاقة الخطية المتعددة. العديد من قيم eigenvalues قريبة من 0، مما يشير إلى أن المتنبئين مترابطين للغاية وأن التغييرات الصغيرة في قيم البيانات قد تؤدي إلى تغييرات كبيرة في تقديرات المعاملات.
تُحسب مؤشرات الشرط كجذور تربيعية لنسب أكبر قيمة ذاتية لكل قيمة ذاتية متتالية. تشير القيم الأكبر من 15 إلى مشكلة محتملة في العلاقة الخطية المتداخلة؛ أكبر من 30 مشكلة خطيرة. ستة من هذه المؤشرات أكبر من 30، مما يشير إلى مشكلة خطيرة للغاية في العلاقة الخطية المتداخلة.
حاول الآن إصلاح مشاكل العلاقة الخطية المتداخلة عن طريق إعادة تشغيل الانحدار باستخدام درجات z للمتغيرات المستقلة.
المصدر
- كتاب التحليل الإحصائي باستخدام برنامج SPSS، ترجمة وإعداد: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات، إسطنبول، 2022.
- الموقع الرسمي لشركة IBM ® برنامج SPSS