النماذج الخطية
تتنبأ النماذج الخطية Linear Models بهدف مستمر أو Continuous بناءً على العلاقات الخطية بين الهدف وواحد أو أكثر من المتنبئين Predictors.
النماذج الخطية بسيطة نسبيًا وتعطي معادلة رياضية سهلة التفسير للقياس. إن خصائص هذه النماذج مفهومة جيدًا ويمكن بناؤها عادةً بسرعة كبيرة مقارنةً بأنواع النماذج الأخرى (مثل الشبكات العصبية أو أشجار القرار) على نفس مجموعة البيانات.
توقع تكاليف مطالبة التأمين (تطبيق عملي على النماذج الخطية)
تريد شركة تأمين ذات موارد محدودة للتحقيق في مطالبات التأمين لأصحاب المنازل بناء نموذج لتقدير تكاليف المطالبات. من خلال نشر هذا النموذج في مراكز الخدمة، يمكن للممثلين إدخال معلومات المطالبة أثناء الاتصال بالهاتف مع أحد العملاء والحصول على الفور على التكلفة المتوقعة للمطالبة بناءً على البيانات السابقة. لديهم عينة من المعلومات حول المطالبات السابقة التي تم جمعها في ملف insurance_claims.sav. راجع موضوع “ملفات الأمثلة” للحصول على مزيد من المعلومات.
- إجراء التحليل
- ملخص النموذج
- الإعداد التلقائي للبيانات
- ملخص بناء النموذج
- أهمية التوقع
- التنبؤ بالملاحظة
- التأثيرات
- المعاملات
- التحقق من ثبات النموذج المحدد
- ملخص بناء النموذج
- أهمية التوقع وملخص النموذج
- حفظ النموذج للنشر
إجراء التحليل (النماذج الخطية)
لبناء نموذج خطي جديد:
1. اختر من القوائم: تحليل> الانحدار> النمذجة الخطية التلقائية …
Analyze > Regression > Automatic Linear Modeling…
تظهر علامة تبويب الحقول في مربع حوار النمذجة الخطية Linear models كما يلي:
تُستخدم مجموعة البيانات هذه أيضًا لبناء نموذج للتنبؤ بالمطالبات الاحتيالية، لذلك يتم تحديد تكلفة المطالبة بالآلاف Cost of claim in thousands (مبلغ المطالبة) claim_amount في مجموعة البيانات كإدخال input؛ لذلك عند فتح مربع حوار النماذج الخطية، يتم وضعه في البداية في قائمة التنبؤات (المدخلات) Predictors (Inputs). لاحظ أن قائمة الهدف Target list فارغة لأن المطالبة الاحتيالية (الاحتيالية) Fraudulent claim (fraudulent) لها مستوى قياس اسمي nominal، والنماذج الخطية صالحة فقط للأهداف المستمرة continuous (فئة المقياس مثلا).
2. قم بإزالة تكلفة المطالبة بالآلاف (مبلغ_المطالبة) أو Cost of claim in thousands (claim_amount) من قائمة المتنبئين predictors list وحددها كهدف target.
بالنسبة للحقول المتبقية في قائمة المتنبئين، يتم استخدام الحقول الفئوية categorical (الاسمية والترتيبية) (nominal, and ordinal) كعوامل factors في النموذج ويتم استخدام الحقول المستمرة continuous كمتغيرات مشتركة covariates.
3. انقر فوق تشغيل Run.
ملخص النموذج
الشكل التالي يبين عرض ملخص النموذج أو Model Summary view مع شريط أفقي يشير إلى دقة 59.8٪:
يقوم الإجراء بإنشاء كائن نموذج في عارض المخرجات output Viewer. قم بتنشيط الكائن بالنقر المزدوج عليه أو double-clicking.
أول عرض مرئي للنموذج هو ملخص عالي المستوى للنموذج ومدى ملاءمته. الاهتمام الأساسي هو الرسم البياني؛ قيمة الدقة المعروضة 100 × قيمة مربع R المعدلة؛ وبالتالي فإن مربع R المعدلة للنموذج النهائي هي 0.598. يمكنك استخدام هذه القيمة، جنبًا إلى جنب مع معيار المعلومات المعروض في الجدول، لمقارنة هذا النموذج مع النماذج الأخرى لتكلفة المطالبة بالآلاف أو Cost of claim in thousands المبنية على مجموعة البيانات هذه.
من الجدول، يمكنك أن ترى أنه تم تنفيذ الإعداد التلقائي للبيانات واختيار النموذج كجزء من عملية بناء النموذج. تظهر نتائج أكثر تفصيلاً لهذه العمليات في طرق عرض أخرى.
الإعداد التلقائي للبيانات في النماذج الخطية
1. انقر فوق الصورة المصغرة لعرض إعداد البيانات التلقائي Automatic Data Preparation؛ إنه أسفل عرض ملخص النموذج.
يظهر عرض إعداد البيانات التلقائي كما يلي:
توفر طريقة العرض هذه تفاصيل الإجراءات التي تم اتخاذها أثناء خطوة إعداد البيانات تلقائيًا، قبل إنشاء النموذج.
- تمت معالجة كافة حقول التاريخ date fields لاشتقاق الوقت المنقضي بالأشهر من قيم التاريخ إلى تاريخ النظام الحالي.
- تم تقليم القيم المتطرفة outliers لثلاثة متنبئين من نوع المتغيرات المتصلة إلى قيمة قطع 3 انحرافات معيارية عن المتوسط.
- قام العديد من المتنبئين الفئويين categorical predictors بدمج فئات متشابهة.
لمزيد من المعلومات حول أنواع الإجراءات المتخذة، راجع الإعداد التلقائي للبيانات.
ملخص بناء النموذج الخطي
1. انقر فوق الصورة المصغرة لعرض ملخص بناء النموذج Model Building Summary view؛ العرض من الثاني إلى الأخير.
يظهر عرض ملخص بناء النموذج Model Building Summary view كما يلي:
يوفر هذا العرض مزيدًا من التفاصيل حول كيفية اختيار المتنبئين النهائيين. في كل خطوة، تمت إضافة المتنبئ الذي أدى إلى أكبر انخفاض في معيار المعلومات، بالترتيب التالي:
- claim_type_transformed، والتي نعرفها من طريقة عرض “إعداد البيانات التلقائي”، وهي نوع المطالبة مع الفئات المدمجة،
- cover_transformed، وهو مقدار التغطية بالآلاف Amount of coverage in thousands مع تقليم القيم المتطرفة outliers،
- uninhabitable، وهي ممتلكات غير صالحة للسكن Property uninhabitable (غير محولة)،
- townize_transformed، وهي حجم المدينة الأم أو Size of hometown مع فئات مدمجة.
أهمية المتنبئ في النموذج الخطي
انقر فوق الصورة المصغرة لعرض أهمية المتنبئ Predictor Importance view.
يظهر شكل عرض أهمية المتنبئ كما يلي:
يُظهر هذا العرض المتنبئين في النموذج النهائي بترتيب حسب الأهمية. بالنسبة للنماذج الخطية، فإن أهمية المتنبئ هي المجموع المتبقي للمربعات مع إزالة المتنبئ من النموذج، وتوحيد قيم الأهمية بحيث يكون مجموعها الواحد الصحيح 1.
لاحظ أن ترتيب المتنبئ predictor’s rank order من حيث الأهمية ليس بالضرورة الترتيب الذي تمت إضافته إلى النموذج؛ على سبيل المثال، تمت إضافة نوع المطالبة المحول Type of claim أولاً إلى النموذج ولكنه يأتي في المرتبة الثانية من حيث الأهمية.
القيم المتوقعة بالملاحظة
انقر فوق الصورة المصغرة لعرض القيم المتوقعة بالملاحظة Predicted by Observed view.
يظهر الشكل التالي وهو عرض القيم المتوقعة عن طريق الملاحظة:
لا تقع النقاط في الرسم البياني على خط 45 درجة، ولا يبدو أن أيًا من القيم المتوقعة أعلى من 500، على الرغم من أن النطاق الأعلى للقيم المرصودة يمتد فقط إلى ما بعد 1500. وهذا يشير إلى أن النموذج لا يتنبأ بالقيمة من المطالبات الكبيرة بشكل جيد للغاية. نظرًا لأن توزيع تكلفة المطالبة بالآلاف claim in thousands ملتوِ، فربما يجب تغييرها في تحليل إضافي، لكننا لن نتابع ذلك هنا. في الوقت الحالي، سوف نتخطى النظر إلى عرض القيم المتطرفة Outliers والقيم المتبقية Residuals.
التأثيرات في النماذج الخطية
1. انقر فوق الصورة المصغرة لعرض التأثيرات Effects view:
يظهر شكل عرض التأثيرات، نمط الرسم التخطيطي Effects view, diagram style كما يلي:
هذا تصور لجدول ANOVA التقليدي. يتم ترتيب المتنبئين predictors من أعلى إلى أسفل حسب الأهمية، ويعتمد سمك كل خط متصل على الأهمية الإحصائية للتأثير.
2. من القائمة المنسدلة “النمط” Style في طريقة العرض Effects، حدد الجدول Table.
3. في جدول ANOVA، انقر فوق خلية “النموذج المصحح” Corrected Model. هذا يعرض كل التأثيرات في جدول كما يلي:
هذا هو جدول ANOVA التقليدي للنموذج العام والتأثيرات الفردية. لاحظ أن حقل townize_transformed (حجم المدينة الأم) ليست ذات دلالة إحصائية في الواقع؛ لاحظ أن الإجراء استخدم الاختزال reduction في معيار المعلومات لتحديد المتنبئين المراد إضافتهم، لذلك في حين أن cityize_transformed (حجم المدينة الأم) ليس ذا دلالة إحصائية وفقًا لاختبار F، فإنه مفيد للنموذج وفقًا لمعيار المعلومات. وبالمثل، قد لا يشتمل النموذج على بعض المتنبئين الذين يعتبرون ذات دلالة إحصائية وفقًا لاختبار F.
المعاملات في النماذج الخطية
1. انقر فوق الصورة المصغرة لطريقة عرض المعامِلات Coefficients view.
تظهر طريقة عرض المعاملات، نمط المخطط Coefficients view, diagram style كما يلي:
هذا هو تصور لجدول تقديرات المعلمات التقليدي. يعرض المخطط التقاطع أولاً، ثم يفرز التأثيرات من أعلى إلى أسفل بتقليل أهمية التوقع. ضمن التأثيرات التي تحتوي على عوامل factors، يتم فرز المعاملات بترتيب تصاعدي لقيم البيانات. يتم تلوين خطوط التوصيل في الرسم التخطيطي بناءً على علامة المعامل (انظر مفتاح الرسم البياني) ويتم ترجيحها بناءً على أهمية المعامل، مع عرض خط أكبر يقابل معاملات أكثر أهمية (قيم p أصغر).
2. من القائمة المنسدلة “النمط” Style في طريقة عرض المعاملات، حدد الجدول Table.
تظهر طريقة عرض المعاملات، نمط الجدول Coefficients view, table style مع الكشف عن تلميح أداة مصطلح النموذج.
3. في جدول تقديرات المعلمات، انقر فوق خلية المعامل Coefficient.
يعرض هذا الخطأ القياسي وإحصاء t وفترة الثقة confidence interval.
تفسير الدلالات
هذا هو جدول تقديرات المعلمات التقليدية للنموذج العام والتأثيرات الفردية. تُظهر المعاملات العلاقة بين كل معلمة نموذج وتكلفة المطالبة بالآلاف Cost of claim in thousands. على سبيل المثال، قيمة 0.261 لـ coverage_transformed تعني أنه، مع تساوي جميع الأشياء الأخرى، نتوقع تكلفة مطالبة للوثيقة التي تحتوي على تغطية بقيمة 200 ألف دولار أن تكلف ما مقداره (200-100) * 0.261 = 26.1 ألف دولار أكثر من الوثيقة التي تحتوي على تغطية بقيمة 100 ألف دولار.
وبالمثل، فإن قيمة 137.226 لـ claim_type_transformed = 2 (نوع المطالبة = تلوث) أو (Type of claim=Contamination) تعني أنه، مع تساوي جميع الأشياء الأخرى، نتوقع أن تبلغ تكلفة المطالبة عندما يكون هناك تلوث 137.226 ألف دولار أكثر من المطالبات الناتجة عن الرياح والبرد، أو السرقة أو التخريب، والممثلة بـ claim_type_transformed = 3؛ يمكنك معرفة فئات الحقل غير المحول الذي يمثله عن طريق تمرير مؤشر الماوس فوق خلية مصطلح النموذج للكشف عن تلميح الأداة.
4. انقر فوق الصورة المصغرة لطريقة عرض المتوسطات المقدرة Estimated Means view.
تظهر طريقة عرض المتوسطات المقدرة، مع الرسم البياني لنوع المطالبة Estimated Means view, chart for Type of claim كما يلي:
يعطي هذا تصورًا بديلاً للمعاملات بحيث يمكنك أن ترى بسرعة أنه، مع تساوي جميع الأشياء الأخرى، يرتبط الحريق / الدخان والتلوث بتكاليف مطالبات أعلى من الأضرار الناجمة عن أضرار المياه، الرياح / البرد، السرقة / التخريب.
المصدر
- كتاب التحليل الإحصائي باستخدام برنامج SPSS، ترجمة وإعداد: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات، إسطنبول، 2022.
- الموقع الرسمي لشركة IBM ® برنامج SPSS