تحويل بيانات السلاسل الزمنية
يتم توفير العديد من إجراءات تحويل بيانات السلاسل الزمنية Time Series Data Transformations المفيدة في تحليل السلاسل الزمنية، ومنها:
- إنشاء متغيرات التاريخ لتحديد الدورية والتمييز بين الفترات التاريخية والتحقق من الصحة والتنبؤ.
- إنشاء متغيرات السلاسل الزمنية الجديدة كوظائف لمتغيرات السلاسل الزمنية الحالية.
- استبدل القيم المفقودة من النظام ومن المستخدم بتقديرات تستند إلى إحدى الطرق المتعددة.
يتم الحصول على السلسلة الزمنية عن طريق قياس متغير (أو مجموعة متغيرات) بانتظام على مدى فترة زمنية. يفترض تحويل بيانات السلاسل الزمنية بنية ملف البيانات بحيث تمثل كل حالة (صف) مجموعة من الملاحظات في وقت مختلف، ويكون طول الفترة الزمنية بين الحالات موحدًا.
تحديد التواريخ
يتيح لك مربع الحوار “تحديد التواريخ” Define Dates إنشاء متغيرات التاريخ التي يمكن استخدامها لتحديد دورية سلسلة زمنية ولتسمية المخرجات من تحليل السلاسل الزمنية.
تحديد الخيارات:
- الحالات هي Cases Are: تحديد الفترة الزمنية المستخدمة لإنشاء التواريخ.
- غير مؤرخ Not dated: يزيل أي متغيرات تاريخ محددة مسبقًا. يتم حذف أي متغيرات تحمل الأسماء التالية: year_ ، و Quarter_ ، و month_ ، و week_ ، و day_ ، و hour_ ، و minutes_ ، و second_ ، و date_.
- مخصص Custom: يشير إلى وجود متغيرات التاريخ المخصصة التي تم إنشاؤها باستخدام صيغة الأمر (على سبيل المثال، أسبوع عمل لمدة أربعة أيام). يعكس هذا العنصر فقط الحالة الحالية لمجموعة البيانات النشطة. اختياره من القائمة ليس له أي تأثير. (للحصول على معلومات حول إنشاء متغيرات تاريخ مخصصة، راجع الأمر DATE.)
- الحالة الأولى هي First Case Is: يحدد قيمة تاريخ البدء، التي تم تعيينها للحالة الأولى. يتم تعيين القيم المتسلسلة، بناءً على الفاصل الزمني، للحالات اللاحقة.
- الدورية على مستوى أعلى Periodicity at higher level: يشير إلى الاختلاف الدوري المتكرر، مثل عدد الأشهر في السنة أو عدد الأيام في الأسبوع. تشير القيمة المعروضة إلى أقصى قيمة يمكنك إدخالها. للساعات والدقائق والثواني، يكون الحد الأقصى هو القيمة المعروضة مطروحًا منها واحدًا.
يتم إنشاء متغير رقمي جديد لكل مكون يتم استخدامه لتحديد التاريخ. تنتهي أسماء المتغيرات الجديدة بشرطة سفلية. يتم أيضًا إنشاء متغير سلسلة وصفي، date_، من المكونات. على سبيل المثال، إذا حددت الأسابيع والأيام والساعات Weeks, days, hours، فسيتم إنشاء أربعة متغيرات جديدة: الأسبوع_ واليوم_ والساعة_ والتاريخ_ week_, day_, hour_, and date_.
إذا تم تحديد متغيرات التاريخ بالفعل، فسيتم استبدالها عندما تحدد متغيرات التاريخ الجديدة التي سيكون لها نفس الأسماء مثل متغيرات التاريخ الحالية.
تنفيذ إجراء تحويل بيانات السلاسل الزمنية
لتحديد التواريخ لبيانات السلاسل الزمنية:
1. من القوائم اختر: البيانات> تحديد التواريخ …
Data > Define Dates…
2. حدد فترة زمنية من قائمة “الحالات هي” Cases Are.
3. أدخل القيمة (القيم) التي تحدد تاريخ البدء للحالة الأولى هي First Case Is، والتي تحدد التاريخ المعين للحالة الأولى.
متغيرات التاريخ مقابل متغيرات تنسيق التاريخ
يجب عدم الخلط بين متغيرات التاريخ التي تم إنشاؤها باستخدام “تحديد التواريخ” Define Dates ومتغيرات تنسيق التاريخ المحددة في طريقة العرض المتغيرة لمحرر البيانات. تُستخدم متغيرات التاريخ لتحديد دورية بيانات السلاسل الزمنية. تمثل متغيرات تنسيق التاريخ التواريخ و / أو الأوقات المعروضة في تنسيقات التاريخ / الوقت المختلفة. متغيرات التاريخ هي أعداد صحيحة بسيطة تمثل عدد الأيام والأسابيع والساعات وما إلى ذلك، من نقطة بداية يحددها المستخدم. داخليًا، يتم تخزين معظم متغيرات تنسيق التاريخ كرقم الثواني اعتبارًا من 14 أكتوبر 1582.
إنشاء السلاسل الزمنية
في تحويل بيانات السلاسل الزمنية، يتيح لك مربع الحوار “إنشاء سلسلة زمنية” Time Series dialog box إنشاء متغيرات جديدة بناءً على وظائف متغيرات السلاسل الزمنية الرقمية الحالية. هذه القيم المحولة مفيدة في العديد من إجراءات تحليل السلاسل الزمنية.
أسماء المتغيرات الجديدة الافتراضية هي الأحرف الستة الأولى من المتغير الحالي المستخدم لإنشائه، متبوعًا بشرطة سفلية ورقم متسلسل. على سبيل المثال، بالنسبة لمتغير السعر price، سيكون اسم المتغير الجديد هو price_1. المتغيرات الجديدة تحتفظ بأي تسميات قيمة محددة من المتغيرات الأصلية.
تتضمن الوظائف المتاحة لإنشاء متغيرات السلاسل الزمنية الاختلافات differences، والمتوسطات المتحركة moving averages، ووسيطات التشغيل running medians، ووظائف التأخر lag والتقدم lead.
لإنشاء متغيرات سلسلة زمنية جديدة:
1. من القوائم اختر: تحويل> إنشاء سلسلة زمنية …
Transform > Create Time Series…
2. حدد وظيفة السلاسل الزمنية التي تريد استخدامها لتحويل المتغير (المتغيرات) الأصلي.
3. حدد المتغير (المتغيرات) الذي تريد إنشاء متغيرات السلاسل الزمنية الجديدة منه. يمكن استخدام المتغيرات الرقمية فقط numeric variables.
4. اختياريًا، يمكنك:
- إدخال أسماء المتغيرات لتجاوز أسماء المتغيرات الافتراضية الجديدة.
- تغيير وظيفة المتغير المحدد.
وظائف تحويل بيانات السلاسل الزمنية
الفرق Difference
هو الفرق غير الموسمي بين القيم المتتالية في السلسلة. الترتيب هو عدد القيم السابقة المستخدمة لحساب الفرق. نظرًا لضياع ملاحظة واحدة لكل ترتيب اختلاف ، تظهر القيم المفقودة من النظام في بداية السلسلة. على سبيل المثال، إذا كان ترتيب الفرق هو 2، فإن الحالتين الأوليين سيكون لهما قيمة مفقودة من النظام للمتغير الجديد.
الفرق الموسمي Seasonal difference
هو الفرق بين قيم السلسلة على امتداد ثابت متباعد. يعتمد المدى على الدورية المحددة حاليًا. لحساب الاختلافات الموسمية، يجب أن يكون لديك متغيرات التاريخ المحددة (قائمة البيانات Data menu، تحديد التواريخ Define Dates) التي تتضمن مكونًا دوريًا (مثل أشهر السنة). الترتيب هو عدد الفترات الموسمية المستخدمة لحساب الفرق. عدد الحالات التي تحتوي على قيمة مفقودة من النظام في بداية السلسلة يساوي الدورية مضروبة في الترتيب. على سبيل المثال، إذا كانت الدورية الحالية هي 12 وكان الترتيب 2، فإن أول 24 حالة سيكون لها قيمة مفقودة من النظام للمتغير الجديد.
المتوسط المتحرك المركزي
المتوسط المتحرك المركزي Centered moving average هو متوسط مدى قيم السلاسل المحيطة بالقيمة الحالية بما في ذلك القيمة الحالية. الامتداد هو عدد قيم السلاسل المستخدمة لحساب المتوسط. إذا كانت الفترة متساوية، يتم حساب المتوسط المتحرك عن طريق حساب متوسط كل زوج من الحالات غير المركزية. عدد الحالات ذات القيمة المفقودة من النظام في بداية ونهاية السلسلة لمدى n يساوي n / 2 لقيم الامتداد الزوجي و (n – 1) / 2 لقيم الامتداد الفردية. على سبيل المثال، إذا كان الامتداد هو 5، فإن عدد الحالات التي تحتوي على قيمة مفقودة من النظام في بداية السلسلة وفي نهايتها هو 2.
المتوسط المتحرك السابق
المتوسط المتحرك السابق Prior moving average هو متوسط مدى قيم السلاسل التي تسبق القيمة الحالية. الامتداد هو عدد قيم السلاسل السابقة المستخدمة لحساب المتوسط. عدد الحالات ذات القيمة المفقودة من النظام في بداية السلسلة يساوي قيمة الامتداد.
الوسيطات المنفذة
الوسيطات المنفذة Running medians هو وسيط مدى قيم السلاسل المحيطة بالقيمة الحالية وتضمينها. الامتداد هو عدد قيم السلاسل المستخدمة لحساب الوسيط. إذا كان الامتداد زوجيًا، فسيتم حساب الوسيط عن طريق حساب متوسط كل زوج من المتوسطات غير المركزية. عدد الحالات ذات القيمة المفقودة من النظام في بداية ونهاية السلسلة لمدى n يساوي n / 2 لقيم الامتداد الزوجي و (n – 1) / 2 لقيم الامتداد الفردية. على سبيل المثال، إذا كان الامتداد هو 5، فإن عدد الحالات التي تحتوي على قيمة مفقودة من النظام في بداية السلسلة وفي نهايتها هو 2.
المجموع التراكمي
المجموع التراكمي Cumulative sum لقيم السلاسل تصل إلى القيمة الحالية وتشملها.
التأخر
التأخر Lag هو قيمة حالة سابقة، بناءً على ترتيب التأخر المحدد. الترتيب هو عدد الحالات السابقة للحالة الحالية التي يتم الحصول على القيمة منها. عدد الحالات ذات القيمة المفقودة من النظام في بداية السلسلة يساوي قيمة الترتيب.
التقدم
التقدم Lead هو قيمة حالة لاحقة، بناءً على الترتيب المتوقع للحالة المحددة. الترتيب هو عدد الحالات بعد الحالة الحالية التي يتم الحصول على القيمة منها. عدد الحالات ذات القيمة المفقودة من النظام في نهاية السلسلة يساوي قيمة الترتيب.
التجانس
التجانس Smoothing هو قيم سلاسل جديدة تستند إلى بيانات مركبة أكثر سلاسة. يبدأ الأكثر سلاسة بمتوسط تشغيل 4، والذي يتم توسيطه بواسطة متوسط تشغيل 2. ثم يقوم بإعادة تسوية هذه القيم عن طريق تطبيق متوسط تشغيل 5، ومتوسط تشغيل 3، وhanning (تشغيل متوسطات مرجحة). يتم حساب القيم المتبقية بطرح السلسلة المتجانسة من السلسلة الأصلية. ثم يتم تكرار هذه العملية برمتها على المخلفات المحسوبة. أخيرًا، يتم حساب المخلفات المتجانسة عن طريق طرح القيم المتجانسة التي تم الحصول عليها في المرة الأولى خلال العملية. يشار إلى هذا أحيانًا باسم تجانس T4253H.
استبدال القيم المفقودة
يمكن أن تكون الحالات المفقودة مشكلة في التحليل، ولا يمكن حساب بعض مقاييس السلاسل الزمنية إذا كانت هناك قيم مفقودة في السلسلة. في بعض الأحيان تكون قيمة حالة معينة غير معروفة. بالإضافة إلى ذلك، يمكن أن ينجم عن البيانات المفقودة أي مما يلي:
- تقلل كل درجة اختلاف من طول السلسلة بمقدار 1.
- كل درجة من الفروق الموسمية تقلل من طول السلسلة بمقدار موسم واحد.
- إذا قمت بإنشاء سلسلة جديدة تحتوي على تنبؤات تتجاوز نهاية السلسلة الحالية (عن طريق النقر فوق الزر حفظ واتخاذ الخيارات المناسبة)، فستحتوي السلسلة الأصلية والسلسلة المتبقية التي تم إنشاؤها على بيانات مفقودة للحالات الجديدة.
- تنتج بعض التحويلات (على سبيل المثال، تحويل السجل) بيانات مفقودة لقيم معينة من السلسلة الأصلية.
البيانات المفقودة في بداية السلسلة أو نهايتها لا تشكل مشكلة معينة؛ هم ببساطة يقصرون الطول المفيد للسلسلة. قد تكون الفجوات الموجودة في منتصف سلسلة (بيانات مفقودة مضمنة) مشكلة أكثر خطورة. يعتمد مدى المشكلة على الإجراء التحليلي الذي تستخدمه.
يتيح لك مربع الحوار “استبدال القيم المفقودة” Replace Missing Values إنشاء متغيرات سلاسل زمنية time series جديدة من المتغيرات الحالية، واستبدال القيم المفقودة بالتقديرات المحسوبة بإحدى الطرق المتعددة. أسماء المتغيرات الجديدة الافتراضية هي الأحرف الستة الأولى من المتغير الحالي المستخدم لإنشائه، متبوعًا بشرطة سفلية ورقم متسلسل. على سبيل المثال، بالنسبة لمتغير السعر price، سيكون اسم المتغير الجديد هو price_1. المتغيرات الجديدة تحتفظ بأي تسميات قيمة محددة من المتغيرات الأصلية.
لاستبدال القيم المفقودة لمتغيرات السلاسل الزمنية:
1. من القوائم اختر: تحويل> استبدال القيم المفقودة …
Transform > Replace Missing Values…
2. حدد طريقة التقدير التي تريد استخدامها لاستبدال القيم المفقودة.
3. حدد المتغير (المتغيرات) الذي تريد استبدال القيم المفقودة له.
4. اختياريًا، يمكنك:
- إدخال أسماء المتغيرات لتجاوز أسماء المتغيرات الافتراضية الجديدة.
- تغيير طريقة التقدير لمتغير محدد.
طرق التقدير لاستبدال القيم المفقودة
- متوسط السلسلة Series mean: يستبدل القيم المفقودة بمتوسط السلسلة بأكملها.
- متوسط النقاط المجاورة Mean of nearby points: يستبدل القيم المفقودة بمتوسط القيم المحيطة الصالحة. مدى النقاط القريبة هو عدد القيم الصالحة أعلى وأسفل القيمة المفقودة المستخدمة لحساب المتوسط.
- وسيط النقاط المجاورة Median of nearby points: يستبدل القيم المفقودة بوسيط القيم المحيطة الصالحة. مدى النقاط القريبة هو عدد القيم الصالحة أعلى وأسفل القيمة المفقودة المستخدمة لحساب الوسيط.
- الإقحام الخطي Linear interpolation: يستبدل القيم المفقودة باستخدام الإقحام الخطي. يتم استخدام آخر قيمة صالحة قبل القيمة المفقودة وأول قيمة صالحة بعد القيمة المفقودة من أجل الإقحام. إذا كانت الحالة الأولى أو الأخيرة في السلسلة تحتوي على قيمة مفقودة، فلن يتم استبدال القيمة المفقودة.
- الاتجاه الخطي عند نقطة Linear trend at point: يستبدل القيم المفقودة بالاتجاه الخطي لتلك النقطة. تتراجع السلسلة الحالية على متغير فهرس مقاس من 1 إلى n. يتم استبدال القيم المفقودة بقيمها المتوقعة.
المصدر
- المرجع الأساسي لبرنامج التحليل الإحصائي SPSS. ترجمة وإعداد: د. م. مصطفى عبيد. مركز البحوث والدراسات متعدد التخصصات.
- الموقع الرسمي لشركة آي بي إم IBM SPSS software.