تأتي ملفات البيانات في مجموعة متنوعة من التنسيقات، وقد تم تصميم برنامج التحليل الإحصائي SPSS للتعامل مع وفتح ملفات البيانات وقراءة العديدة منها، بما في ذلك:
- فتح ملفات البيانات من جداول بيانات Excel وقراءتها في برنامج SPSS
- جداول قاعدة البيانات من العديد من مصادر قواعد البيانات، بما في ذلك Oracle وSQL Server وDB2 وغيرها.
- الملفات من نوع CSV وأنواع أخرى من الملفات النصية البسيطة.
- ملفات بيانات SAS.
- ملفات بيانات ستاتا STATA
فتح ملفات البيانات في برنامج SPSS
بالإضافة إلى الملفات المحفوظة بتنسيق SPSS، يمكنك فتح ملفات Excel وSAS وStata وCSV وغيرها من ملفات البيانات في برنامج SPSS دون تحويل الملفات إلى تنسيق متوسط أو إدخال معلومات تعريف البيانات.
فتح ملف البيانات يجعله مجموعة البيانات النشطة. إذا كان لديك بالفعل ملف أو أكثر من ملفات البيانات المفتوحة، فإنها تظل مفتوحة ومتاحة للاستخدام اللاحق في الجلسة. سيؤدي النقر فوق أي مكان في نافذة محرر البيانات لملف بيانات مفتوح إلى جعله مجموعة البيانات النشطة. راجع موضوع العمل مع مصادر بيانات متعددة لمزيد من المعلومات.
في وضع التحليل الموزع باستخدام خادم بعيد لمعالجة الأوامر وتشغيل الإجراءات، تعتمد ملفات البيانات والمجلدات ومحركات الأقراص المتوفرة على ما هو متاح على الخادم البعيد أو منه. يتم الإشارة إلى اسم الخادم الحالي في أعلى مربع الحوار. لن تتمكن من الوصول إلى ملفات البيانات الموجودة على جهاز الكمبيوتر المحلي الخاص بك إلا إذا قمت بتحديد محرك الأقراص كجهاز مشترك والمجلدات التي تحتوي على ملفات البيانات الخاصة بك كمجلدات مشتركة. راجع موضوع وضع التحليل الموزع لمزيد من المعلومات.
لفتح ملفات البيانات
1. اختر من القوائم:
ملف> فتح> بيانات …
File > Open > Data…
2. في مربع الحوار “فتح البيانات” Open Data، حدد الملف الذي تريد فتحه.
3. ثم انقر فوق فتح.
اختياريًا، يمكنك:
- تعيّن عرض كل متغير سلسلة تلقائيًا إلى أطول قيمة تمت ملاحظتها لهذا المتغير باستخدام تصغير عرض السلسلة استنادًا إلى القيم المرصودة. هذا مفيد بشكل خاص عند قراءة ملفات بيانات صفحة التعليمات البرمجية في وضع Unicode. راجع الموضوع خيارات عامة لمزيد من المعلومات.
- قراءة أسماء المتغيرات من الصف الأول لملفات جداول البيانات.
- تحديد نطاقًا من الخلايا للقراءة من ملفات جداول البيانات.
- تحديد ورقة عمل ضمن ملف Excel لقراءتها (Excel 95 أو أحدث).
للحصول على معلومات حول قراءة البيانات من قواعد البيانات، راجع قراءة ملفات قاعدة البيانات. للحصول على معلومات حول قراءة البيانات من ملفات البيانات النصية، راجع معالج النص.
أنواع ملفات البيانات
- برنامج التحليل الإحصائي SPSS: يفتح ملفات البيانات المحفوظة في تنسيق.
- ملفات SPSS مضغوطة SPSS Statistics Compressed: يفتح ملفات البيانات المحفوظة بتنسيق مضغوط SPSS.
- محمول Portable: يفتح ملفات البيانات المحفوظة بتنسيق محمول. (يستغرق حفظ ملف بتنسيق محمول وقتًا أطول بكثير من حفظ الملف بتنسيق SPSS).
- اكسل Excel: يفتح ملفات Excel.
- لوتس 1-2-3: يفتح ملفات البيانات المحفوظة بتنسيق 1-2-3 للإصدار 3.0 أو 2.0 أو 1A من Lotus.
- SYLK: يفتح ملفات البيانات المحفوظة بتنسيق SYLK (ارتباط رمزي)، وهو تنسيق تستخدمه بعض تطبيقات جداول البيانات.
- dBASE: يفتح ملفات بتنسيق dBASE إما لـ dBASE IV أو dBASE III أو III PLUS أو dBASE II. كل حالة هي عبارة عن سجل. يتم فقد تسميات المتغيرات والقيمة ومواصفات القيمة المفقودة عند حفظ ملف بهذا التنسيق.
- SAS: إصدارات SAS 6-9 وملفات نقل SAS. باستخدام صيغة الأوامر، يمكنك أيضًا قراءة ملصقات القيمة من ملف كتالوج بتنسيق SAS.
- STATA: إصدارات Stata 4–13.
قراءة ملفات إكسل Excel
ينطبق هذا الموضوع على ملفات Excel 95 والإصدارات الأحدث. لقراءة Excel 4 أو الإصدارات السابقة، راجع بند قراءة ملفات Excel القديمة وجداول البيانات الأخرى.
لاستيراد ملف إكسل:
1. اختر من القوائم:
ملف> استيراد البيانات> إكسل ….
File > Import Data > Excel…
أو قم بسحب وإفلات ملف Excel الموجود مباشرة في ملف SPSS المفتوح.
2. ثم حدد إعدادات الاستيراد المناسبة:
ورقة عمل
يمكن أن تحتوي ملفات Excel على أوراق عمل متعددة. بشكل افتراضي، يقرأ محرر البيانات ورقة العمل الأولى. لقراءة ورقة عمل مختلفة، حدد ورقة العمل من القائمة.
نطاق Range
يمكنك أيضًا قراءة نطاق من الخلايا. استخدم نفس الطريقة لتحديد نطاقات الخلايا كما تفعل في Excel. على سبيل المثال: A1: D10.
قراءة أسماء المتغيرات من الصف الأول من البيانات
يمكنك قراءة أسماء المتغيرات من الصف الأول من الملف أو الصف الأول من النطاق المحدد. يتم تحويل القيم التي لا تتوافق مع قواعد تسمية المتغيرات إلى أسماء متغيرات صالحة، ويتم استخدام الأسماء الأصلية كعناوين متغيرة.
النسبة المئوية للقيم التي تحدد نوع البيانات
يتم تحديد نوع البيانات لكل متغير من خلال النسبة المئوية للقيم التي تتوافق مع نفس التنسيق.
- يجب أن تكون القيمة أكبر من 50.
- المقام المستخدم لتحديد النسبة المئوية هو عدد القيم غير الفارغة لكل متغير.
- إذا لم يتم استخدام تنسيق ثابت بواسطة النسبة المئوية المحددة للقيم، يتم تعيين نوع بيانات السلسلة للمتغير.
- بالنسبة للمتغيرات التي تم تعيين تنسيقها الرقمي (بما في ذلك تنسيقات التاريخ والوقت) بناءً على قيمة النسبة المئوية، يتم تعيين القيمة المفقودة في النظام للقيم التي لا تتوافق مع هذا التنسيق.
تجاهل الصفوف والأعمدة المخفية
لا يتم تضمين الصفوف والأعمدة المخفية في ملف Excel. هذا الخيار متاح فقط لبرنامج Excel 2007 والملفات الأحدث (XLSX، XLSM).
إزالة المسافات البادئة من بداية قيم السلسلة
تتم إزالة أي مسافات فارغة في بداية قيم السلسلة.
إزالة المسافات الزائدة من نهاية قيم السلسلة
تتم إزالة المسافات الفارغة في نهاية قيم السلسلة. يؤثر هذا الإعداد على حساب العرض المحدد لمتغيرات السلسلة.
3. انقر فوق موافق.
قراءة ملفات Excel القديمة وجداول البيانات الأخرى
ينطبق هذا الموضوع على قراءة ملفات Excel 4 أو ملفات أقدم، وملفات Lotus 1-2-3 وملفات جداول البيانات بتنسيق SYLK. للحصول على معلومات حول قراءة ملفات Excel 95 أو أحدث، راجع الموضوع قراءة ملفات Excel.
- قراءة أسماء المتغيرات Read variable names: بالنسبة لجداول البيانات، يمكنك قراءة أسماء المتغيرات من الصف الأول من الملف أو الصف الأول من النطاق المحدد. يتم تحويل القيم حسب الضرورة لإنشاء أسماء متغيرات صالحة، بما في ذلك تحويل المسافات إلى شرطات سفلية. للحصول على معلومات حول قواعد تسمية المتغيرات، راجع أسماء المتغيرات.
- النطاق Range: بالنسبة لملفات بيانات جداول البيانات، يمكنك أيضًا قراءة نطاق من الخلايا. استخدم نفس الطريقة لتحديد نطاقات الخلايا كما تفعل مع تطبيق جدول البيانات.
كيف تتم قراءة جداول البيانات
- يتم تحديد نوع البيانات وعرضها لكل متغير حسب عرض العمود ونوع البيانات لخلية البيانات الأولى في العمود. يتم تحويل قيم الأنواع الأخرى إلى القيمة المفقودة من النظام. إذا كانت خلية البيانات الأولى في العمود فارغة، فسيتم استخدام نوع البيانات الافتراضي العام لجدول البيانات (رقمي عادةً).
- بالنسبة للمتغيرات الرقمية، يتم تحويل الخلايا الفارغة إلى القيمة المفقودة في النظام، والمشار إليها بنقطة. بالنسبة لمتغيرات السلسلة، يعتبر الفراغ قيمة سلسلة صالحة، ويتم التعامل مع الخلايا الفارغة كقيم سلسلة صالحة.
- إذا لم تقرأ أسماء المتغيرات من جدول البيانات، فسيتم استخدام أحرف العمود (A، B، C، …) لأسماء المتغيرات لملفات Excel و Lotus. بالنسبة لملفات SYLK وملفات Excel المحفوظة بتنسيق عرض R1C1، يستخدم البرنامج رقم العمود مسبوقًا بالحرف C لأسماء المتغيرات (C1، C2، C3، …).
قراءة ملفات dBASE
تتشابه ملفات قاعدة البيانات منطقيًا جدًا مع ملفات بيانات IBM® SPSS® Statistics. تنطبق القواعد العامة التالية على ملفات dBASE:
- يتم تحويل أسماء الحقول إلى أسماء متغيرات صالحة. للحصول على معلومات حول قواعد تسمية المتغيرات، راجع أسماء المتغيرات.
- يتم ترجمة النقطتين المستخدمة في أسماء حقول dBASE إلى شرطات سفلية أو _.
- يتم تضمين السجلات التي تم وضع علامة عليها للحذف ولكن لم يتم حذفها بالفعل. يقوم البرنامج بإنشاء متغير سلسلة جديد، D_R، والذي يحتوي على علامة النجمة للحالات المحددة للحذف.
قراءة ملفات STATA
تنطبق القواعد العامة التالية على ملفات بيانات Stata:
- أسماء المتغير Variable names: يتم تحويل أسماء متغيرات Stata إلى أسماء متغيرات IBM® SPSS® Statistics في شكل حساس لحالة الأحرف. يتم تحويل أسماء متغيرات Stata المتطابقة باستثناء الحالة إلى أسماء متغيرات صالحة عن طريق إلحاق شرطة سفلية أو _ وحرف متسلسل كما يلي: (_A، _B، _C، …، _Z، _AA، _AB، …،)، وهكذا.
- تسميات المتغير Variable labels: يتم تحويل تسميات متغير Stata إلى تسميات متغير IBM SPSS Statistics.
- تسميات القيمة Value labels: يتم تحويل تسميات قيم Stata إلى تسميات قيم SPSS، باستثناء تسميات قيم Stata المخصصة للقيم المفقودة “الممتدة”. يتم قطع تسميات القيم التي يزيد طولها عن 120 بايت.
- متغيرات السلسلة String variables: يتم تحويل متغيرات Stata strl إلى متغيرات سلسلة. كما يتم قطع القيم الأطول من 32 كيلو بايت. يتم تحويل قيم strl Stata التي تحتوي على نقاط ثنائية (كائنات ثنائية كبيرة) إلى سلاسل فارغة.
- القيم المفقودة Missing values: يتم تحويل القيم المفقودة “الموسعة” Stata إلى قيم مفقودة من النظام.
- تحويل التاريخ Date conversion: يتم تحويل قيم تنسيق التاريخ Stata إلى قيم تنسيق تاريخ أو SPSS DATE (d-m-y). يتم تحويل قيم تنسيق التاريخ “السلاسل الزمنية” Stata (الأسابيع والأشهر والأرباع وما إلى ذلك) إلى تنسيق رقمي بسيط (F)، مع الحفاظ على قيمة الأعداد الصحيحة الداخلية الأصلية، وهي عدد الأسابيع والأشهر والأرباع و وهكذا، منذ بداية عام 1960.
قراءة ملفات CSV
لقراءة ملفات CSV، اختر من القوائم:
ملف> استيراد البيانات> CSV
File > Import Data > CSV
ملحوظة: لا تدعم وظيفة استيراد البيانات بيانات CSV التي تتضمن فواصل أسطر مضمنة في نص مقتبس. الحل المحتمل هو حفظ ملف CSV (الذي يتضمن فواصل الأسطر المضمنة بين علامات الاقتباس) كملف .xls / .xlsx، ثم استخدام ميزة استيراد Excel.
يقرأ مربع حوار قراءة ملف CSV ملفات البيانات النصية بتنسيق CSV التي تستخدم فاصلة أو فاصلة منقوطة أو علامة تبويب كمحدد بين القيم.
إذا كان الملف النصي يستخدم محددًا مختلفًا، أو يحتوي على نص في بداية الملف لا يمثل أسماء متغيرة أو قيم بيانات، أو له اعتبارات خاصة أخرى، فاستخدم معالج النص لقراءة الملفات.
السطر الأول يحتوي على أسماء المتغيرات
يحتوي السطر الأول غير الفارغ في الملف على نص تسمية يُستخدم كأسماء متغيرات. القيم غير الصالحة كأسماء متغيرات يتم تحويلها تلقائيًا إلى أسماء متغيرات صالحة.
إزالة المسافات البادئة من قيم السلسلة
تتم إزالة أي مسافات فارغة في بداية قيم السلسلة.
إزالة المسافات الزائدة من قيم السلسلة
تتم إزالة المسافات الفارغة في نهاية قيم السلسلة. يؤثر هذا الإعداد على حساب العرض المحدد لمتغيرات السلسلة.
محدد بين القيم
يمكن أن يكون المحدد فاصلة أو فاصلة منقوطة أو علامة تبويب. إذا كان المحدد هو أي حرف آخر أو مسافة فارغة، فاستخدم معالج النص لقراءة الملف.
الرمز أو العلامة العشرية
الرمز المستخدم للإشارة إلى الكسور العشرية في ملف البيانات النصي. يمكن أن يكون الرمز نقطة أو فاصلة.
مؤهل النص
الحرف المستخدم لإحاطة القيم التي تحتوي على حرف المحدد. يظهر المؤهل في بداية القيمة ونهايتها. يمكن أن يكون المؤهل علامة اقتباس مزدوجة أو علامة اقتباس مفردة أو لا شيء.
النسبة المئوية للقيم التي تحدد نوع البيانات
يتم تحديد نوع البيانات لكل متغير من خلال النسبة المئوية للقيم التي تتوافق مع نفس التنسيق.
- يجب أن تكون القيمة أكبر من 50.
- إذا لم يتم استخدام تنسيق ثابت بواسطة النسبة المئوية المحددة للقيم، يتم تعيين نوع بيانات السلسلة للمتغير.
- بالنسبة للمتغيرات التي تم تعيين تنسيقها الرقمي (بما في ذلك تنسيقات التاريخ والوقت) بناءً على قيمة النسبة المئوية، يتم تعيين القيمة المفقودة في النظام للقيم التي لا تتوافق مع هذا التنسيق.
تخزين البيانات محليًا
ذاكرة التخزين المؤقت للبيانات هي نسخة كاملة من ملف البيانات المخزن في مساحة القرص المؤقتة. يمكن أن يؤدي التخزين المؤقت لملف البيانات إلى تحسين الأداء.
المصدر
- المرجع الأساسي لبرنامج التحليل الإحصائي SPSS، ترجمة وإعداد: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات.
- الموقع الرسمي لشركة آي بي إم IBM SPSS software.