ملفات النصوص في SPSS | مركز البحوث والدراسات متعدد التخصصات

ملفات النصوص ومعالج النص في SPSS

يمكن لمعالج النص في SPSS قراءة ملفات النصوص أو ملفات البيانات النصية المنسقة بعدة طرق في برنامج التحليل الإحصائي SPSS، كما يلي:

ملفات محددة بعلامات جدولة
ملفات محددة بمسافة
الملفات المفصولة بفواصل
وملفات تنسيق الحقل الثابت

بالنسبة للملفات المحددة، يمكنك أيضًا تحديد أحرف أخرى كمحددات بين القيم، ويمكنك تحديد عدة محددات.

فيما يلي شرحًا مفصلا لكل من:

قراءة ملفات النصوص (البيانات النصية) في SPSS
معالج النص: الخطوة الأولى
معالج النص: الخطوة الثانية
ومعالج النص: الخطوة 3 (ملفات محددة)
ومعالج النص: الخطوة 3 (الملفات ذات العرض الثابت)
معالج النص: الخطوة 4 (الملفات المحددة)
ومعالج النص: الخطوة 4 (الملفات ذات العرض الثابت)
معالج النص: الخطوة 5
معالج النص: الخطوة 6

خطوات قراءة ملفات النصوص في SPSS

قراءة ملفات النصوص في SPSS (البيانات النصية)

1. اختر من القوائم:

ملف> استيراد البيانات> بيانات نصية …

File > Import Data > Text Data…

2. حدد الملف النصي (ملفات النصوص) في مربع الحوار “فتح البيانات”.

3. إذا لزم الأمر، حدد ترميز الملف Encoding.

4. ثم اتبع الخطوات الموجودة في معالج النص لتحديد كيفية قراءة ملف البيانات.

التشفير

يؤثر ترميز الملف على طريقة قراءة بيانات الأحرف. تحتوي ملفات بيانات Unicode عادةً على علامة ترتيب البايت التي تحدد ترميز الأحرف. تقوم بعض التطبيقات بإنشاء ملفات Unicode بدون علامة ترتيب بايت، ولا تحتوي ملفات بيانات صفحة التعليمات البرمجية على أي معرف ترميز.

Unicode (UTF-8): يقرأ الملف على أنه Unicode UTF-8.
Unicode (UTF-16): يقرأ الملف على أنه Unicode UTF-16 في نهاية نظام التشغيل.
Unicode (UTF-16BE): يقرأ الملف كـ Unicode UTF-16، endian الكبير.
Unicode (UTF-16LE): يقرأ الملف كـ Unicode UTF-16، endian الصغير.
ترميز محلي Local Encoding: يقرأ الملف بترميز أحرف صفحة الرموز المحلية الحالية.

إذا كان الملف يحتوي على علامة ترتيب بايت Unicode، فسيتم قراءته في ترميز Unicode هذا، بغض النظر عن الترميز الذي تحدده. إذا كان الملف لا يحتوي على علامة ترتيب بايت Unicode، فمن المفترض افتراضيًا أن يكون الترميز هو ترميز أحرف صفحة التعليمات البرمجية المحلية الحالية، إلا إذا قمت بتحديد أحد ترميزات Unicode.

لتغيير الإعدادات المحلية الحالية لملفات البيانات بترميز حرف صفحة تعليمات برمجية مختلف، حدد تحرير> خيارات Edit>Options من القوائم، ثم قم بتغيير الإعدادات المحلية في علامة التبويب اللغة Language.

معالج النص : الخطوة الأولى

يتم عرض الملف النصي في نافذة المعاينة. يمكنك تطبيق تنسيق محدد مسبقًا (تم حفظه مسبقًا من معالج النص) أو اتباع الخطوات الموجودة في معالج النص في SPSS لتحديد كيفية قراءة البيانات.

معالج النص : الخطوة الثانية

توفر هذه الخطوة معلومات حول المتغيرات. المتغير مشابه لحقل في قاعدة بيانات. على سبيل المثال، كل عنصر في الاستبيان هو متغير.

كيف يتم ترتيب المتغيرات الخاصة بك؟

يحدد ترتيب المتغيرات الطريقة المستخدمة للتمييز بين متغير واحد والتالي.

محدد Delimited

يتم استخدام المسافات أو الفواصل أو علامات التبويب أو الأحرف الأخرى لفصل المتغيرات. يتم تسجيل المتغيرات بنفس الترتيب لكل حالة ولكن ليس بالضرورة في نفس مواقع الأعمدة.

عرض ثابت Fixed width

يتم تسجيل كل متغير في نفس موقع العمود على نفس السجل (السطر) لكل حالة في ملف البيانات. لا يلزم وجود محدد بين المتغيرات. يحدد موقع العمود المتغير الذي تتم قراءته.

ملاحظة: لا يمكن لمعالج النص قراءة ملفات نصية Unicode ذات عرض ثابت. يمكنك استخدام الأمر DATA LIST لقراءة ملفات Unicode ذات العرض الثابت.

هل تم تضمين أسماء المتغيرات في الجزء العلوي من ملفك؟

يتم استخدام القيم الموجودة في رقم السطر المحدد لإنشاء أسماء متغيرات. يتم تحويل القيم التي لا تتوافق مع قواعد تسمية المتغيرات إلى أسماء متغيرات صالحة.

ما هو الرمز العشري؟

يمكن أن يكون الحرف الذي يشير إلى القيم العشرية نقطة أو فاصلة.

معالج النص : الخطوة 3 (ملفات محددة)

توفر هذه الخطوة معلومات حول الحالات. حالة مشابهة لسجل في قاعدة بيانات. على سبيل المثال، كل مجيب على الاستبيان هو حالة.

تبدأ الحالة الأولى للبيانات على أي رقم سطر؟ يشير إلى السطر الأول من ملف البيانات الذي يحتوي على قيم البيانات. إذا كان السطر (الأسطر) العليا من ملف البيانات يحتوي على تسميات وصفية أو نص آخر لا يمثل قيم البيانات، فلن يكون هذا السطر 1.

كيف يتم تمثيل حالاتك؟ يتحكم في كيفية تحديد “معالج النص” لمكان انتهاء كل حالة وتبدأ الحالة التالية.

طرق تمثيل الحالات

كل سطر يمثل حالة أو سجل. يحتوي كل سطر على حالة واحدة فقط. من الشائع إلى حد ما احتواء كل حالة في سطر واحد (صف)، على الرغم من أن هذا يمكن أن يكون سطرًا طويلاً جدًا لملفات البيانات التي تحتوي على عدد كبير من المتغيرات. إذا لم تكن جميع الأسطر تحتوي على نفس عدد قيم البيانات، فسيتم تحديد عدد المتغيرات لكل حالة بواسطة السطر الذي يحتوي على أكبر عدد من قيم البيانات. يتم تعيين القيم الناقصة للمتغيرات الإضافية للحالات التي تحتوي على قيم بيانات أقل.
يمثل عدد محدد من المتغيرات حالة. يخبر العدد المحدد من المتغيرات لكل حالة معالج النص بمكان التوقف عن قراءة حالة واحدة والبدء في قراءة الحالة التالية. يمكن احتواء العديد من الحالات على نفس السطر، ويمكن أن تبدأ الحالات في منتصف سطر واحد وتستمر في السطر التالي. يحدد “معالج النص” نهاية كل حالة بناءً على عدد القيم المقروءة، بغض النظر عن عدد الأسطر. يجب أن تحتوي كل حالة على قيم بيانات (أو قيم مفقودة مشار إليها بالمحددات) لجميع المتغيرات، أو سيتم قراءة ملف البيانات بشكل غير صحيح.

كم عدد الحالات التي تريد استيرادها؟ يمكنك استيراد جميع الحالات في ملف البيانات، أو الحالات n الأولى (n هو الرقم الذي تحدده)، أو عينة عشوائية من النسبة المئوية المحددة. نظرًا لأن روتين أخذ العينات العشوائي يتخذ قرارًا عشوائيًا شبه عشوائي لكل حالة، فإن النسبة المئوية للحالات المختارة يمكن أن تقارب النسبة المئوية المحددة فقط. كلما زاد عدد الحالات الموجودة في ملف البيانات، كلما اقتربت النسبة المئوية للحالات المختارة من النسبة المئوية المحددة.

معالج النص: الخطوة 3 (الملفات ذات العرض الثابت)

تبدأ الحالة الأولى للبيانات على أي رقم سطر؟ يشير إلى السطر الأول من ملف البيانات الذي يحتوي على قيم البيانات. إذا كان السطر (الأسطر) العليا من ملف البيانات يحتوي على تسميات وصفية أو نص آخر لا يمثل قيم البيانات، فلن يكون هذا السطر 1.

كم عدد الخطوط التي تمثل حالة؟ يتحكم في كيفية تحديد “معالج النص” لمكان انتهاء كل حالة وتبدأ الحالة التالية. يتم تحديد كل متغير من خلال رقم السطر الخاص به داخل الحالة وموقع العمود الخاص به. تحتاج إلى تحديد عدد الأسطر لكل حالة لقراءة البيانات بشكل صحيح.

معالج النص: الخطوة 4 (الملفات المحددة)

تحدد هذه الخطوة المحددات ومعرفات النص المستخدمة في ملف بيانات النصوص. يمكنك أيضًا تحديد معالجة المسافات البادئة والزائدة في قيم السلسلة.

ما المحددات التي تظهر بين المتغيرات؟

الأحرف أو الرموز التي تفصل قيم البيانات. يمكنك تحديد أي مجموعة من المسافات أو الفواصل أو الفاصلة المنقوطة أو علامات الجدولة أو أحرف أخرى. يتم التعامل مع المحددات المتعددة والمتتالية بدون قيم بيانات متداخلة كقيم مفقودة.

ما هو مؤهل النص؟

الأحرف المستخدمة لتضمين القيم التي تحتوي على أحرف محددة. يظهر مؤهل النص في كل من بداية ونهاية القيمة، متضمنًا القيمة بأكملها.

المسافات البادئة والزائدة

يتحكم في معالجة المسافات الفارغة البادئة والزائدة في قيم السلسلة.

إزالة المسافات البادئة من قيم السلسلة

تتم إزالة أي مسافات فارغة في بداية قيم السلسلة.
إزالة المسافات الزائدة من قيم السلسلة

يتم تجاهل المسافات الفارغة في نهاية القيمة عند حساب العرض المحدد لمتغيرات السلسلة. إذا تم تحديد مسافة كمحدد، فلن يتم التعامل مع عدة مسافات فارغة متتالية كمحددات متعددة.

معالج النص : الخطوة 4 (الملفات ذات العرض الثابت)

تعرض هذه الخطوة أفضل تخمين لمعالج النص في SPSS حول كيفية قراءة ملف البيانات وتسمح لك بتعديل كيفية قراءة معالج النص للمتغيرات من ملف البيانات. تشير الخطوط العمودية في نافذة المعاينة إلى المكان الذي يعتقد معالج النص أنه يبدأ فيه كل متغير في الملف.

قم بإدراج ونقل وحذف سطور فواصل متغيرة حسب الضرورة لفصل المتغيرات. إذا تم استخدام أسطر متعددة لكل حالة، فسيتم عرض البيانات كسطر واحد لكل حالة، مع إلحاق الأسطر التالية بنهاية السطر.

ملاحظات:

بالنسبة لملفات البيانات التي يتم إنشاؤها بواسطة الكمبيوتر والتي تنتج دفقًا مستمرًا من قيم البيانات بدون مسافات متداخلة أو خصائص مميزة أخرى، فقد يكون من الصعب تحديد مكان بدء كل متغير. تعتمد ملفات البيانات هذه عادةً على ملف تعريف البيانات أو بعض الوصف المكتوب الآخر الذي يحدد موقع السطر والعمود لكل متغير.

معالج النص: الخطوة 5

خطوته تتحكم في اسم المتغير وتنسيق البيانات المستخدم لقراءة كل متغير. يمكنك أيضًا تحديد متغيرات لاستبعادها.

اسم المتغير

يمكنك الكتابة فوق أسماء المتغيرات الافتراضية بأسماء المتغيرات الخاصة بك. إذا كنت تقرأ أسماء المتغيرات من ملف البيانات، فسيتم تعديل الأسماء التي لا تتوافق مع قواعد تسمية المتغيرات تلقائيًا. حدد متغيرًا في نافذة المعاينة ثم أدخل اسمًا متغيرًا.

تنسيق البيانات

حدد متغيرًا في نافذة المعاينة ثم حدد تنسيقًا من القائمة.

يحدد تلقائي تنسيق البيانات بناءً على تقييم جميع قيم البيانات.
لاستبعاد متغير، حدد عدم الاستيراد.

النسبة المئوية للقيم التي تحدد تنسيق البيانات التلقائي

بالنسبة إلى التنسيق التلقائي، يتم تحديد تنسيق البيانات لكل متغير من خلال النسبة المئوية للقيم التي تتوافق مع نفس التنسيق.

يجب أن تكون القيمة أكبر من 50.
المقام المستخدم لتحديد النسبة المئوية هو عدد القيم غير الفارغة لكل متغير.
إذا لم يتم استخدام تنسيق ثابت بواسطة النسبة المئوية المحددة للقيم، يتم تعيين نوع بيانات السلسلة للمتغير.
بالنسبة للمتغيرات التي تم تعيين تنسيقها الرقمي (بما في ذلك تنسيقات التاريخ والوقت) بناءً على قيمة النسبة المئوية، يتم تعيين القيمة المفقودة في النظام للقيم التي لا تتوافق مع هذا التنسيق.

خيارات التنسيق

تتضمن خيارات التنسيق لقراءة المتغيرات ما يلي:

تلقائي Automatic

يتم تحديد التنسيق بناءً على تقييم جميع قيم البيانات.

رقمي Numeric

تتضمن القيم الصالحة أرقامًا وعلامة زائد أو ناقص، ومؤشر عشري.

سلسلة حرفية String

تتضمن القيم الصالحة فعليًا أي أحرف لوحة مفاتيح وفراغات مضمنة. بالنسبة للملفات المحددة، يمكنك تحديد عدد الأحرف في القيمة، بحد أقصى 32767 حرفًا. بشكل افتراضي، يتم تعيين القيمة على عدد الأحرف لأطول قيمة سلسلة مصادفة للمتغير (المتغيرات) المحدد في أول 250 صفًا من الملف. بالنسبة للملفات ذات العرض الثابت، يتم تحديد عدد الأحرف في قيم السلسلة من خلال وضع سطور فاصلة متغيرة.

التاريخ / الوقت Date/Time

تتضمن القيم الصالحة تواريخ بالتنسيق العام dd-mm-yyyy و mm/dd/yyyy و dd.mm.yyyy و yyyy/mm/dd و hh:mm:ss ومجموعة متنوعة من تنسيقات التاريخ والوقت الأخرى. يمكن تمثيل الأشهر بالأرقام أو الأرقام الرومانية أو الاختصارات المكونة من ثلاثة أحرف، أو يمكن توضيحها بالكامل. حدد تنسيق التاريخ من القائمة.

دولار Dollar

القيم الصالحة هي أرقام بعلامة الدولار الاختيارية البادئة والفواصل الاختيارية كفواصل الآلاف.

فاصلة Comma

تتضمن القيم الصالحة الأرقام التي تستخدم نقطة كمؤشر عشري والفاصلات كفواصل الآلاف.

نقطة Dot

تتضمن القيم الصالحة الأرقام التي تستخدم الفاصلة كمؤشر عشري والنقاط كفواصل الآلاف.

لا تستورد Do not import

احذف المتغير (المتغيرات) المحددة من ملف البيانات المستوردة.

ملحوظة

سيتم التعامل مع القيم التي تحتوي على أحرف غير صالحة للتنسيق المحدد على أنها قيم مفقودة. ستتم معاملة القيم التي تحتوي على أي من المحددات المحددة كقيم متعددة.

معالج النص: الخطوة 6

هذه هي الخطوة الأخيرة في معالج النص في SPSS. يمكنك حفظ المواصفات الخاصة بك في ملف لاستخدامها عند استيراد ملفات بيانات نصية مماثلة. كما يمكنك أيضًا لصق الصيغة التي تم إنشاؤها بواسطة معالج النص في نافذة بناء الجملة. يمكنك بعد ذلك تخصيص و/ أو حفظ بناء الجملة لاستخدامه في جلسات أخرى أو في وظائف الإنتاج.

تخزين البيانات محليًا. ذاكرة التخزين المؤقت للبيانات هي نسخة كاملة من ملف البيانات، مخزنة في مساحة القرص المؤقتة. يمكن أن يؤدي التخزين المؤقت لملف البيانات إلى تحسين الأداء.

المصدر

المرجع الأساسي لبرنامج التحليل الإحصائي SPSS، ترجمة وإعداد: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات.
الموقع الرسمي لشركة آي بي إم IBM SPSS software.