دورة تدريب علم البيانات Data Science

دورة تدريب علم البيانات

دورة تدريب علم البيانات، تعلم علم البيانات في 6 ساعات | دورة تدريب شاملة للمبتدئين في علم البيانات

يعتبر علم البيانات Data Science من أكثر الوظائف جاذبية في القرن الحادي والعشرين. في هذه الدورة ستتعلم العناصر المهمة في علم البيانات. سيتم تعريفك بالمبادئ والممارسات والأدوات التي تجعل علم البيانات الوسيلة الفعّالة للحصول على نظرة ثاقبة في مجال الأعمال والبحث العلمي. سيكون لديك أساس متين للتعلم والتطبيقات المستقبلية في مجال عملك أو أبحاثك. باستخدام علم البيانات، يمكنك فعل ما تريد القيام به، والقيام به بشكل أفضل. يغطي هذا المقرر موضوعات كل من: أسس علم البيانات، ومصادر البيانات، والترميز، والرياضيات، والإحصاء.

هذه الدورة التدريبية من إعداد بارتون بولسون من datalab.cc.

المحتويات

محتويات دورة تدريب علم البيانات

الجزء الأول: علم البيانات: المقدمة: أساسيات

  • ترحيب: مقدمة وتعريفات (1.1)
  • الطلب على علم البيانات (2.1)
  • مخطط فن Venn Diagram (2.2)
  • مسار علم البيانات (2.3)
  • الأدوار Roles (2.4)
  • فرق العمل في (2.5)
  • البيانات الضخمة (3.1)
  • الترميز (3.2)
  • الإحصاء (3.3)
  • ذكاء الأعمال (3.4)
  • منع الأضرار (4.1)
  • نظرة عامة على الطرق (5.1)
  • نظرة عامة على المصادر (5.2)
  • نظرة عامة على الترميز (5.3)
  • نظرة عامة على الرياضيات (5.4)
  • نظرة عامة على الإحصاءات (5.5)
  • نظرة عامة على تعلم الآلة (5.6)
  • التفسير (6.1)
  • رؤى قابلة للتنفيذ (6.2)
  • رسومات العرض التقديمي (6.3)
  • البحوث القابلة للتكرار (6.4)
  • الخطوات التالية (7.1)

الجزء الثاني 2: مصادر البيانات

التوقيت في الفيديو: (1:39:46)

  • ترحيب (1.1)
  • المقاييس (2.1)
  • الدقة (2.2)
  • السياق الاجتماعي للقياس (2.3)
  • البيانات الموجودة (3.1)
  • واجهات برمجة التطبيقات (3.2)
  • استخراج البيانات (3.3)
  • البيانات الجديدة (4.1)
  • المقابلات (4.2)
  • استطلاعات الرأي (4.3)
  • فرز البطاقات (4.4)
  • التجارب المعملية (4.5)
  • اختبار A/B أ/ب (4.6)
  • الخطوات التالية (5.1)

الجزء الثالث 3: البرمجة

التوقيت في ال*فيديو (2:32:42)

  • ترحيب (1.1)
  • جداول البيانات (2.1)
  • برنامج Tableau تابلوه (2.2)
  • برنامج SPSS التحليل الإحصائي (2.3)
  • برنامج JASP مفتوح المصدر (2.4)
  • برامج أخرى (2.5)
  • HTML إتش تي إم إل (3.1)
  • XML إكس إم إل  ​​(3.2)
  • JSON ج_سون  (3.3)
  • R لغة آر (4.1)
  • لغة برمجة بايثون (4.2)
  • SQL لغة الاستعلام الهيكلية (4.3)
  • C و C ++ و Java  لغات سي وجافا (4.4)
  • Bash باش (4.5)
  • Regex ريجكس (5.1)
  • الخطوات التالية (6.1)

الجزء الرابع 4: الرياضيات

التوقيت في الفيديو (4:01:09)

  • ترحيب (1.1)
  • أساسيات الجبر (2.1)
  • الجبر الخطي (2.2)
  • أنظمة المعادلات الخطية (2.3)
  • حساب التفاضل والتكامل (2.4)
  • التفاضل والتكامل والتحسين (2.5)
  • Big O دوال تجميعية (3.1)
  • علم الاحتمالات (3.2)

الجزء الخامس 5: الإحصاء

التوقيت في الفيديو: (4:44:03)

  • ترحيب (1.1)
  • نظرة عامة على الاستكشاف (2.1)
  • الرسومات الاستكشافية (2.2)
  • الإحصاء الاستكشافي (2.3)
  • الإحصاء الوصفي (2.4)
  • الإحصاء الاستنتاجي (3.1)
  • اختبار الفرضيات (3.2)
  • التقدير (3.3)
  • أدوات التقدير (4.1)
  • مقاييس الملاءمة (4.2)
  • اختيار الميزات (4.3)
  • مشاكل في النمذجة (4.4)
  • التحقق من صحة النموذج (4.5)
  • تدريب عملي (4.6)
  • الخطوة التالية (5.1)

مقدمة دورة تدريب علم البيانات

مرحبًا بك في دورة تدريب علم البيانات: المقدمة.

أنا بارتون بولسون وما سنفعله في هذه الدورة هو أننا سنحصل على نظرة عامة موجزة سهلة الفهم وغير تقنية عن مجال علم البيانات. الآن، بعض الناس عندما يسمعون مصطلح علم البيانات، يبدؤون في التفكير في أشياء مثل البيانات والتفكير في أكوام من المعادلات والأرقام، ويصلون حتى إلى أبعد حد في ذلك العلم ويفكرون في الأشخاص الذين يعملون في معملهم ويبدؤون في قول: هذا العلم ليس مخصصًا من أجلي. أنا لست شخصًا تقنيًا حقًا وهذا يبدو تقنيًا للغاية. حسنًا، إليك الشيء المهم الذي يجب معرفته. في حين أن الكثير من الناس يتحمسون حقًا بشأن الجوانب التقنية لعلم البيانات، فإن الشيء المهم هو أن علم البيانات ليس تخصصًا تقنيًا إلى حد كبير، ولكنه علم إبداعي. وهذا صحيح حقًا.

السبب في قولي هذا هو أنك في علم البيانات تستخدم الأدوات التي تأتي من البرمجة والإحصاءات ومن الرياضيات، ولكنك تستخدم هذه الأدوات للعمل بشكل إبداعي خلاق مع البيانات. الفكرة هي أن هناك دائمًا أكثر من طريقة لحل مشكلة أو الإجابة على سؤال، ولكن الأهم هو الحصول على نظرة ثاقبة. ذلك لأن الهدف، بغض النظر عن كيفية الوصول إليه، هو الحصول على نظرة ثاقبة من بياناتك.

وما يجعل علم البيانات فريدًا، مقارنة بالعديد من الأشياء الأخرى، هو أنك تحاول الاستماع إلى وفهم جميع بياناتك، حتى عندما لا تتلاءم بسهولة مع مناهجك ونماذج القياسية. فأنت تحاول أن تكون أكثر شمولاً في تحليلاتك، والسبب الذي يجعلك تقوم بذلك هو أن كل شيء بالنسبة لك له دلالة. كل شيء يحمل معنى وكل شيء يمكن أن يمنحك فهمًا إضافيًا ونظرة ثاقبة لما يحدث من حولك. ولذا في هذه الدورة، ما نحاول القيام به هو إعطائك خريطة لمجال علم البيانات وكيف يمكنك استخدامه، وبالتالي يكون لديك هذه الخريطة بين يديك ويمكنك الاستعداد للبدء.

تعريف علم البيانات

سنبدأ هذه الدورة بتعريف علم البيانات. هذا أمر منطقي. لكننا سنقوم بذلك بطريقة مضحكة نوعًا ما. أول شيء سأتحدث عنه هو الطلب على علم البيانات. لذا، دعونا نلقي نظرة سريعة.

الآن، يمكن تعريف علم البيانات بعدة طرق. سأقدم لك بعض التعريفات المختصرة. خذ هذا تعريفي الخاص، وهو أن علم البيانات هو البرمجة والرياضيات والإحصاءات على شكل تطبيقي عملي. هذا تعريف عملي معقول. ولكن، إذا كنت تريد أن تكون أكثر إيجازًا، فقد تناولت تعريفين اثنين آخرين. علم البيانات هو تحليل البيانات المتنوعة، أو البيانات التي لا تعتقد أنها تتناسب مع الأساليب التحليلية القياسية. الطريقة الثالثة للتفكير في الأمر هي أن علم البيانات هو تحليل شامل يتضمن جميع البيانات لديك، من أجل الحصول على إجابة ثاقبة وجذابة لأسئلتك البحثية.

الآن، قد تقول لنفسك، “انتظر … هذا كل شيء؟”

حسنًا، إذا لم تكن معجبًا، دعني أوضح لك بعض الأشياء. أولاً، دعنا نلقي نظرة على هذه المقالة التي تقول: “عاِلم البيانات: هي الوظيفة الأكثر جاذبية في القرن الحادي والعشرين”. ويرجى ملاحظة أن هذا مكتوب في مجلة Harvard Business Review. إذن، هذا مصدر موثوق وهو المصدر الرسمي لهذا القول: أن علم البيانات جذاب. الآن، مرة أخرى، قد تقول لنفسك، “جذاب”؟ أنا بالكاد أعتقد ذلك. نعم، إنه جذاب. والسبب في كون علم البيانات جذاب لأنه:

  • أولاً، أن له صفات نادرة، وثانيًا يرتفع الطلب عليه. اسمحوا لي أن أقول المزيد عن تلك الصفات. الصفات النادرة هي أن علم البيانات يأخذ بيانات غير منظمة، ثم يجد الترتيب والمعنى والقيمة في تلك البيانات. هذه صفات مهمة، لكن ليس من السهل العثور عليها.
  • ثانيًا، ارتفاع الطلب. حسنًا، السبب في ارتفاع الطلب عليه هو أن علم البيانات يوفر نظرة ثاقبة لما يجري من حولك وبشكل دقيق. إنه يوفر ميزة تنافسية، وهو أمر ضخم في مجال الأعمال.

الطلب على علم البيانات

الآن، دعني أعود وأقول المزيد عن الطلب. دعنا نلقي نظرة على بعض المصادر الأخرى. لذلك، على سبيل المثال، نشر معهد ماكينزي العالمي بحثًا مشهورًا للغاية، ويمكنك الحصول عليه من خلال عنوان URL هذا. وإذا ذهبت إلى صفحة الويب هذه، فهذا ما سيحدث. وسنلقي نظرة سريعة على هذا الملخص. إنه ملف PDF يمكنك تنزيله. وإذا فتحت ذلك الملف، فستجد هذه الصفحة. (صورة في الفيديو).

دعنا نلقي نظرة على الزاوية اليمنى السفلية. هنا رقمان، سأقوم بتكبيرهما. الأول، أنهم يتوقعون حاجة في السنوات القليلة المقبلة لما بين 140 و190 ألف وظيفة للموهوبين في مهارات التحليل العميق. لذلك، هذا يعني أنهم من علماء البيانات الممارسون فعليًا. هذا رقم ضخم. ولكن سيكون هناك ما يقرب من عشرة أضعاف هذا العدد أي أكثر من 1.5 مليون متخصص في مجال إدارة البيانات للاستفادة الكاملة من البيانات الضخمة في الولايات المتحدة. الآن، هؤلاء الأشخاص الذين لا يقومون بالضرورة بإجراء التحليل ولكن عليهم فهمه، والذين يتعين عليهم التحدث عن البيانات. وهذا أحد الأغراض الرئيسية لهذه الدورة التدريبية تحديدًا، وهو مساعدة الأشخاص الذين قد يكونون أو لا يكونون ممارسين لعلم البيانات على تعلم فهم ما يمكنهم الحصول عليه من البيانات، وبعض الأساليب المستخدمة للوصول إلى ذلك المستوى من الفهم.

أهم مهارات التوظيف في العالم

دعنا نلقي نظرة على مقال آخر من LinkedIn. إليك اختصارًا لعنوان URL الخاص به والذي سينقلك إلى صفحة الويب هذه: “أهم 25 مهارة وظيفية أدت إلى توظيف الأشخاص في عام 2014”. وألقِ نظرة على رقم واحد هنا: التحليل الإحصائي واستكشاف وتنقيب البيانات، المرتبطان ارتباطًا وثيقًا بعلم البيانات. وللتوضيح فقط، كان هذا رقم واحد في أستراليا، والبرازيل، وكندا، وفرنسا، والهند، وهولندا، وجنوب إفريقيا، والإمارات العربية المتحدة، والمملكة المتحدة. في كل مكان. وإذا كنت بحاجة إلى المزيد، فلنلق نظرة على Glassdoor، الذي نشر مقالًا عام 2016، وهو عن “أفضل 25 وظيفة في أمريكا”. وانظر إلى رقم واحد هنا، عالم البيانات. ويمكننا تكبير هذه المعلومات. تقول إنه سيكون هناك 1700 فرصة عمل، براتب أساسي متوسط ​​يزيد عن 116000 دولار، وفرص وظيفية رائعة ودرجات وظيفية. لذا، إذا كنت تريد أن تأخذ كل هذا معًا، فإن الاستنتاج الذي يمكنك الوصول إليه هو أن علم البيانات يؤتي ثماره.

قائمة أعلى المهن والوظائف أجورًا

ويمكنني أن أوضح لكم المزيد عن ذلك. على سبيل المثال، إليك قائمة بأعلى عشرة أجور حصلت عليها من أخبار الولايات المتحدة. لدينا أطباء وممارسون علاج طبيعي وأطباء أسنان ومحامون وما إلى ذلك. الآن، إذا أضفنا عالم بيانات إلى هذه القائمة، باستخدام بيانات من O’Reilly.com، نرى أنه يحتل المركز الثالث بمتوسط ​​إجمالي الراتب (ليس الأساس الذي كان لدينا في السابق، ولكن إجمالي التعويض) يبلغ حوالي 144000 دولار في السنة. هذا غير عادي.

إذن باختصار، ما الذي نحصل عليه من كل هذا؟ أولاً، نعلم أن هناك طلبًا مرتفعًا جدًا على علم البيانات.

ثانيًا، نعلم أن هناك حاجة ماسة لكلا النوعين من المتخصصين؛ وهم علماء البيانات الممارسون الفعليون؛ والمدراء العموميين، الأشخاص الذين يتحدثون هذه اللغة ويعرفون ما يمكن عمله. وبالطبع أجر ممتاز لكل منهم. وإجمالاً، يجعل هذا من علم البيانات Data Science بديلاً مهنيًا مقنعًا وطريقة تجعلك أفضل في كل ما تفعله.

مخطط فن لعلم البيانات

بالعودة إلى هنا في علم البيانات، سنواصل محاولتنا لتعريفه من خلال النظر إلى شيء معروف حقًا في هذا المجال؛ مخطط فن Venn لعلم البيانات. الآن، إذا كنت ترغب في ذلك، يمكنك التفكير في هذا من حيث “ما هي مكونات علم البيانات؟”. حسنًا، سنقول أولاً شكرًا لدرو كونواي، الرجل الذي ابتكر هذا. وإذا كنت تريد أن ترى المقال الأصلي، يمكنك الذهاب إلى هذا العنوان. لكن ما قاله درو هو أن علم البيانات يتكون من ثلاثة أشياء. ويمكننا وضعها كدوائر متداخلة لأن التقاطع مهم.

هنا في أعلى اليسار يوجد الترميز أو برمجة الحاسوب، أو كما يسميها القرصنة. في أعلى اليمين توجد الإحصائيات أو الإحصاءات أو الرياضيات أو القدرات الكمية بشكل عام. وفي الجزء السفلي توجد الخبرة في المجال، أو معرفة حميمة بمجال معين من مجالات الممارسة: الأعمال التجارية، أو الصحة، أو التعليم، أو العلوم، أو شيء من هذا القبيل. والتقاطع هنا في الوسط، هذا هو علم البيانات. إذن فهو مزيج من البرمجة والإحصاء والرياضيات والمعرفة بالمجال.

البرمجة في علم البيانات

الآن، دعنا نتحدث قليلاً عن البرمجة. سبب أهمية البرمجة هو أنها تساعدك في جمع البيانات وإعدادها. لأن الكثير من البيانات تأتي من مصادر جديدة وليست بالضرورة جاهزة لتجميعها ويمكن أن تكون بتنسيقات غير عادية للغاية. لذا فإن البرمجة أو الترميز مهم لأنه قد يتطلب بعض الإبداع الحقيقي للحصول على البيانات من المصادر لوضعها في تحليلك.

الآن، إليك بعض أنواع الترميز المهمة؛ على سبيل المثال، هناك ترميز إحصائي. زوجان من اللغات الرئيسية في هذا هما لغة R ولغة Python. لغتان برمجة مجانيتان مفتوحتان المصدر. لغة برمجة R هي تحديدًا للبيانات. أما لغة Python فهي لغة برمجة عامة، لكنها تتكيف جيدًا مع البيانات. القدرة على العمل مع قواعد البيانات مهمة أيضًا. اللغة الأكثر شيوعًا هناك هي لغة الاستعلام الهيكلية SQL، وعادة ما تُنطق “Sequel”، والتي تعني اختصار لغة الاستعلام الهيكلية، لأن هذا هو المكان الذي توجد فيه البيانات.

أيضًا، هناك واجهة سطر الأوامر Command Line Interface، أو إذا كنت تستخدم جهاز Mac، فإن الناس يسمونها “المحطة” Terminal. اللغة الأكثر شيوعًا هناك هي Bash، والتي تعني في الواقع Bourne-again shell. ثم البحث مهم والتعبير العادي، أو التعبيرات العادية. على الرغم من عدم وجود قدر كبير لتعلمه هناك (إنه مجال صغير جدًا)، إلا أنه يشبه إلى حد ما البحث عن أحرف البدل التي تعمل بالطاقة الفائقة والتي تجعل من الممكن لك العثور على البيانات وإعادة تنسيقها بطرق ستكون مفيدة لتحليلاتك.

الرياضيات في علم البيانات

الآن، دعنا نقول بعض الأشياء عن الرياضيات. ستحتاج إلى أشياء مثل القليل من الاحتمالات، وبعض الجبر بالطبع، والانحدار (وهو إجراء إحصائي شائع جدًا). هذه الأشياء مهمة. وسبب احتياجك للرياضيات هو: لأن ذلك سيساعدك على اختيار الإجراءات المناسبة للإجابة على السؤال باستخدام البيانات التي لديك. وربما الأهم من ذلك؛ ستساعدك الرياضيات على تشخيص المشاكل عندما لا تسير الأمور كما هو متوقع. وبالنظر إلى أنك تحاول القيام بأشياء جديدة باستخدام البيانات الجديدة بطرق جديدة، فمن المحتمل أن تواجه مشكلات. لذا فإن القدرة على فهم آليات ما يجري ستمنحك ميزة كبيرة.

الخبرة في المجال في علم البيانات

والعنصر الثالث من مخطط فن لعلم البيانات هو نوع من الخبرة في المجال. فكر في الأمر على أنه خبرة في المجال الذي تعمل فيه. إعدادات الأعمال فيها الكثير من الأشياء المشتركة. أنت بحاجة إلى معرفة أهداف هذا المجال، والأساليب المستخدمة، والقيود التي يصادفها الأشخاص. وهذا مهم لأنه مهما كانت نتائجك، يجب أن تكون قادرًا على تنفيذها جيدًا. علم البيانات عملي للغاية ومصمم لإنجاز شيء ما. إن إلمامك بمجال معين على صعيد الممارسة العملية سيجعله أسهل بكثير وأكثر تأثيرًا عند تنفيذ نتائج تحليلك.

الآن، دعنا نعود إلى مخطط فن الخاص بنا هنا للحظة فقط. نظرًا لأن هذا هو مخطط فن Venn، فلدينا أيضًا هذه التقاطعات لدائرتين في وقت واحد. في الجزء العلوي يوجد التعلم الآلي. في أسفل اليمين يوجد البحث التقليدي أو الكلاسيكي. وفي أسفل اليد اليسرى ما أسماه درو كونواي “منطقة الخطر”. اسمحوا لي أن أتحدث عن كل من ذلك.

التعلم الآلي

أولاً، التعلم الآلي أو Machine Learning. الآن، تفكر في التعلم الآلي، والفكرة هنا هي أنه يمثل الترميز أو البرمجة، أو البرمجة الإحصائية والرياضيات، دون أي خبرة حقيقية في المجال. يُشار إليها أحيانًا باسم نماذج “الصندوق الأسود”. إنها نوعًا ما مثل كميات من البيانات المجمعة ولا يتعين عليك بالضرورة أن تعرف ما تعنيه أو ما هي اللغة المستخدمة فيها، وسيؤدي ذلك فقط إلى حلها جميعًا وسيمنحك بعض الانتظام. يمكن أن يكون ذلك مفيدًا للغاية، ولكن يعتبر التعلم الآلي مختلفًا قليلاً عن علم البيانات لأنه لا يتضمن تطبيقات معينة في مجال معين.

البحث التقليدي

أيضًا، هناك البحث التقليدي. هذا هو المكان الذي لديك فيه الرياضيات أو الإحصاء ولديك معرفة بالمجال؛ غالبًا ما يكون لديك معرفة مكثفة بالمجال ولكن بدون تشفير أو برمجة. الآن، يمكنك التخلص من ذلك لأن البيانات التي تستخدمها في البحث التقليدي منظمة للغاية. فهي تأتي في صفوف وأعمدة، وعادة ما تكون مكتملة وعادة ما تكون جاهزة للتحليل. لا يعني ذلك أن حياتك سهلة، لأنه الآن عليك أن توسع قدرًا هائلاً من الجهد في أساليب وتصميم المشروع وتفسير البيانات. لذلك، لا يزال العمل المعرفي الفكري ثقيلًا للغاية، لكنه يأتي من مكان مختلف.

تقاطع البرمجة مع المعرفة بالمجال

وأخيرًا، هناك ما أسماه كونواي، “منطقة الخطر”. وهذا هو تقاطع الترميز أو البرمجة مع المعرفة في المجال، لكن بدون رياضيات أو إحصائيات. الآن هو يقول إنه من غير المرجح أن يحدث ذلك، وربما يكون هذا صحيحًا. من ناحية أخرى، يمكنني التفكير في بعض الأمثلة الشائعة، ما يسمى “عدد الكلمات”، حيث تأخذ مستندًا كبيرًا أو سلسلة من المستندات، وتحسب عدد المرات التي تظهر فيها كلمة معينة فيها. يمكن أن يخبرك هذا في الواقع ببعض الأشياء المهمة للغاية. وأيضًا، رسم الخرائط وإظهار كيف تتغير الأشياء عبر المكان وربما عبر الوقت. ليس بالضرورة أن تكون لديك علم بالرياضيات، لكنها يمكن أن تكون ثاقبة ومفيدة للغاية. لذا، دعونا نفكر في الخلفيات والمهارات التي يمتلكونها الناس.

أولا، الترميز أو البرمجة. يمكن أن يكون لديك أشخاص مبرمجون يمكنهم القيام بالرياضيات والإحصائيات والأعمال. إذن، تحصل على الأشياء الثلاثة (وربما يكون هذا هو الأكثر شيوعًا)، يأتي معظم الأشخاص من خلفية برمجة. من ناحية أخرى، هناك أيضًا ذوي خلفيات في مجال الإحصائيات أو الإحصاء. ويمكنك الحصول على الإحصائيين الذين يمكنهم البرمجة ويمكنهم أيضًا القيام بمجالات الأعمال. هذا أقل شيوعًا، لكنه يحدث. وأخيرًا، هناك أشخاص يأتون إلى علم البيانات من مجال معين. وهؤلاء، على سبيل المثال، رجال الأعمال الذين يمكنهم كتابة البرامج والتعامل مع الأرقام. وهم الأقل شيوعًا. لكن كل هذه الأمور مهمة لعلم البيانات.

باختصار، هذا ما يمكننا استنتاجه: أولاً، يشكل علم البيانات عدة مجالات. ثانيًا، تُعد المهارات والخلفيات المتنوعة مهمة وهي ضرورية في علم البيانات. وثالثًا، هناك العديد من الأدوار المتضمنة لأن هناك الكثير من الأشياء المختلفة التي يجب أن تحدث. سنقول المزيد عن ذلك في الفيديو القادم.

مسار علم البيانات

الخطوة التالية في هذه المقدمة عن علم البيانات وتعريفنا له هي التحدث عن مسار علم البيانات. لذلك أحب أن أفكر في هذا، عندما تعمل في مشروع كبير، عليك القيام بخطوة واحدة في كل مرة للانتقال من هنا إلى هناك أو من مرحلة إلى مرحلة. أما في علم البيانات، يمكنك اتخاذ الخطوات المختلفة ووضعها في فئتين عامتين. أولاً، هناك خطوات تتضمن التخطيط. ثانيًا، هناك إعداد البيانات. ثالثًا، هناك النمذجة الفعلية للبيانات. ورابعًا، هناك المتابعة. وهناك عدة خطوات داخل كل من تلك الخطوات؛ سأشرح كل واحدة منهم بإيجاز.

مرحلة التخطيط

أولاً، لنتحدث عن التخطيط. أول شيء عليك القيام به، هو أنك تحتاج إلى تحديد أهداف مشروعك حتى تعرف كيفية استخدام مواردك بشكل جيد، وكذلك حتى تعرف متى تنتهي. ثانيًا، تحتاج إلى تنظيم مواردك. لذلك قد يكون لديك بيانات من عدة مصادر مختلفة؛ قد يكون لديك حزم برامج مختلفة، قد يكون لديك أشخاص مختلفون. وهو ما يقودنا إلى النقطة الثالثة: تحتاج إلى التنسيق بين الأشخاص حتى يتمكنوا من العمل معًا بشكل منتج. إذا كنت تقوم بعملية تسليم، فيجب أن يكون واضحًا من الذي سيفعل ماذا وكيف سيتم العمل معًا. وبعد ذلك، لتوضيح ما هو واضح حقًا، تحتاج إلى جدولة المشروع بحيث يمكن للأشياء أن تتحرك بسلاسة ويمكنك الانتهاء في فترة زمنية معقولة.

مرحلة إعداد البيانات

التالي هو إعداد البيانات، حيث يمكن تشبيه الأمر مثل إعداد الطعام وتجهيز المكونات الخام اللازمة له. أولاً، بالطبع، أنت بحاجة إلى الحصول على البيانات. ويمكن أن تكون من عدة مصادر مختلفة وأن تكون في العديد من التنسيقات المختلفة. تحتاج إلى تنظيف البيانات، والأمر المحزن هو أن هذا يميل إلى أن يكون جزءًا كبيرًا جدًا من أي مشروع لعلم البيانات. وذلك لأنك تجلب بيانات غير عادية من أماكن مختلفة. تريد أيضًا استكشاف البيانات أو تنقيب البيانات؛ أي، النظر عن كثب ومعرفة كيف تبدو، كم عدد الأشخاص في كل مجموعة، وشكل التوزيعات، وماذا يرتبط بماذا. وقد تحتاج إلى تنقيح البيانات. وهذا يعني اختيار المتغيرات لتضمينها، واختيار الحالات لتضمينها أو استبعادها، وإجراء أي تحويلات على البيانات التي تحتاج إلى القيام بها. وبالطبع يمكن لهذه الخطوات أن ترتد ذهابًا وإيابًا من خطوة إلى أخرى.

مرحلة النمذجة

المجموعة الثالثة هي النمذجة أو النمذجة الإحصائية. هذا هو المكان الذي تريد بالفعل إنشاء النموذج الإحصائي فيه. على سبيل المثال، قد تقوم بتحليل انحدار أو قد تقوم بعمل شبكة عصبية. ولكن، مهما فعلت، بمجرد إنشاء النموذج الخاص بك، عليك التحقق من صحة النموذج. يمكنك القيام بذلك باستخدام طريقة التحقق من صحة الرفض. كما يمكنك فعل ذلك باستخدام نسخة متماثلة صغيرة جدًا إذا استطعت. تحتاج أيضًا إلى تقييم النموذج. لذا، بمجرد أن تعرف أن النموذج دقيق وصحيح، وما الذي يعنيه في الواقع وما مقدار ما يخبرك به؟ فأخيرًا، تحتاج إلى تحسين النموذج. لذلك، على سبيل المثال، قد تكون هناك متغيرات تريد التخلص منها؛ ربما أخرى تريد تضمينها. قد ترغب، مرة أخرى، في تحويل بعض البيانات. قد ترغب في الحصول عليها حتى يسهل تفسيرها وتطبيقها. وهذا يقودنا إلى الجزء الأخير من مسار علم البيانات وهو المتابعة.

مرحلة المتابعة

الجزء الأخير من مسار علم البيانات وهو المتابعة. فبمجرد الانتهاء من إنشاء النموذج الخاص بك، تحتاج إلى تقديم النموذج. لأنه عادة ما يكون العمل الذي يتم إجراؤه لعميل، يمكن أن يكون في المنزل، ويمكن أن يكون من خلال طرفًا ثالثًا. لكن عليك أن تأخذ الأفكار التي حصلت عليها وتشاركها بطريقة هادفة مع الآخرين.

تحتاج أيضًا إلى نشر النموذج؛ عادة ما يتم القيام به من أجل إنجاز شيء ما. لذلك، على سبيل المثال، إذا كنت تعمل مع موقع للتجارة الإلكترونية، فربما تقوم بتطوير محرك توصيات يقول، “الأشخاص الذين اشتروا هذا قد يشترون هذا.” تحتاج إلى لصقها فعليًا على موقع الويب ومعرفة ما إذا كانت تعمل بالطريقة التي توقعتها. ثم تحتاج إلى إعادة النظر في النموذج لأنه في كثير من الأحيان، لا تكون البيانات التي عملت عليها بالضرورة جميع البيانات، ويمكن أن تتغير الأشياء عندما تخرج في العالم الحقيقي أو تتغير الأشياء بمرور الوقت. لذا، عليك أن ترى مدى نجاح نموذجك. وبعد ذلك، فقط لكي تكون دقيقًا، تحتاج إلى أرشفة الأصول، وتوثيق ما لديك، وتمكينك أو تمكين الآخرين من تكرار التحليل أو تطويره في المستقبل.

إذن، هذه هي الخطوات العامة لما أعتبره مسار علم البيانات. وباختصار، ما نحصل عليه من هذا هو ثلاثة أشياء. أولاً، علم البيانات ليس مجرد مجال تقني، إنه ليس مجرد ترميز. أشياء مثل التخطيط والعرض والتنفيذ لا تقل أهمية. أيضًا، المهارات السياقية، ومعرفة كيفية عملها في مجال معين، ومعرفة كيفية تنفيذها، وهذه المهارات مهمة أيضًا. وبعد ذلك، كما حصلتم من هذا الأمر برمته، هناك الكثير من الأشياء للقيام بها. وإذا ذهبت خطوة واحدة في كل مرة، فسيكون هناك تراجع أقل وستكون في النهاية أكثر إنتاجية في مشاريع علم البيانات الخاصة بك.

الأدوار في علم البينات

سنواصل تعريفنا لعلم البيانات من خلال النظر في الأدوار التي ينطوي عليها علم البيانات. الطريقة التي يمكن أن يساهم بها الأشخاص المختلفون. هذا لأنه يميل إلى أن يكون شيئًا تعاونيًا، ومن الجيد أن تكون قادرًا على القول إننا جميعًا معًا، نعمل معًا لتحقيق هدف واحد. لذا، دعنا نتحدث عن بعض الأدوار التي ينطوي عليها علم البيانات وكيف تساهم في المشاريع.

المهندسون

أولاً، دعونا نلقي نظرة على المهندسين. هؤلاء هم الأشخاص الذين يركزون على الأجهزة الخلفية. على سبيل المثال، الخوادم والبرامج التي تديرها. هذا ما يجعل علم البيانات ممكنًا، ويشمل أشخاصًا مثل المطورين أو مطوري البرامج أو مسؤولي قواعد البيانات. وهم يوفرون الأساس لبقية العمل.

المتخصصون في البينات الضخمة

بعد ذلك، يمكنك أيضًا أن يكون لديك أشخاص متخصصون في البيانات الضخمة. هؤلاء هم الأشخاص الذين يركزون على علوم الحاسوب والرياضيات، وقد يقومون بعمل خوارزميات التعلم الآلي كطريقة لمعالجة كميات كبيرة جدًا من البيانات. وغالبًا ما يقومون بإنشاء ما يسمى بمنتجات البيانات. لذلك، هناك شيء يخبرك عن المطعم الذي ستذهب إليه، أو يقول، “ربما تعرف هؤلاء الأصدقاء”، أو يوفر طرقًا لربط الصور. هذه منتجات بيانات، وغالبًا ما تتضمن قدرًا هائلاً من العمل التقني للغاية وراءها.

الباحثون المهنيون

هناك أيضًا باحثون. هؤلاء هم الأشخاص الذين يركزون على البحث الخاص بمجال معين. لذلك، على سبيل المثال، الفيزياء، أو علم الوراثة، أو أيا كان. ويميل هؤلاء الأشخاص إلى الحصول على إحصائيات قوية جدًا، ويمكنهم استخدام بعض الإجراءات وبعض البيانات التي تأتي من أشخاص آخرين مثل باحثي وعلماء البيانات الضخمة، لكنهم يركزون على الأسئلة المحددة.

المحللون

أيضًا في مجال علم البيانات، ستجد محللين. هؤلاء هم الأشخاص الذين يركزون على المهام اليومية لإدارة الأعمال التجارية. لذلك على سبيل المثال، قد يقومون بتحليلات الويب (مثل تحليلات جوجل)، أو قد يسحبون البيانات من قاعدة بيانات SQL. وهذه المعلومات مهمة جدًا وجيدة للأعمال. لذا، يُعد المحللون مفتاحًا لوظيفة الأعمال اليومية، لكنهم قد لا يكونون بالضبط علماء البيانات بالمعنى الشامل، لأن معظم البيانات التي يعملون معها ستكون منظمة بشكل جيد. ومع ذلك، فإنهم يلعبون دورًا مهمًا في الأعمال التجارية بشكل عام.

رجال الأعمال ورواد الأعمال

وبعد ذلك، الحديث عن الأعمال. لديك رجال الأعمال الفعليين. الرجال والنساء الذين ينظمون ويديرون الأعمال. يحتاج هؤلاء الأشخاص إلى أن يكونوا قادرين على صياغة الأسئلة المتعلقة بالأعمال التي يمكن الإجابة عليها بالبيانات. كما يدير رجل الأعمال المشروع وجهود وموارد الآخرين. وعلى الرغم من أنهم قد لا يقومون بالفعل بالترميز أو البرمجة، إلا أنهم يجب أن يتحدثوا بلغة البيانات؛ يجب أن يعرفوا كيفية عمل البيانات، وما يمكن أن يجيبوا عليه، وكيفية تنفيذه. يمكنك أيضًا أن يكون لديك رواد أعمال. لذلك، قد يكون لديك بادئي تشغيل البيانات؛ لقد بدأوا شبكة اجتماعية صغيرة خاصة بهم، منصة بحث الويب الصغيرة الخاصة بهم. يحتاج رائد الأعمال إلى البيانات ومهارات العمل. وبصدق، يجب أن يكونوا مبدعين في كل خطوة على طول الطريق. عادة لأنهم يفعلون كل ذلك بأنفسهم على نطاق أصغر.

وحيد القرن (الخبير الذي يمكنه القيام بكل الأدوار)

ثم لدينا في علم البيانات شيء يعرف باسم “وحيد القرن المكدس الكامل”. وهذا هو الشخص الذي يمكنه فعل كل شيء على مستوى الخبراء. يطلق عليهم اسم وحيد القرن لأنهم بصدق قد لا يكونون موجودين بالفعل. سيكون لدي المزيد لأقوله عن ذلك لاحقًا. لكن في الوقت الحالي، يمكننا تلخيص ما حصلنا عليه من هذا الفيديو بثلاثة أشياء. رقم واحد، علم البيانات متنوع. هناك الكثير من الأشخاص المختلفين الذين يدخلون في ذلك، ولديهم أهداف مختلفة لعملهم، وهم يجلبون مهارات وخبرات مختلفة وأساليب مختلفة. كما أنهم يميلون إلى العمل في سياقات مختلفة جدًا. رجل أعمال يعمل في مكان مختلف تمامًا عن مدير الأعمال الذي يعمل في مكان مختلف تمامًا عن مكان باحث أكاديمي. لكن، كلهم ​​مرتبطون بطريقة ما بعلم البيانات ويجعلونه مجالًا أكثر ثراءً.

فِرق العمل في علم البيانات

آخر شيء أريد قوله في هذه المقدمة، حيث أحاول تعريف علم البيانات، هو التحدث عن الفرق في علم البيانات. الفكرة هنا هي أن هذا العلم لديه العديد من الأدوات المختلفة، وسيكون الأشخاص المختلفون خبراء في كل واحدة منها. الآن، لديك، على سبيل المثال، الترميز ولديك الإحصائيات. أيضًا، لديك ما يشبه التصميم، أو الأعمال والإدارة المتضمنة. والسؤال، بالطبع، هو: “من يستطيع أن يفعل كل ذلك؟ من يستطيع أن يفعل كل هذه الأشياء على المستوى الذي نحتاجه؟”.

حسنًا، هذا هو المكان الذي حصلنا فيه على هذا القول (لقد ذكرته من قبل)، إنه وحيد القرن. ومثلما حدث في التاريخ القديم، فإن وحيد القرن مخلوق أسطوري بقدرات سحرية. في علم البيانات، يعمل بشكل مختلف قليلاً. إنه عالم بيانات أسطوري يتمتع بقدرات عالمية. تكمن المشكلة، كما نعلم من العالم الحقيقي، في عدم وجود وحيد القرن، ولا يوجد في الواقع عدد كبير جدًا من وحيدي القرن في علم البيانات. حقا، هناك أناس بشر فقط. ولذا علينا أن نكتشف كيف يمكننا تنفيذ المشاريع على الرغم من عدم وجود هذا الشخص الوحيد الذي يمكنه فعل كل شيء من أجل الجميع.

حالة افتراضية توضح فائدة فرق العمل

لنأخذ حالة افتراضية للحظة. سأقدم لكم بعض الأشخاص الخياليين. إليكم شخصيتي الخيالية أوتو، الذي يتمتع بمهارات تصوير قوية، ولديه ترميز جيد، ولكن لديه قدرة تحليلية أو إحصائية محدودة. وإذا قمنا برسم بياني لأشيائه، فقدراته … إذن، لدينا هنا خمسة أشياء يجب أن تحدث. ولكي ينجح المشروع، يجب أن يحدثوا جميعًا على الأقل، وبمستوى ثمانية على تدريج من صفر إلى عشرة. إذا أخذنا قدرته على الترميز، فهو موجود تقريبًا. الإحصاء، ليس حتى في منتصف الطريق. الرسومات، نعم يمكنه فعل ذلك. وبعد ذلك، العمل، حسنًا. والمشاريع جيد جدًا. لذا، ما يمكنك رؤيته هنا هو، في واحدة فقط من هذه المناطق الخمسة، يكفي أوتو بمفرده.

من ناحية أخرى، دعنا نربطه بشخص آخر. دعونا نلقي نظرة على لوسي. ولوسي لديها تدريب قوي في مجال الأعمال، ولديها مهارات تقنية جيدة، ولكن لديها معارة الرسومات محدودة. وإذا حصلنا على ملفها الشخصي على نفس الشيء الذي رأيناه، فهناك ترميز، جيد جدًا. إحصاءات جيدة. الرسومات، ليس كثيرًا. الأعمال جيدة. والمشاريع جيدة. الآن، الشيء المهم هنا هو أنه يمكننا تكوين فريق. لذلك دعونا نأخذ شخصينا الخياليين، أوتو ولوسي، ويمكننا أن نجمع قدراتهما معًا.

نتيجة العمل ضمن فريق

الآن، لا بد لي من تغيير المقياس هنا قليلاً لاستيعاب كلاهما. لكن معيارنا لا يزال عند ثمانية؛ نحن بحاجة إلى مستوى ثمانية من أجل تنفيذ المشروع بكفاءة. وإذا قمنا بدمجهما: انظر، فقد تجاوزت البرمجة الآن الثمانية. الإحصائيات تجاوزت الثمانية. الرسومات تخطت أيضًا. ثم الأعمال كذلك. لذلك عندما نجمع مهاراتهم معًا، نكون قادرين على الحصول على المستوى الذي نحتاجه لكل شيء. أو بعبارة أخرى، لقد أنشأنا الآن وحيد القرن من قبل الفريق، وهذا يجعل من الممكن القيام بمشروع علم البيانات. لذلك، باختصار: لا يمكنك عادةً القيام بعلم البيانات بمفردك. هذا فرد نادر جدًا. أو بشكل أكثر تحديدًا: يحتاج الناس إلى أشخاص، وفي علم البيانات لديك الفرصة لأخذ عدة أشخاص وإنشاء مهارات وحيد القرن الجماعية، حتى تتمكن من الحصول على البصيرة التي تحتاجها في مشروعك ويمكنك إنجاز الأشياء التي تريدها.

علم البيانات والبيانات الضخمة

من أجل الحصول على فهم أفضل لعلم البيانات، قد يكون من المفيد النظر إلى التناقضات بين علم البيانات والمجالات الأخرى. ربما يكون أكثر المعلومات إفادة هو البيانات الضخمة لأن هذين المصطلحين غالبًا ما يتم الخلط بينهما. يجعلني ذلك أفكر في المواقف التي يكون لديك فيها شيئان متشابهان للغاية، لكن ليس نفس الشيء. كما لدينا هنا في ساحة سان كارلو هنا في إيطاليا.

ينبع جزء من المشكلة من حقيقة أن كلا من علم البيانات والبيانات الضخمة لهما مخططات فن Venn المرتبطة بهما. لذلك، على سبيل المثال، في مخطط فن رقم 1 لعلم البيانات هو شيء رأيناه بالفعل. لدينا ثلاث دوائر ولدينا ترميز ولدينا رياضيات ولدينا بعض الخبرة في المجال، والتي جمعت معًا للحصول على علم البيانات.

من ناحية أخرى، فإن مخطط فن رقم 2 المخصص للبيانات الضخمة. لدينا ثلاث دوائر أيضًا. لدينا حجم كبير من البيانات، وسرعة تدفق سريعة للبيانات، والتنوع الكبير في البيانات. خذ هؤلاء الثلاثة معًا وستحصل على البيانات الضخمة. الآن، يمكننا أيضًا دمج هذين الاثنين إذا أردنا في مخطط فن Venn ثالث، نسميه البيانات الضخمة وعلم البيانات. هذه المرة هي دائرتان فقط. مع البيانات الضخمة على اليسار وعلم البيانات على اليمين. والتقاطع في الوسط، هناك علم البيانات الضخمة Big Data Science، وهو في الواقع مصطلح حقيقي. ولكن، إذا كنت تريد إجراء مقارنة وتباين، فمن المفيد نوعًا ما أن تنظر في كيفية الحصول على أحدهما دون الآخر.

البينات الضخمة بدون علم البيانات

لذا، لنبدأ بالنظر إلى البيانات الضخمة بدون علم البيانات. لذلك، فهذه مواقف قد يكون لديك فيها حجم أو سرعة أو مجموعة متنوعة من البيانات ولكنك لا تحتاج إلى جميع أدوات علم البيانات. إذن، نحن ننظر فقط إلى الجانب الأيسر من المعادلة الآن. الآن، بحق، هذا لا ينجح إلا إذا كان لديك بيانات ضخمة بدون الثلاثة حروف V. يقول البعض أنه يجب أن يكون لديك الحجم Volume، والسرعة Velocity، والتنوع Variety، حتى يتم احتسابها على أنها بيانات كبيرة. أقول بشكل أساسي أن أي شيء لا يتناسب مع آلة قياسية هو على الأرجح بيانات كبيرة.

يمكنني التفكير في بعض الأمثلة هنا لأشياء يمكن اعتبارها بيانات ضخمة، ولكن ربما لا يتم اعتبارها علم بيانات. التعلم الآلي، حيث يمكن أن يكون لديك مجموعات بيانات كبيرة جدًا وربما معقدة للغاية، لا يتطلب خبرة كبيرة في المجال، لذلك قد لا يكون علم البيانات. عدد الكلمات، حيث يكون لديك قدر هائل من البيانات وهو في الواقع تحليل بسيط للغاية، مرة أخرى لا يتطلب الكثير من التعقيد من حيث المهارات الكمية أو حتى الخبرة في المجال. لذلك، ربما / وربما لا يكون علم بيانات. من ناحية أخرى، للقيام بأي من هذه، ستحتاج إلى مهارتين على الأقل. ستحتاج إلى الترميز ومن المحتمل أن يكون لديك نوع من المهارات الكمية أيضًا.

علم البيانات بدون البيانات الضخمة

إذن، ماذا عن علم البيانات بدون البيانات الضخمة؟ هذا هو الجانب الأيمن من هذا الشكل. حسنًا، لتحقيق ذلك، من المحتمل أنك تتحدث عن البيانات باستخدام واحد فقط من الثلاثة من البيانات الكبيرة. لذا، إما الحجم أو السرعة أو التنوع، ولكن منفردة. على سبيل المثال، بيانات علم الوراثة. لديك كمية هائلة من البيانات وهي تأتي في هيكل محدد للغاية وتميل إلى الظهور مرة واحدة. لذلك، لديك الكثير من الحجم وهو أمر صعب للغاية للعمل معه. يجب عليك استخدام علم البيانات، ولكن قد يتم اعتبارها أو لا يتم اعتبارها بيانات ضخمة.

وبالمثل، دفق بيانات المستشعر، حيث تأتي البيانات بسرعة كبيرة، لكنك لا تقوم بحفظها بالضرورة؛ أنت تنظر فقط إلى هذه النوافذ فيها. هذه سرعة كبيرة، ومن الصعب التعامل معها، وتتطلب علم البيانات، مجموعة المهارات الكاملة، ولكنها قد لا تتطلب بيانات كبيرة، في حد ذاتها. أو تقنية التعرف على الوجه، حيث يكون لديك تنوع هائل في البيانات لأنك تحصل على صور أو مقاطع فيديو متدفقة. مرة أخرى، من الصعب جدًا التعامل معها، تتطلب الكثير من البراعة والإبداع، وقد يتم اعتبارها أو لا تعتبر بيانات كبيرة، اعتمادًا على كم أنت متمسك بالتعريفات.

علم البيانات الضخمة

الآن، إذا كنت تريد الجمع بين الاثنين، فيمكننا التحدث عن علم البيانات الضخمة. في هذه الحالة، نحن ننظر هنا في المنتصف. هذا هو الموقف الذي يكون لديك فيه الحجم والسرعة والتنوع في بياناتك وبصدق، إذا كان لديك الثلاثة، فستحتاج إلى مجموعة مهارات علم البيانات الكاملة. ستحتاج إلى الترميز والإحصاءات والرياضيات، وستكون لديك خبرة في المجال. في المقام الأول بسبب التنوع الذي تتعامل معه، ولكن إذا أخذناها جميعًا معًا، يجب أن يكون لديك كل ذلك.

إذن باختصار، هذا ما حصلنا عليه: البيانات الضخمة لا تتساوي مع علم البيانات، فهي ليست متطابقة معه. الآن، هناك أرضية مشتركة، والكثير من الأشخاص الجيدين في البيانات الضخمة يجيدون علم البيانات والعكس صحيح، لكنهم مختلفون من الناحية المفاهيمية. من ناحية أخرى، هناك أرضية وسطية مشتركة لعلم البيانات والبيانات الضخمة توحد الحقلين المنفصلين.

علم البيانات والبرمجة

هناك تباين مهم آخر يمكنك إجراؤه عند محاولة فهم علم البيانات وهو مقارنته بالتشفير أو برمجة الحاسوب. الآن، هذا هو المكان الذي تحاول فيه العمل مع الآلات وتحاول التحدث إلى تلك الآلة، لجعلها تقوم بأشياء. بمعنى ما، يمكنك التفكير في الترميز على أنه مجرد إعطاء تعليمات مهمة؛ كيف تفعل شي ما. إنها تشبه إلى حد كبير الوصفة عند القيام بعملية الطهي. تحصل على نوع من إدخال المستخدم أو مدخلات أخرى، ومن ثم ربما يكون لديك منطق جملة شرطية (إذا كان/فإن) if/then، وستحصل على ناتج منها. وكمثال بسيط على الترميز، إذا كنت تقوم بالبرمجة في الإصدار 2 من Python، فاكتب أمر الطباعة Print، ثم في الاقتباسات “مرحبًا، أيها العالم!” سيضع لك بايثون عبارة “Hello, World!” على الشاشة. لذلك، أعطيت بعض التعليمات وأعطاك بعض الإخراج. برمجة بسيطة للغاية.

الآن، هناك برمجة أكثر تعقيدًا عندما تصبح البيانات أكثر تعقيدًا بعض الشيء. لذلك، على سبيل المثال، عدد الكلمات، عندما تختار كتابًا أو مجموعة كاملة من الكتب، وتقرر أن تحسب عدد الكلمات الموجودة هناك بداخلها. الآن، هذه مهمة بسيطة من الناحية المفاهيمية والخبرة في مجال الرياضيات والإحصاء ليست مطلوبة حقًا. ولكن لجعل الاستدلالات والتعميمات صحيحة في مواجهة التباين وعدم اليقين في البيانات التي تحتاجها الإحصاءات، وبالتالي، تحتاج إلى علم البيانات. قد يكون من المفيد مقارنة الاثنين من خلال النظر في أدوات كل منهما.

أدوات البرمجة وأدوات علم البيانات

على سبيل المثال، هناك أدوات للترميز أو برمجة الحاسوب العامة، وهناك أدوات خاصة بعلوم البيانات. إذن، ما لدي هنا هو قائمة من IEEE لأفضل عشر لغات برمجة لعام 2015. وتبدأ في لغة Java ولغة C ثم تذهب وصولا إلى شل. وبعضها يستخدم أيضًا في علم البيانات. على سبيل المثال، لغة برمجة Python. ويتم استخدام لغة R ولغة SQL لعلم البيانات، لكن الأنواع الأخرى ليست كبيرة في علم البيانات.

لذا، دعونا، في الواقع، نلقي نظرة على قائمة مختلفة من الأدوات الأكثر شيوعًا لعلم البيانات ونرى أن الأشياء تتحرك قليلاً. الآن، لغة R في الأعلى، ولغة SQL موجودة، ولغة Python هناك، ولكن الشيء الأكثر إثارة للاهتمام في القائمة هو أن برنامج Excel هو رقم خمسة، الذي لا يُعتبر لغة برمجة أصلاً في حد ذاته، لكنه في الواقع مهم جدًا كأداة لعلم البيانات. وهذه إحدى الطرق التي يمكننا من خلالها المقارنة والتفرقة بين برمجة الحاسوب مع علم البيانات.

باختصار، يمكننا أن نقول أن: علم البيانات ليس هو البرمجة. إنهما أشياء مختلفة. من ناحية أخرى، فإنهم يشاركون ويتشاركون بعض الممارسات على وجه التحديد عند ترميز البيانات. من ناحية أخرى، هناك أحد الفروق الكبيرة في تلك الإحصائيات، والقدرة الإحصائية هي واحدة من الفواصل الرئيسية بين البرمجة للأغراض العامة والبرمجة لعلم البيانات.

علم البيانات والإحصاء

عندما نتحدث عن علم البيانات ونحن نقارنه مع بعض المجالات، فإنه من المجالات الأخرى التي يختلط على الكثير من الناس ويعتقدون أنهم نفس الشيء هو علم البيانات والإحصاء. الآن سأخبرك أن هناك الكثير من الأشياء المشتركة، ولكن يمكننا التحدث قليلاً عن المجالات المختلفة لـكل منهما. كما ندخل في مسألة التعريف بأن علم البيانات مختلف لأننا حددناه بشكل مختلف، حتى عندما يكون هناك الكثير من القواسم المشتركة بين الاثنين. هو يساعد في إلقاء نظرة على بعض الأشياء التي تحدث في كل مجال.

دعنا نبدأ هنا عن الإحصائيات. ضع دائرة صغيرة هنا وسنضع علم البيانات. ولنستعير مصطلحًا من Steven J. Gould، يمكننا أن نطلق على هذه المصطلحات غير المتداخلة؛ Noma. لذا، فأنت تفكر فيهم على أنهم حقول منفصلة مستقلين بأنفسهم بلا شيء مشترك مع بعضهم البعض. لكن، كما تعلمون، هذا لا يبدو صحيحًا؛ وجزء من ذلك المجال هو ذلك المجال. إذا عدنا إلى مخطط فن لعلم البيانات، فإن الإحصائيات جزء منه. ذلك هو في الزاوية العلوية. حتى الآن ماذا نفعل؟ ما هي العلاقة؟ لذا، فلا يبدو منطقيًا أن نقول أن هذه مجالات منفصلة تمامًا، ربما بسبب أن علم البيانات والإحصاء يتشاركون الإجراءات، ربما يكون علم البيانات هو مجموعة فرعية أو تخصص من الإحصائيات، بل والأكثر من ذلك مثله. ولكن، إذا كان هو مجرد مجموعة فرعية أو تخصص ضمن الإحصاء، إذن سيترتب على ذلك أن جميع علماء البيانات سيكونون أولاً إحصائيين. وهذا أمر مثير للاهتمام، فهو ليس كذلك.

نجوم علم البيانات وعلاقتهم بعلم الإحصاء

لنفترض، على سبيل المثال، أننا نلقي نظرة على نجوم علم البيانات، والنجوم في هذا المجال. نذهب إلى مقال مخيف إلى حد ما؛ يُطلق عليه “أقوى 7 ​​علماء بيانات في العالم”، من Forbes.com. يمكنك الاطلاع على المقالة إذا ذهبت إلى هذا الرابط. يوجد بالفعل أكثر من سبعة أشخاص، لأنه في بعض الأحيان يقوم بترتيبهم في أزواج. دعنا نتحقق من شهاداتهم، ونرى ما هي دراستهم الأكاديمية. إذا أخذنا كل الأشخاص في هذه القائمة، لدينا خمس درجات في علوم الحاسوب، وثلاث درجات في الرياضيات، ودرجتين في الهندسة، وواحد في كل من علم الأحياء والاقتصاد والقانون وعلم أمراض النطق وواحد في الإحصاء. وهذا يخبرنا، بالطبع، أن هؤلاء الأشخاص الرئيسيين في علم البيانات لم يتم تدريبهم على هذا النحو كإحصائيين. واحد منهم فقط لديه تدريب رسمي في الإحصاء.

لذلك، هذا يقودنا إلى السؤال التالي. أين يتباعد هذان المجالان، الإحصاء وعلم البيانات؟ لأنه يبدو أنهم يجب أن يكون لديهم الكثير من القواسم المشتركة، لكن ليس لديهم الكثير في التدريب. خاصة، يمكننا إلقاء نظرة على التدريب. لا يتم تدريب معظم علماء البيانات، رسميًا، كإحصائيين. أيضًا، من الناحية العملية، أشياء مثل التعلم الآلي والبيانات الضخمة، والتي تعتبر أساسية لعلم البيانات، بشكل عام، مع معظم الإحصائيات. لذلك، لديهم مجالات منفصلة هناك

اختلاف السياق

وثم هناك قضية السياق الهامة. يميل علماء البيانات إلى العمل بشكل مختلف عن الإحصائيين. على وجه التحديد ، غالبًا ما يعمل علماء البيانات في مجال الأعمال حيث يحاولون الحصول على محركات توصية أو طرق لتطوير منتج سيجني لهم المال. لذا، ربما بدلاً من وجود مجموعة فرعية من الإحصائيات في علم البيانات، يمكننا التفكير في الأمر بشكل أكبر وكأن هذين الحقلين لهما منافذ مختلفة. كلاهما يحلل البيانات، لكنهما يقومان بأشياء مختلفة بطرق مختلفة. لذا، ربما يكون من الإنصاف القول إنهم يشاركون، وتتداخل، لديهم ويشتركون في تحليل البيانات، لكن بخلاف ذلك، فهم متفردون كلُ في مجالهم الخاص.

إذن، باختصار: ما يمكننا قوله هنا هو أن علم البيانات والإحصاء يستخدمان معًا البيانات ويقومون بتحليلها. لكن الأشخاص في كلٍ منهم ينحدرون من خلفيات مختلفة، ويميلون إلى العمل مع أهداف وسياقات مختلفة. وبهذه الطريقة، جعلت منهم أن يكونوا مجالات متميزة من الناحية المفاهيمية على الرغم من التداخل الواضح.

علم البيانات وذكاء الأعمال

وبينما نعمل على الحصول على تعريف لعلم البيانات، هناك تباين آخر أريد أن أوضحه بشكل صريح، وهذا بين علم البيانات وذكاء الأعمال، أو BI. الفكرة هنا هي أن ذكاء الأعمال هو بيانات في الحياة الواقعية؛ إنها أشياء تطبيقية للغاية. الغرض من ذكاء الأعمال هو الحصول على بيانات عن العمليات الداخلية، على المنافسين في السوق، وما إلى ذلك، واتخاذ قرارات مبررة بدلاً من مجرد الجلوس في المقهى وفعل ما يخطر ببالك. الآن، علم البيانات له علاقة بهذا، باستثناء، كما تعلمون، أنه حقًا لا يوجد ترميز أو برمجة في ذكاء الأعمال. هناك استخدام لتطبيقات موجودة بالفعل. وتميل الإحصاءات في ذكاء الأعمال إلى أن تكون بسيطة جدًا، تميل إلى أن تكون أعدادًا ونسبًا وتناسب. وهكذا، الأمر بسيط، المصباح الكهربائي مثلا أمره بسيط؛ إنه يقوم بعمله الوحيد، فلا يوجد شيء متطور للغاية هناك. حيث ينصب التركيز في ذكاء الأعمال على الخبرة في المجال وعلى المنفعة المباشرة المفيدة حقًا. إنها بسيطة وفعالة وتوفر نظرة ثاقبة.

الآن، واحدة من الأشياء الرئيسية في ذكاء الأعمال هو ما يسمى لوحات المعلومات أو لوحات معلومات البيانات. أنها تبدو مثل لوحة تحكم أو لوحة معلومات؛ إنها عبارة عن مجموعة من المخططات والجداول التي تتماشى معًا لتعطيك قيمة كبيرة ونظرة عامة سريعة على ما يجري في عملك. وعلى الرغم من أن الكثير من علماء البيانات، دعنا نقول، ربما يطورون لوحات التحكم، سأقول هذا، معظمهم مصمم بشكل جيد للغاية ويمكنك معرفة قدر كبير عن تفاعل المستخدم وإمكانية الوصول للمعلومات من لوحات المعلومات.

الفائدة المتبادلة

إذن حقًا، من أين يأتي علم البيانات بهذا؟ ما هي العلاقة بين علم البيانات وذكاء الأعمال؟ حسنًا، يمكن أن يكون علم البيانات مفيدًا لذكاء الأعمال من حيث إعداده، تحديد مصادر البيانات وإنشاء أو إعداد إطار عمل لشيء مثل لوحة التحكم أو نظام ذكاء الأعمال. أيضا، البيانات يمكن استخدام العلم لتوسيعه. يمكن استخدام علم البيانات لتجاوز الأسئلة السهلة والبيانات السهلة للحصول على الأسئلة الأكثر إفادة لك؛ حتى لو كانت تتطلب حقًا في بعض الأحيان بيانات يصعب الخوض فيها والعمل معها.

وأيضًا هناك تفاعل مثير للاهتمام هنا يسير في الاتجاه المعاكس. فممارسو علم البيانات يمكن أن يتعلموا الكثير عن التصميم من تطبيقات ذكاء الأعمال الجيدة. لذلك أنا أشجع أي شخص في علم البيانات على النظر إليهم بعناية ومعرفة ما يمكنهم تعلمه.

باختصار: ذكاء الأعمال، أو BI، موجه مباشرة نحو الهدف. ربما يساعد علم البيانات لتحضير البيانات وإعداد النموذج لذكاء الأعمال، ولكنه أيضًا يمكنه أن يقدم الكثير عن سهولة الاستخدام وإمكانية الوصول إلى ذكاء الأعمال. وهكذا، فهو دائمًا يستحق إلقاء نظرة فاحصة.

منع الأضرار في علم البيانات

إن علم البيانات لديه الكثير من الأشياء الرائعة حوله، لكن من المهم النظر في بعض القضايا الأخلاقية، وسأسمي هذا على وجه التحديد “لا ضرر ولا ضرار” في مشاريع علم البيانات الخاصة بك. ولهذا يمكننا أن نقول شكرا للرجل أبقراط الذي أعطانا فلسفة عدم الإضرار.

الخصوصية

دعنا نتحدث على وجه التحديد عن بعض القضايا الأخلاقية المهمة، باختصار شديد، تلك التي تظهر في علم البيانات، والأولى هي مسألة الخصوصية باعتبارها الأهم. تخبرك هذه البيانات كثيرًا عن الأشخاص ويجب أن تقلق بشأن السرية. إذا كانت لديك معلومات خاصة عن الأشخاص، وأسمائهم، وأرقام الضمان الاجتماعي الخاصة بهم، عناوينهم، ودرجاتهم الائتمانية، وصحتهم، وهذا خاص وسري، ولا يجب عليك مشاركة هذه المعلومات ما لم يمنحك الإذن تحديدًا. حاليًا، أحد الأسباب التي تجعل هذا يمثل تحديًا خاصًا في علم البيانات لأننا سننظر لاحقًا فيه، لم يكن الغرض من الكثير من المصادر المستخدمة في علم البيانات هو المشاركة. إذا قمت بجلب البيانات من موقع ويب أو من ملفات PDF، فأنت بحاجة إلى التأكد من أنها على ما يرام للقيام بذلك. ولكن إذا تم إنشاؤه في الأصل دون نية المشاركة، وبالتالي يتمتع بالخصوصية فهو أمر يقع على عاتق المحلل للتأكد من أنه يقوم بذلك بشكل صحيح.

الهوية والملكية

التالي، هو عدم الكشف عن الهوية. أحد الأشياء المثيرة للاهتمام التي نجدها هو أنه ليس من الصعب تحديد هوية الناس في البيانات. إذا كان لديك القليل من بيانات GPS وتعرف مكان وجود الشخص في أربع نقاط زمنية مختلفة، فإن لديك فرصة 95٪ لمعرفة من هم بالضبط. تنظر إلى أشياء مثل HIPAA، وهي تمثل قابلية نقل التأمين الصحي والمساءلة. قبل HIPAA، كان من السهل حقًا التعرف على الأشخاص من السجلات الطبية. منذ ذلك الحين، أصبح تحديد الأشخاص بشكل فريد أكثر صعوبة. هذا شيء مهم من أجل رفاهية الناس حقًا.

وبعد ذلك أيضًا، بيانات الملكية؛ إذا كنت تعمل لدى عميل معين، شركة، ويقدمون لك بياناتهم الخاصة، قد تحتوي هذه البيانات على معرفات. وقد تعرف من هم الناس، فهم لم يعودوا مجهولين بعد الآن. لذلك، عدم الكشف عن هويته قد أو قد لا يكون هناك جهود كبيرة لجعل البيانات مجهولة. لكن في الحقيقة، الشيء الأساسي هو حتى لو كنت تعرف من هم، فإنك لا تزال تحافظ على الخصوصية والسرية من البيانات.

حقوق الطبع والنشر

بعد ذلك، هناك مشكلة تتعلق بحقوق الطبع والنشر، حيث يحاول الأشخاص تأمين المعلومات. الآن، لمجرد وجود شيء ما على الويب، لا يعني ذلك أنه يُسمح لك باستخدامه. يعد استخراج البيانات من مواقع الويب طريقة شائعة جدًا ومفيدة للحصول على البيانات للمشاريع. يمكنك الحصول على البيانات من صفحات الويب، من ملفات PDF، من الصور، من الصوت، من عدد ضخم حقًا من الأشياء. ولكن، مرة أخرى، الافتراض أنه لأنه موجود على الويب، فلا يعني ذلك أنه لا بأس من استخدامه. تحتاج دائمًا إلى التحقق من حقوق النشر والتأكد من قبولها لتتمكن من الوصول إلى تلك البيانات المعينة.

أمن البيانات

التالي، وصورتنا المشؤومة للغاية، هي أمن البيانات والفكرة هنا هي أنه عندما تبذل قصارى جهدك لجمع البيانات وتنظيفها والاستعداد للتحليل، لقد قمت بإنشاء شيء ذي قيمة كبيرة لكثير من الناس وعليك أن تقلق بشأن المتسللين الذين يحاولون الدخول وسرقة البيانات، خاصة إذا كانت البيانات غير مجهولة وتحتوي على معرفات. وهكذا، هناك عبئًا إضافيًا يقع على عاتق المحلل لضمان أن البيانات آمنة بأفضل ما لديه ولا يمكن اقتحامها وسرقتها. ويمكن أن يشمل ذلك أشياء بسيطة جدًا مثل شخص يعمل في مشروعه ولكنه لم يعد كذلك، ولكنه أخذ البيانات في لمح البصر وقطع علاقته بالمشروع. عليك أن تجد طرقًا للتأكد من عدم حدوث ذلك أيضًا. هناك الكثير من الاحتمالات، إنه أمر صعب، لكنه شيء يجب أن تفكر فيه جيدًا.

احتمال التحيّز

الآن، هناك شيئان آخران يظهران من حيث الأخلاق، لكن عادة لا يتم تناولهما في هذه المحادثات. رقم واحد هو احتمال التحيز. الفكرة هنا هي أن الخوارزميات أو أن الصيغ المستخدمة في علم البيانات محايدة أو خالية من التحيز مثل القواعد والبيانات التي يحصلون عليها. وهكذا، فإن الفكرة هنا هي أنه إذا كان لديك قواعد تتناول هذا الموضوع وشيء مرتبط، على سبيل المثال، بالجنس أو العمر أو العرق أو الوضع الاقتصادي، قد تكون تبني هذه العوامل عن غير قصد. والتي، على سبيل المثال، قاعدة تحدد أنه ليس من المفترض أن يفعل البرنامج شيء عند تحقق شرط معين. قد تقوم ببناء هذه القاعدة في النظام بدون أن تكون مدركًا لذلك، ولمجرد أن يكون للخوارزمية بريق من الموضوعية، ويقرر الناس أن يثقوا بها دون أن يدركوا أنها تكرر بعض الأحكام المسبقة، كما قد يحدث ذلك في الحياة الواقعية.

الثقة المفرطة

قضية أخرى هي الثقة المفرطة. والفكرة هنا هي أن التحليلات هي تبسيطات محدودة. يجب أن تكون هذا هو بالضبط ما هي عليه. ولهذا السبب، ما زلت بحاجة إلى أشخاص في الحلقة للمساعدة في تفسير هذا وتطبيقه. المشكلة هي عندما يدير الناس خوارزمية للحصول على عدد، لنقل عشر منازل عشرية، ويقولون، “يجب أن يكون هذا صحيحًا”، ويتعاملون معه على أنه مكتوب بشكل ثابت لا يتزعزع تمامًا كالحقيقة، بينما في الواقع، إذا كانت البيانات متحيزة في الإدخال؛ أو إذا كانت الخوارزميات غير كاملة، إذا لم يكن أخذ العينات ممثلاً، فقد تواجه مشكلات هائلة وتنتقل إلى مسار أو منحدر خاطئ بثقة كبيرة في تحليلاتك. لذا، مرة أخرى، التواضع موجود عند القيام بعمل علم البيانات.

باختصار: علم البيانات لديه إمكانات هائلة، لكنه لديه أيضًا مخاطر كبيرة تنطوي عليها المشاريع. جزء من المشكلة هو تلك التحليلات التي قد لا تكون محايدة، يجب أن تنظر في كيفية ارتباط الخوارزميات بـالتفضيلات والأحكام المسبقة وتحيزات الأشخاص الذين صنعوها. وماذا يعني أنه بغض النظر عن أي شيء، فإن الحكم الجيد أمر حيوي دائمًا لجودة علم البيانات ونجاح مشروعه. هو مجال يرتبط ارتباطًا وثيقًا بأساليبه أو إجراءاته.

أساليب وإجراءات علم البيانات

في هذا القسم من مقطع الفيديو، سنقدم لمحة موجزة عن الأساليب التي تستخدم في علم البيانات. الآن، فقط كتحذير سريع، في هذا القسم يمكن أن تكون الأشياء لطيفة من الناحية الفنية ويمكن أن يتسبب ذلك في شعور بعض الناس بالفزع. لكن، هذه الدورة نظرة عامة غير فنية. التدريب العملي على الأشياء في الدورات الأخرى. ومن المهم حقًا أن نتذكر أن التكنولوجيا هي ببساطة وسيلة لممارسة علم البيانات. أو تُظهر القدرة على إيجاد معنى لبياناتك، هذا هو الهدف. التكنولوجيا تساعدك فقط في الوصول إلى هناك. وهكذا، نريد التركيز بشكل أساسي على البصيرة والأدوات والتقنية التي تعمل بها تعزيز هذا الهدف.

الآن، هناك بعض الفئات العامة التي سنتحدث عنها، مرة أخرى، مع نظرة عامة على كل من هذه. الأول هو تحديد مصادر البيانات. بمعنى كيفية الحصول على البيانات التي تدخل في علم البيانات، والمواد الخام التي تحتاجها. الثاني هو الترميز. هذا مرة أخرى هو برمجة الحاسوب التي يمكن استخدامها للحصول على البيانات ومعالجتها وتحليلها. بعد ذلك، القليل من الرياضيات وهي الرياضيات التي تقف وراء أساليب علم البيانات التي تشكل بالفعل أساسيات الإجراءات. ثم  الإحصائيات، الأساليب الإحصائية التي تستخدم بشكل متكرر لتلخيص وتحليل البيانات، على وجه الخصوص كما هو مطبق على علم البيانات. ثم هناك التعلم الآلي، ML، وهي مجموعة من طرق العثور على مجموعات في البيانات، للتنبؤ بالفئات أو الدرجات والنتائج المثيرة للاهتمام. وحتى عبر هذه الأشياء الخمسة، وخلال ذلك الوقت، فإن العروض التقديمية ليست شديدة التقنية، هم في الأساس ما زالوا ودودين.

حسنًا، هذا هو الحال. إذن، هذه هي النظرة العامة واللمحات العامة. باختصار: علينا أن نتذكر أن علم البيانات يشمل التكنولوجيا، ولكنه أعظم من التكنولوجيا، إنه أكثر من تلك الإجراءات. وفوق كل شيء، تلك التكنولوجيا على الرغم من أهميتها له، فإنها لا تزال مجرد وسيلة للتعرف على البيانات.

مشاهدة دورة تدريب علم البيانات كاملة على يوتيوب

ملاحظة: سيتم نشر بقية موضوعات الدورة في مقالات جديدة منفصلة. يمكنك مشاهدة الفيديو التالي الذي يشتمل على كل موضوعات دورة التدريب الكاملة ومدته 6 ساعات.

الفيديو الكامل لدورة تدريب علم البيانات مترجم إلى اللغة العربية

تعلم علم البيانات في 6 ساعات – دورة تدريب شاملة للمبتدئين – فيديو مترجم إلى اللغة العربية.

ترجمة: د. م. مصطفى عبيد، مركز البحوث والدراسات متعدد التخصصات.

تعلم علم البيانات في 6 ساعات – دورة تدريب شاملة للمبتدئين في علم البيانات – مترجمة إلى العربية

لمشاهدة المزيد من الدورات والفيديوهات: قناة يوتيوب مركز البحوث والدراسات متعدد التخصصات

error:
Scroll to Top