ما هي منصة كاغل Kaggle
منصة كاغل Kaggle هي منصة تجمع لعلماء البيانات والممارسين في مجال تعلم الآلة، تسمح المنصة للمستخدمين بالعثور على ملفات البيانات ومشاركتها، كما تمكنهم من بناء نماذج تنبؤية باستخدام بيئة مجهزة. يتميز التجمع بأنه يمكن علماء البيانات ومهندسي تعلم الآلة من مشاركة أعمالهم والتنافس في مسابقات لحل تحديات عديدة في المجال.
يوفر كاغل بيئة مجهزة تسمح للمستخدمين بتشغيل ملفات البيانات واستدعاء المكتبات اللازمة مثل Pandas, Numpy, Scikit learn وغيرها، لذلك تعتبر المنصة بديل -أونلاين- جيد لأحد البرامج التي تتوفر مع حزمة أناكوندا Anaconda وهو الشهير جوبيتر نوت بوك Jupyter Notebook.
كيفية إنشاء ورفع نوت بوك على منصة كاغل Kaggle
بعد التسجيل في منصة كاغل، ومن القائمة الجانبية يسارًا، نضغط على Notebooks:
ثم نضغط على زر New Notebook يمينًا كما في الصورة:
ثم نضغط على زر Create في الأسفل، ولا حاجة لتغيير أيٍ من الإعدادات التي أمامنا:
ثم سيبدأ الموقع بتجهيز النوت بوك وبيئة العمل كما في الصورة، وعلينا الانتظار لثوانٍ حتى تصبح البيئة جاهزة للعمل:
وبهذا الشكل يصبح النوت بوك والبيئة جاهزين للعمل:
يمكننا إنشاء خانات cells جديدة عن طريق تمرير المؤشر أسفل أي خانة موجودة، كما في الصورة:
لتشغيل أي خانة في النوت بوك يمكننا عمل ذلك من خلال الضغط على زر التشغيل بجانب كل خانة أو الضغط على shift + enter كما نفعل في جوبيتر نوت بوك أيضًا، نلاحظ أن الخانة الأولى قد تم تشغيلها (الترقيم يسارًا يدل على ترتيب التشغيل):
سيتم حفظ هذا النوت بوك في حسابك باسم kernel24c8b9ff65 وهو الاسم الذي تراه في أعلى النوت بوك، ويمكنك الوصول له عبر صفحة Notebooks.
كيفية استعمال ملفات البيانات في كاغل Kaggle
يوجد في كاغل العديد من المسابقات التي تتوفر معها ملفات بيانات أو ملفات بيانات مستقلة قد تم رفعها على المنصة، سنرى كيف يمكننا إضافة أي ملف بيانات متوفر على المنصة داخل البيئة التي نعمل بها حتى نتمكن من الاستفادة من البيانات والعمل عليها.
سنقوم بالضغط على زر Add Data في القائمة يمينًا:
ستظهر لنا نافذة بعدة خيارات، لو كان الملف الذي نرغب بإضافته ملف مستقل في قسم البيانات في المنصة سنختار القسم الأول Dataset، أما إن كان ملف البيانات تابعًا لأحد المسابقات، فسنجده في القسم الثاني Competition Data:
لنفرض أن الملف الذي نريد إضافته تابع لأحد المسابقات فسننتقل للقسم الثاني Competition Data، ثم في خانة البحث يمينًا سنكتب اسم المسابقة أو جزءًا منه حتى تظهر لنا النتائج بهذا الشكل، يمكننا هو الضغط على زر Add حتى تضاف البيانات نسخة من البيانات لبيئة العمل:
بعد الضغط على زر Add سنجد أن مجلد البيانات قد تمت إضافته في قائمة Data يمينًا ويحوي عددًا من الملفات:
ولاستدعاء أحد الملفات للعمل عليه سنقرأ الملف بالطريقة الموضحة في الصورة، بحيث أن kaggle/input هو جزء ثابت لاستدعاء أي ملف، و /titanic هو اسم المجلد، و /train.csv هو اسم الملف:
كيفية استعمال ملفات بيانات محلية في كاغل Kaggle
ماذا لو أن ملف البيانات الذي نريد استعماله هو ملف محلي وليس متوفرًا على كاغل؟ يمكننا في هذه الحالة أن نقوم برفع الملف الخاص بنا على بيئة العمل عن طريق الخطوات القادمة.
سنقوم بالضغط على زر Upload في أعلى اليمين:
سنقوم بارفاق الملف من جهازنا في هذه الخطوة:
ثم نختار اسمًا للملف:
قد ينبهك كاغل بأن الملف الذي تريد رفعه متوفر بالفعل على المنصة، ولكني أريد استعمال هذا الملف تحديدًا لأنه يجمع بيانات التدريب والاختبار معًا على عكس الملف المتوفر في المنصة (في الحقيقة يمكنني عمل ذلك برمجيًا ولكن هذا مثال فقط)، فيمكننا في هذه الحالة تجاوز هذا التحقق عن طريق الضغط على السهم في زر skip duplicates واختيار include duplicates:
وعند رفع الملف بنجاح ستظهر لك هذه الرسالة وسيتم إضافة ملف البيانات للقائمة Data في يمين الصفحة:
هنا نهاية المقالة، تحياتنا.