Uncategorized

استخلاص البيانات Data Scraping

ما هو استخلاص البيانات  Data Scraping؟   

هي عملية استخراج البيانات من صفحات الويب في المواقع باستخدام برامج وأدوات مبنية ومصممة بلغات البرمجة، ومن ثم حفظ هذه البيانات أو معالجتها حسب الحاجة، وبذلك نستطيع استخراج معرفة مفيدة.

ما هي أهمية  استخلاص البيانات ؟

  • المواقع  التجارية:
    • إذا كان لديك مشروع في التجارة الإلكترونية بحيث يمكنك متابعة الأسعار التي تُعرض في المواقع المُنافسة لك وبذلك يمكنك الاستفادة من ذلك في الحملات التسويقية والإعلانات.
  • المواقع الحكومية:
    • الحصول على بيانات وتقارير يمكن الاستفادة منها، مثلا هيئة الإحصاء بحيث توضح التعداد السكاني ومستوى الدخل وغيرها من الخدمات الأخرى.
  • المواقع الاقتصادية:
    • يمكن الاستفادة منها في المواقع الخاصة بأسعار الأسهم وتداولاتها ووضع تصور عن الاتجاهات للسوق المالي. 

كيف تتم عملية  استخلاص البيانات ؟

تتم بواسطة عدة طرق:

  • تقوم بنفسك بعمل الاستخلاص عن طريق بعض المكتبات الجاهزة في بايثون مثلاً  مكتبتي requests و beautfulsoup وهي من الأدوات البسيطة لاستخلاص البيانات وتوجد مكتبات أخرى أكثر تقدما وتعقيدا.  
  • نظام استخلاص آلي ( web crawlers ) يمكنك من استخلاص البيانات من المواقع المستهدفة عن طريق البحث في مواقع الويب.
  • الشركات الخارجية وفي هذه الحالة إذا كان حجم البيانات كبير يمكن تفويض المشروع لشركة خارجية.

هل عملية  استخلاص البيانات تتم بشكل قانوني ؟

هناك ما هو قانوني ومسموح به وهناك ما هو غير مسموح به، والسبب أنه لا يزال لدينا ضعف في حوكمة البيانات واستحداث الإجراءات القانونية لذلك، والمتوقع في المستقبل أن يكون اهتمام عالي  جدا لاستخدام البيانات مما يدفع إلى الاهتمام بحوكمة البيانات وإجراءاتها القانونية .

 

المصادر :

  1. إستخراج البيانات من صفحات الإنترنت بلغة البايثون 
  2. إجابة “لماذا” و “كيف” حول تجريف بيانات الويب   Data Scraping

 

بقلم أشواق الوابل
طالبة في معسكر علم البيانات وتعلم الآلة

اترك تعليق