كيف يحدث التنقيب في البيانات

أحمد بكري

يستخدم التنقيب في البيانات كمية كبيرة نسبياً من القدرة الحاسوبية التي تعمل على مجموعة كبيرة من البيانات لتحديد الانتظام والتواصل بين نقاط البيانات.

وتستخدم الخوارزميات التي تستخدم تقنيات من الإحصاءات، وتعلم الآلة، والتعرف على الأنماط للبحث في قواعد البيانات الكبيرة تلقائياً. ويعرف التنقيب في البيانات أيضاً باسم اكتشاف المعرفة في قواعد البيانات اختصاراً (KDD).

مثل مصطلح الذكاء الاصطناعي، يعد استخراج البيانات مصطلحاً شاملاً يمكن تطبيقه على عدد من الأنشطة المتنوعة. وفي عالم الشركات، يستخدم استخراج البيانات في معظم الأحيان لتحديد اتجاه الاتجاهات والتنبؤ بالمستقبل.

وهي تعمل على بناء النماذج ونظم دعم القرار التي تعطي الناس المعلومات التي يمكن استخدامها. ويؤدي التنقيب في البيانات دوراً في الخط الأمامي في المعركة ضد الإرهاب. وكانت من المفترض أن تستخدم لتحديد قائد هجمات 11 سبتمبر.

تستخدم تقنيات الانحدار لإبعاد الأنماط غير ذات الصلة، وترك المعلومات المفيدة فقط. وينظر إلى مصطلح بايزي في كثير من الأحيان في هذا المجال، مشيراً إلى فئة من تقنيات الاستدلال التي تتوقع احتمال الأحداث في المستقبل من خلال الجمع بين الاحتمالات والاحتمالات السابقة على أساس الأحداث المشروطة.

يمكن القول إن تصفية الرسائل غير المرغوب فيها في البريد الإلكتروني هي شكل من أشكال استخراج البيانات، والذي يجلب تلقائياً الرسائل ذات الصلة إلى السطح من بحر الفوضى من محاولات النصب المختلفة في صندوق البريد.

وتستخدم أشجار القرارات لتصفية الجبال من البيانات. وفي شجرة القرارات، تمر جميع البيانات عبر عقدة المدخل، حيث تواجه مرشحاً يفصل البيانات في تيارات تبعاً لخصائصها.

على سبيل المثال، من المحتمل أن تتم تصفية البيانات المتعلقة بسلوك المستهلك استناداً إلى العوامل السكانية.

التنقيب في البيانات ليس في المقام الأول عن الرسوم البيانية الجذابة وتقنيات التصور، ولكنها تستخدمهم لإظهار ما وجدته من نتائج.

ومن المعروف أننا يمكن أن نمتص المزيد من المعلومات الإحصائية بصرياً أكثر من لفظياً، ويمكن أن يكون العرض بهذه الوسائل أكثر إقناعاً وفعالية عند استخدامه بشكل سليم.

مع ازدياد اعتماد حضارتنا على البيانات، ويتم توزيع أجهزة الاستشعار بشكل جماعي في بيئاتنا المحلية، سوف نكتشف عن غير قصد الأشياء التي قد تفوت علينا سابقاً.

سوف يسمح لنا التنقيب في البيانات  بتصحيح هذه الأخطاء، واكتشاف رؤى جديدة على أساس البيانات الماضية.

شارك هذا المقال