إستخدام مقاييس الاهتمام للتنقيب في شبكة المعلومات العالمية
وداد حسين رياض عين شمس الحاسبات والمعلومات نظم المعلومات الماجستير 2006 113
"أصبحت شبكة المعلومات العالمية (الانترنت) أحد أهم وأسهل الوسائل المستعملة للحصول على المعلومات. كما أصبحت وسطا مهما لممارسة العمليات التجارية. ولكن كمية المعلومات المعروضة على الانترنت أصبحت تشكل عائقا يصعب عمليات البحث. كما أن التطور في استخدام الانترنت فرض الحاجة إلى وسائل متطورة لتنسيق واستخلاص المعلومات ولتحليل اسلوب التصفح للمستخدمين.
جميع ما سبق أدى إلى اقتراح استخدام أساليب التنقيب في البيانات لتحسين تجربة المستخدمين على الانترنت إلى حد ما.
وفي هذا البحث تم التركيز على التنقيب في بيانات الاستخدام المخزنة في سجلات مخدم الانترنت (Web Server Logs) . البحث موجه تحديدا إلى تحسين أداء خوارزميات التنقيب عن قواعد الارتباط في هذه البيانات. من خلال هذا البحث تم اقتراح عدة أساليب لتحسين الأداء في اتجاهين: الأول هو وقت التشغيل والثاني هو دقة النتائج المعروضة.
الأسلوب الأول المقترح لتحسين الأداء كان تقسيم قاعدة البيانات المحتوية على سجلات الاستخدام إلى أقسام أصغر. الهدف من ذلك هو تقليل عدد المجموعات التي يتم حساب نسبة التكرار (Support) لها. الخطوة الأولى لتنفيذ ذلك هي بناء مخطط لقاعدة البيانات. النقط في هذا المخطط ترمز إلى الصفحات بينما الروابط ترمز إلى ظهور الصفحات معا في زيارة واحدة لنفس المستخدم. يتم حساب نسبة التكرار للصفحات والروابط. بعد إزالة الصفحات والروابط قليلة التكرار ينقسم هذا المخطط إلى مجموعة من المخططات الأصغر وبالتالي يتم تقسيم قاعدة البيانات تبعا لذلك. تم تطبيق هذا الأسلوب على مجموعتين من البيانات: المجموعة الأولى مأخوذة من موقع (EPA) بينما الثانية من موقع (NASA). أدى التقسيم إلى تحسين وقت التشغيل بنسبة 35.1% للمجموعة الأولى و 43.45% للمجموعة الثانية. لزيادة التحسين في النتائج أضيفت مقاييس الاهتمام لتقييم قوة الروابط بالإضافة إلى نسبة التكرار. هذه الإضافة أدت إلى تحسين دقة الاسترجاع (Precision) بنسبة 31.58% للمجموعة الأولى و64.43% للمجموعة الثانية.
الأسلوب الآخر المقترح لتحسين الأداء كان محاولة التنقيب فقط في الأجزاء من قاعدة البيانات التي يتوقع أن يستخرج منها نتائج هامة. قسمت قاعدة البيانات على حسب الزيارات (sSession) المختلفة للمستخدمين. استخدمت شجرة القرار لتحديد صفات زيارات المستخدمين المستخرجة من السجلات القديمة والتي أدت بالفعل إلى نتائج هامة. استخدمت قواعد التصنيف المستخرجة من أشجار القرار لتصفية البيانات الموجودة في قواعد البيانات المراد تحليلها. تم تطبيق هذه الطريقة أيضا على مجموعتين من البيانات الأولى مأخوذة من موقع (EIP) بينما الثانية من موقع (NASA). نتائج التصنيف كانت بنسبة دقة (Accuracy) 94.21% للمجموعة الأولى و88.84% للمجموعة الثانية ونسبة حساسية (Sensitivity) 28.16% للمجموعة الأولى و76% للمجموعة الثانية. هذه الطريقة أدت إلى خفض وقت التشغيل بنسبة 63.13% للمجموعة الأولى و44.91% للمجموعة الثانية ولكنها لم تؤد إلى رفع دقة الاسترجاع إلا بنسبة 5.34% للمجموعة الأولى و3.38% للمجموعة الثانية. كانت نسبة الاسترجاع (Recall) 95.06% للمجموعة الأولى و85.96% للمجموعة الثانية."
مشاركة عبر
أخر الإضافات
أخر الملخصات المضافة