"الاساليـب المهجنـه لرفـع اداء طرق تجميـع المسـتندات"

شيرين محمد محمود موسي عين شمس الحاسبات والمعلومات نظم المعلومات الماجستير 2003

لقد أصبحت مجموعات الوثائق غير المصنفة في تزايد مستمر و أكثر انتشارا, و من الضرورة الملحة وجود طرق أوتوماتيكية لإستخراج المعرفة وسط هذه الكميات الهائلة من البيانات المخزنة فى نظم المعلومات. و من ثم يمكن استخدام الكلمات كصفات مميزة لتمثيل هذه الوثائق النصية في صورة متجهات متناثرة كثيرة الأبعاد تفوق الآلاف. إن الوسائل العملية لاكتشاف التجمعات في المتجهات مثل أساليب (k-means, Expectation-Maximization ) تتبع طريقة تكرارية و التي ثبت أنها تتأثر بشكل كبير و واضح بالمدخلات الأولية لهذه الطريقة (k and initial centroids) .

نقترح في هذه الرسالة أسلوب تصنيف يدمج بين “The Agglomerative Hierarchical Approach” و “The k-means Approach” لتكوين عدد k من التجمعات ويطوع استراتيجية لاستخرج العينات والتخفيف لتيسير الاكتشاف الهرمي للتجمعات. يطلق على هذا الأسلوب المقترح اسم “الأسلوب المهجن لاكتشاف التجمعات” أو “The Hybrid Clustering Algorithm” والذي يحدد المدخلات الأولية آليا, طبقا لدقة التصنيف المطلوبة للتجمعات المكونة. لكن طبيعة الوثائق النصية غير الهيكلية تجعل التصنيف أكثر صعوبة بعكس تصنيف البيانات الأخرى.

يمكن تطبيق هذا الأسلوب المقترح على أى مجموعة من الوثائق النصية التى تتسق فى مجال كثير الأبعاد يصلح فيه استخدام مقياس المسافات Minkowski distance functionبحيث تمثل كل وثيقة بمتجه من الأرقام الحقيقية.

تتضمن الرسالة النتائج لعدة تجارب أجريت باستخدام الأسلوب المقترح على عينة من الوثائق الخاصة بجهة ""National Science Foundation (NSF)"". قامت التجارب بدراسة تأثير بعض المتغيرات على المدخلات الأولية لطريقة التصنيف وكذا على دقة التصنيف الناتجة مقارنة بالتصنيف الحقيقي للوثائق المستخدمة. أما عند المدخلات الأولية ، فقد وجد أن استخدام مقياس المسافات ""Manhattan"" يؤدى تقريبا إلى نتائج مماثلة لتلك التي استخدم فيها مقياس المسافات

""Euclidean"". ولذلك فإننا ننصح باستخدام مقياس المسافات ""Manhattan"" الأقل تعقيدا. من حيث دقة التصنيف ، فإننا ننصح أيضا باستخدام مقياس المسافات ""Manhattan"" لان نطاق الدقة مماثل لنتائج استخدام مقياس المسافات

""Euclidean"" خاصة عند درجات التخفيف الأعلى. إلى جانب ذلك، نقدم دراسة تجريبية لتأثير استخراج عينات من الكلمات على اكتشاف التجمعات للوثائق النصية كوسيلة لتقليل ارتفاع عدد أبعاد المتجهات وذلك عن طريق عرض أسلوب استخراج عشوائي لعينات من الكلمات و قد تم تعديل الأسلوب المقترح ليشمل استخراج العينات من الكلمات. قورنت هذه النتائج مع أسلوب اكتشاف التجمعات بدون استخدام هذه العينات من حيث تحديد المدخلات الأولية و دقة التصنيف. أثبتت التجارب إننا يمكن استخدام أسلوب استخراج العينات من الكلمات مع درجات تخفيف منخفضة للحصول على دقة تصنيف أعلى مقارنة بعدم استخدام هذا الأسلوب في حالة استخدام مقياس المسافات ""Euclidean"", دقة التصنيف كانت أعلى من 75% عند عينات اكبر"

انشء في: أربعاء 2 يناير 2013 14:22

Category:

مشاركة عبر

أخر الإضافات

أخر الملخصات المضافة