طريقة مهجنة من أسلوبى الجينات الوراثية و شجرة القرارات لاكتشاف المعرفة

عبير محمود محمود محمد عين شمس الحاسبات والمعلومات قسم علوم الحاسب الماجستير 2004

"يعتبر اكتشاف المعرفة حقل متعدد المجالات البحثية يشمل التبصير (Visualization ) بالبيانات والطرق الإحصائية(Statistics) و تعلم الألة(Machine Learning)  و النظم الخبيرة(Expert Systems) وتحتوى عملية اكتشاف المعرفة على ستة مراحل هى : اختيار البيانات و تنظيف البيانات و تحويل البيانات و تشفير البيانات وتعدين البيانات و أخيرا استخراج التقارير. إن عملية تعدين البيانات هى عملية اكتشاف نماذج  خفية من قواعد البيانات الضخمة. تفيد هذه النماذج فى فهم طبيعة البيانات لكى تمكن مستخدميها من التنبأ بالأحداث و اتخاذ القرارات الخاصة بها.

من ناحية اخرى يوجد كثير من الطرق أو الأساليب التى تستخدم فى عملية تعدين البيانات منها : طريقة التساؤلات(Query Tools) و الطرق الإحصائية(Statistical Techniques ) و طرق تحليل البيانات (OLAP) و طرق استخدام الحالات المشابهه(Case Based Reasoning) و طرق استخدام شجرة القرارات (Decision Trees) و طرق استخدام القواعد المترافقة(Association Rules) و طرق الشبكات العصبية(Neural Networks) و طرق استخدام أسلوب الجينات الوراثية(Genetic Algorithms). و تتم عملية تعدين البيانات بغرض : تقسيم البيانات إلى مجموعات(Clustering) أو تصنيفها(Classification) أو التنبوء بالبيانات(Regression ) أو تلخيصها(Summarization).

تمتد عملية التعدين بغرض تصنيف البيانات إلى كثير من التطبيقات مثل تشخيص الأمراض و التجارب العملية و عمليات كروت الأتمان وغيرها. و تهدف عملية تعدين البيانات بغرض تصنيفها إلى بناء نموذج يأخذ فى الاعتبار الصفات المميزه لهذه البيانات، حيث يستخدم هذا النموذج فى إيجاد قيم تصنيف للبيانات الخاصة بعملية الأختبار من قواعد البيانات بمعلومية قيم الصفات المميزه لهذة البيانات.

 يوجد كثير من خوارزمات تصنيف البيانات و التى تستخدم فى عملية تعدين البيانات. و نستطيع ان نقسم هذه الخوارزمات إلى ثلاث فرعيات اساسية  هى : خوارزمات شجرة القرارات و خوارزمات الشبكات العصبية و الخوارزمات التى تعتمد على الطرق الإحصائية .

و تعتبر طريقة شجرة القرارات هى الأكثر استخداما و شيوعا فى عملية تعدين البيانات بغرض تصنيفها و يكون استخدامها بصورة أفضل عندما تحتوى قواعد البيانات على أخطاء كما يمكن تمثيل نتائج طريقة شجرة القرارات بمجموعة من قواعد الشرط لتسهيل فهمها على المستخدم.

أيضا يعد أسلوب الجينات الوراثية و الذى يتناول البحث عن فرضية الحل المناسبة فى مجموعة من الحلول، طريقة من طرق تعدين البيانات التى تعتمد على مماثلة نظرية التطور. حيث ان هذا الأسلوب يبدأ بتكوين مجموعة من الحلول لمشكلة ما ثم يقيم كل حل منهم على حده و من هذا التقيم النسبى تتم مماثلة عمليات نظرية التطور و اهمها عملية الطفرة(Mutation) لهذه الحلول عن طريق تغيير جزء ما فيها و عملية التهجين(Crossover) بين اثنين من هذه الحلول لينتج اثنين من الحلول الجديدة ثم إعادة تقيمها لكى تنتقل إلى جيل أخر حتى يتم الحصول على تقيم يفى بالغرض لأحد الحلول.

تقدم هذه الرسالة طريقة جديدة لبناء مصنفين للبيانات يعتمدان أساسا على خوارزم شجرة القرارات C4.5 . المصنف الأول يسمى RFC4.5 ، و يستخدم خوارزم C4.5 مع طريقة RainForest التى يتم فيها التعامل مع احصائيات عن البيانات و ليس التعامل مع البيانات نفسها كما يتم استبدال لخوارزم ال Pruning الخاص بC4.5 . اما الصنف الثانى و يسمى  GARFC4.5 و هو دمج للمصنف الأول مع أسلوب الجينات الوراثية بغرض دراسة تأثير هذا الاسلوب على معدلات التصنيف. و قد تم تطبيق المصنفين على اثنين من قواعد البيانات هما : 

قاعدة البيانات الاولى : و هى خاصة بمرض الجلطة الدموية عن حجم بيانات 20 ميجا بيت و قد بينت النتائج أن المصنفين قد أعطيا معدل تصنيف أعلى من معدل استخدام خوارزم C4.5 وحده. كما اظهرت النتائج ان الفرق فى معدل التصنيف الخاصة بالمصنف RFC4.5 عن خوارزم C4.5 يرجع إلى خاصية تقليل حجم شجرة القرارات Pruning)) و التى نفذت بشكل مختلف فى هذا المصنف. اخيرا بينت النتائج أن المصنف الثانى GARFC4.5 يفضل استخدامه عندما لا تتوافر البيانات الخاصة بتدريب النظام مرة واحدة و لكن على مرات متتالية.

اما قاعدة البيانات الثانية : فهى تحتوى على بيانات لأمراض سرطان الثدى و قد استخدمت هذة القاعدة بغرض تقييم المصنفين بقاعدة بيانات لها طبيعة صفات عددية و ذلك لأن قاعدة البيانات الخاصة بمرض الجلطة الدموية لها طبيعة صفات كلامية. كما تقوم الرسالة أيضا بمقارنة نتائج تطبيق المصنفين على قاعدة البيانات الخاصة بمرض سرطان الثدى مع ثلاثة و ثلاثين خوارزم تعتمد على طرق تعليم مختلفة. و قد أظهرت النتائج أن المصنفين قد أعطيا نتائج جيدة و ذلك نتيجة لطبيعة قاعدة البيانات ذات الصفات العددية. مع ملاحظة أن الهدف من هذه المقارنة لم يكن التفريق بين هذة الخوارزمات و لكن مقارنة معدل الخطأ بين المصنفين و هذه الخوارزمات"


انشء في: سبت 24 نوفمبر 2012 07:39
Category:
مشاركة عبر