خوارزمات حسابيه ذات كفاءه عاليه مع التطبيق علي تنقيب البيانات

سماح رفعت عبد الحي رمضان عين شمس البنات الحاسب الآلي الماجستير 2004

  "الهدف من هذه الرسالة هو التنقيب عب البيانات المخزنة في قواعد بيانات حقيقية وذلك بإستخدام خوارزمات مختلفة ذات كفاءة عاليةز تم أستخدام تقنية أشجار القرار و البرمجة الجينية لعمل تصنيف(classification)  للبيانات و التنبؤ عن معلومات لم تكن موجودة من قبل ، و من ثم استكشاف مجموعة من قوانين التصنيف. تتيح هذه القوانين أستكشاف معلومات مفيدة ذات معني. و من الممكن تطبيق هذه القوانين علي بيانات جديدة بغرض تصنيفها و استكشاف ما بها من معلومات غير ظاهرة. و لقد تم تطبيق كل من أساليب أشجار القرار و البرمجة الجينية علي قواعد بيانات حقيقية للبورصة المصرية و مرضي القلب. و تعتبر هذه الدراسة هامة إلي حد بعيد لتقييم كل من حزم برامج التنقيب في البيانات و تخطيطات قواعد البانات، هذا بالإضافة إلى أهميتها الكبيرة لمتخذى القرار.

 

الفصل الإول: يحوي هذا الفصل مراجعة علي ما سبق نشرة في مجال التنقيب عن البيانات ، كما يتضمن كيفية إتمام عملية التنقيب، وما هي الخطوات الازمة لاسكشاف معلومات مفيدة من البيانات.

 و تتمثل هذه الخطوات في:

1.   دراسة البانات التي سيتم تطبيق الخوارزم عليها دراسة شاملة

2.   استكشاف البيانات الأساسية التي سوف يتم التطبيق عليها

3.   معالجة البيانات و تقليلها

4.   اختيار المهمة المناسبة للبيانات تحت الدراسة

5.   اختيار الخوارزم المناسب للمهمة

6.   تطبيق الخوارزم علي البيانات و بدء عملية التنقيب

7.   تفسير القوانين المستكشفة الناتجة و أستخدامها في أستكشاف معلومات مفيدة من البيانات

8.   الاستفادة من المعلومات الناتجة في أتخاذ القرار

 

الفصل الثاني: تم عرض شرح مفصل عن خوارزمات أشجار القرار مثل(ID3, ID4, C4.5,CART, CHAID)) ، و ذلك من حيث مفهومها، و أساليب بنائها و كيفية حذف الأفرع الغير مرغوب فيها من تلك الأشجار. و قد تم التركيز علي النوعين(ID3, C4.5) ، حيث تم تقسيم أشجار القرار باستخدمها. تم عمل مقارنة بين هذه الطرق المختلفة و في النهاية تم عرض بعض عيوب و مميزات أشجار القرار. و لتفادي بعض هذه العيوب تم أستخدام خوارزم أخر و هو برنامج الجينات كما هو موضح في الفصل الثالث.

 

الفصل الثالث: تم عرض نبذة مختصرة عن الخوارزمات الجينية ، و كيفية إتمام التزاوج بين أفراد مجتمع البيانات لإنتاج أفراد جديدة أفضل و كيفية تطبيقها علي البيانات ، وأيضا كيفية تعديل هذه الخوارزمات إلي البرمجة الجينية. تم عرض البرمجة الجينية. مع إيضاح الفروق بينها و بين الخوارزمات الجينية ساء من ناحية البيانات المستخدمة أو النتائج.

 

الفصل الرابع: تم تطبيق أسلوب أشجار القرار  C4.5علي قواعد بيانات حقيقية و هي:

1.   قاعدة بيانات البورصة المصرية للبنك التجاري الدولي ، حيث تم تشكيل البيانات إلي شكل عددى و شكل وصفى. و الغرض من تطبيق الخوارزم علي هذه البيانات هو التنبؤ بسعر السهم في اليوم التالي من حيث الزيادة و النقصان معتمدة على سعر الأسهم فى الأيام الخمسة السابقة لهذا اليوم. تم الحصول علي أشجار قرار خاصة لكل نوع من هذه الأشكال و تم تفسيرها بقوانين يسهل تطبيقها على أية بيانات أخرى.

2.   قاعدة بيانات مرضى القلب ، حيث تم تشكيل البيانات إلى شكل عددى و شكل وصفي. و الغرض من تطبيق الخوارزم علي هذه البيانات هو التنبؤ بالأفراد المصابين بمرض القلب و من هم أصحاء. حيث تم الحصول على أشجار قرار خاصة لكل نوع من هذه الأشكال و تم ترجمتها إلي قوانين يسهل تطبيقها على أية بيانات أخرى.

 

الفصل الخامس: تم تطبيق البرمجة الجينية علي نفس البيانات التى تم الإشارة إليها في الفصل الرابع. و تم مقارنة نتائج أسلوب أشجار القرار (C4.5)  بتلك الناتجة من أسلوب البرمجة الجينية.

 

الفصل السادس: يتضمن خلاصة لما تم عمله في الرسالة مع عرض لبعض المقترحات لإجراء أبحاث متصلة بالموضوع في المستقبل.

 

الملحق أ: البيانات المستخدمة في تطبيق البورصة المصرية.

الملحق ب: البيانات المستخدمة لمرضي القلب."


انشء في: ثلاثاء 1 يناير 2013 15:52
Category:
مشاركة عبر