بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
محورهای موضوعی : آینده پژوهیمحمود البرزی 1 , محمد خان بابایی 2 , محمدابراهیم محمدپور زرندی 3
1 - ندارد
2 - مسئول مکاتبات
3 - ندارد
کلید واژه: اعتبارسنجی, طبقه بندی, الگوریتم ژنتیک, درختان تصمیم گیری, انتخاب ویژگی, خوشه بندی,
چکیده مقاله :
درختان تصمیم گیری به عنوان یکی از تکنیک های داده کاوی کاربرد زیادی در اعتبارسنجی مشتریان بانک وشناسایی آن ها برای اعطای تسهیلات اعتباری دارد. مسئله اصلی در پیچیدگی درختان تصمیم گیری، اندازه بیش از حد،عدم انعطاف پذیری و دقت کم در طبقه بندی است. هدف از این مقاله ارائه مدل ترکیبی در بهینه سازی درختان تصمیمگیری توسط تکنیک الگوریتم ژنتیک به منظور حل مسائل ذکر شده در فوق برای اعتبارسنجی مشتریان بانک است. بهنظر می رسد بتوان با انتخاب ویژگی های مناسب و ساخت درختان تصمیم گیری توسط الگوریتم ژنتیک به کاهشپیچیدگی و افزایش انعطاف پذیری درختان تصمیم گیری پرداخت. در مدل ترکیبی پیشنهادی ابتدا داده های اعتباریتوسط تکنیک خوشه بندیSimpleKmeansبه دو خوشه تقسیم می شوند. سپس با استفاده از الگوریتم ژنتیک، پنجالگوریتم انتخاب ویژگی مبتنی بر سه رویکرد فیلترWrapperو طرح جاسازی شده بر پایه درخت تصمیم گیری ژنتیکی،به انتخاب ویژگی های اعتبارسنجی مهم در مجموعه داده می پردازند. در ادامه پنج درخت تصمیم گیری مبتنی برلگوریتم C4.5در هر خوشه با مجموعه ویژگی های منتخب ساخته می شود. بهترین درختان تصمیم گیری در هر خوشهمبتنی بر معیارهای بهینگی مورد نظر در این مقاله انتخاب شده و با هم ترکیب می شوند تا درخت تصمیم گیری نهاییبرای اعتبارسنجی مشتریان بانک ایجاد شود. ابزار یادگیری ماشین وکا و نرم افزارGATreeبرای رسیدن به نتایج بکار گرفته شده است. نتایج پژوهش نشان می دهد که استفاده از مدل ترکیبی پیشنهادی در ساخت درخت تصمیم گیریمنجر به افزایش دقت طبقه بندی نسبت به بسیاری از الگوریتم های مقایسه شده در این مقاله می شود؛ ولی پیچیدگیالگوریتم مدل ترکیبی پیشنهادی از برخی الگوریتم های طبقه بندی مقایسه شده در این مقاله بیشتر است.
Decision trees technique as one of the data mining techniques, is used in credit scoring ofbank customers to classify them in order to offer credit facilities. The main problem is incomplexity of decision trees, excessive size, lack of flexibility and low accuracy inclassification. The purpose of this paper is to propose a compound model in the optimization ofdecision trees by using genetic algorithm technique. It appears that genetic algorithm can chooseappropriate features and build decision trees to reduce complexity and increase flexibility indecision trees. In the proposed compound model, the credit data is initially divided into twoclusters by Simple means clustering technique. On the next step, the important credit scoringfeatures in the data set are selected using genetic algorithm and the five feature selectionalgorithm based on Filter, Wrapper and Embedded approaches. Subsequently, five decisiontrees based on C4.5 algorithm in each cluster are constructed with a set of the selected features.The best decision trees in each cluster, are selected and combined based on the desiredoptimality criteria, mentioned in this paper, to construct the final decision tree. WEKA machinelearning tool and GATree software were used to in this purpose. Results show that using theproposed compound model in building decision trees leads to increased classification accuracy,compared to other algorithms in this paper. However the algorithm complexity of the proposedcompound model is more than some of the classification algorithms compared in this paper.