بکارگیری تکنیکهای خوشهبندی و الگوریتم ژنتیک در بهینهسازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
محورهای موضوعی : آینده پژوهیمحمود البرزی 1 , محمد خان بابایی 2 , محمدابراهیم محمدپور زرندی 3
1 - استادیار و عضو هیئت علمی دانشگاه آزاد اسلامی واحد علوم و تحقیقات
2 - عضو باشگاه پژوهشگران جوان، دانشگاه آزاد اسلامی، واحد علوم و تحقیقات (مسئول مکاتبات)
3 - دانشیار دانشگاه آزاد اسلامی واحد تهران مرکز ی
کلید واژه: اعتبارسنجی, طبقه بندی, الگوریتم ژنتیک, درختان تصمیم گیری, انتخاب ویژگی, خوشه بندی,
چکیده مقاله :
درختان تصمیم گیری به عنوان یکی از تکنیک های داده کاوی کاربرد زیادی در اعتبارسنجی مشتریان بانک و شناسایی آن ها برای اعطای تسهیلات اعتباری دارد. مسئله اصلی در پیچیدگی درختان تصمیم گیری، اندازه بیش از حد، عدم انعطاف پذیری و دقت کم در طبقه بندی است. هدف از این مقاله ارائه مدل ترکیبی در بهینه سازی درختان تصمیم گیری توسط تکنیک الگوریتم ژنتیک به منظور حل مسائل ذکر شده در فوق برای اعتبارسنجی مشتریان بانک است. به نظر می رسد بتوان با انتخاب ویژگی های مناسب و ساخت درختان تصمیم گیری توسط الگوریتم ژنتیک به کاهش پیچیدگی و افزایش انعطاف پذیری درختان تصمیم گیری پرداخت. در مدل ترکیبی پیشنهادی ابتدا داده های اعتباری توسط تکنیک خوشه بندی SimpleKmeans به دو خوشه تقسیم می شوند. سپس با استفاده از الگوریتم ژنتیک، پنج الگوریتم انتخاب ویژگی مبتنی بر سه رویکرد فیلتر، Wrapper و طرح جاسازی شده بر پایه درخت تصمیم گیری ژنتیکی، به انتخاب ویژگی های اعتبارسنجی مهم در مجموعه داده می پردازند. در ادامه پنج درخت تصمیم گیری مبتنی بر الگوریتم C4.5 در هر خوشه با مجموعه ویژگی های منتخب ساخته می شود. بهترین درختان تصمیم گیری در هر خوشه مبتنی بر معیارهای بهینگی مورد نظر در این مقاله انتخاب شده و با هم ترکیب می شوند تا درخت تصمیم گیری نهایی برای اعتبارسنجی مشتریان بانک ایجاد شود. ابزار یادگیری ماشین وکا و نرم افزار GATree برای رسیدن به نتایج بکار گرفته شده است. نتایج پژوهش نشان می دهد که استفاده از مدل ترکیبی پیشنهادی در ساخت درخت تصمیم گیری منجر به افزایش دقت طبقه بندی نسبت به بسیاری از الگوریتم های مقایسه شده در این مقاله می شود؛ ولی پیچیدگی الگوریتم مدل ترکیبی پیشنهادی از برخی الگوریتم های طبقه بندی مقایسه شده در این مقاله بیشتر است.
Decision trees technique as one of the data mining techniques, is used in credit scoring ofbank customers to classify them in order to offer credit facilities. The main problem is incomplexity of decision trees, excessive size, lack of flexibility and low accuracy inclassification. The purpose of this paper is to propose a compound model in the optimization ofdecision trees by using genetic algorithm technique. It appears that genetic algorithm can chooseappropriate features and build decision trees to reduce complexity and increase flexibility indecision trees. In the proposed compound model, the credit data is initially divided into twoclusters by Simple means clustering technique. On the next step, the important credit scoringfeatures in the data set are selected using genetic algorithm and the five feature selectionalgorithm based on Filter, Wrapper and Embedded approaches. Subsequently, five decisiontrees based on C4.5 algorithm in each cluster are constructed with a set of the selected features.The best decision trees in each cluster, are selected and combined based on the desiredoptimality criteria, mentioned in this paper, to construct the final decision tree. WEKA machinelearning tool and GATree software were used to in this purpose. Results show that using theproposed compound model in building decision trees leads to increased classification accuracy,compared to other algorithms in this paper. However the algorithm complexity of the proposedcompound model is more than some of the classification algorithms compared in this paper.