پیش بینی ورشکستگی شرکتها با استفاده از ترکیب مدلهای داده کاوی مبتنی بر جریمه دسته بندی نادرست
پیش بینی ورشکستگی شرکتها با استفاده از ترکیب مدلهای داده کاوی مبتنی بر جریمه دسته بندی نادرست
الموضوعات :
عطیه ترکمن 1 , امیرعباس نجفی 2
1 - گروه مهندسی مالی، دانشکده مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران
2 - گروه مهندسی مالی، دانشکده مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران
الکلمات المفتاحية: ماشین بردار پشتیبان, پیشبینی ورشکستگی, دادهکاوی, k-نزدیکترین همسایه, ضرایب جریمه,
ملخص المقالة :
یکی از ابزارهای قدرتمند در مسائل پیش بینی ورشکستگی که در دهه های اخیر مورد توجه بسیاری از سرمایه گذاران، مدیران و محققان قرارگرفته است؛ داده کاوی و به طور خاص ماشین بردار پشتیبان است. اما مطالعات نشان می دهد این روش نسبت به انتخاب پارامترها و متغیرهای ورودی از حساسیت بالایی برخوردار است. لذا هدف از تحقیق حاضر ترکیب مدل توسعه یافته ماشین بردار پشتیبان و k-نزدیکترین همسایه جهت حذف ورودی های دارای خطا و متعاقبا افزایش دقت پیش بینی ورشکستگی است. به این منظور ابتدا با استفاده از 5 نسبت مالی شامل نسبت جاری، حاشیه سود خالص، نسبت بدهی، بازده دارایی ها و بازده سرمایه مرتبط به 150 شرکت حاضر در بورس اوراق بهادار تهران در بازه 10 ساله 1389-1398و الگوریتم k-نزدیکترین همسایگی داده های آموزش پالایش شده و سپس با تکیه بر ماشین بردار پشتیبان مبتنی بر جریمه دسته بندی، جهت ساخت مدل پیش بینی به کار گرفته می شوند. پس از برآورد پارامترهای بهینه، اعتبارسنجی مدل با استفاده از داده های آزمایش صورت خواهد گرفت. در نهایت نتایج بدست آمده از مدل پیشنهادی و مدل های کلاسیک مورد مقایسه قرار خواهدگرفت. نتایج نشان می دهد با ترکیب مدل های k-نزدیکترین همسایه و ماشین بردار پشتیبان خطای کلی پیش بینی کاهش یافته و ضرایب جریمه ماشین بردار پشتیبان با سطح احتمال بالایی معنادار هستند.
_|Asghari, Zahra & Esfahanipour (2019) Introducing a model for forecasting corporate bankruptcy by integrating the particle swarm optimization algorithm with support vector machine. The fourth national conference in management, Tehran.
Altman, Edward (1968) Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The journal of finance, 23,4, 589-609.
Barboza, Kimura, & Altman (2017) Machine learning models and bankruptcy prediction. Expert Systems with Applications, 83, 405-417.
Beaver, William H (1966) Financial ratios as predictors of failure. Journal of accounting research, 71- 111.
Burges, Christopher (1998) A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2, 955–974.
Chen, Ning, & Vieira (2009) Bankruptcy Prediction based on Independent Component Analysis. In ICAART (pp. 150-155).
Deakin, Edward (1976) A discriminant analysis of predictors of business failure. Journal of Accounting Research, 167–179.
Ghazanfari, Mahdi, Rahimikia, Askari (2018) bankruptcy prediction of companies based on hybrid intelligent systems. Financial accounting and audit researches, 10, 37, 159-194.
Kim, Kang (2012) classifiers selection in ensembles using genetic algorithms for bankruptcy prediction. Expert systems with Applications,39,9308-9314.
Li, Xiaohui, Yang, Fan, Yu & Chen (2018) Discrimination of soft tissues using laser-induced breakdown spectroscopy in combination with k nearest neighbors (KNN) and support vector machine (SVM) classifiers. Optics & Laser Technology, 102, 233-239.
Liang, Ting-peng, Chandler, & Han (1990) Integrating statistical and inductive learning methods for knowledge acquisition. Expert Systems with Applications, 1, 4, 391-401.
Naserzade, Houshang (1995) Business Law. Didar publication, Tehran.
Ohlson, James A (1980) Financial ratios and the probabilistic prediction of bankruptcy. Journal of accounting research, 109-131.
Qu, Yi, Quan, Lei & Shi (2019) Review of bankruptcy prediction using machine learning and deep learning techniques. Procedia Computer Science, 162, 895-899.
Tian, Yingjie, Qi (2014) Review on: twin support vector machines. Annals of Data Science, 1, 2, 253-277.
Tomar, Divya, Agarwal (2015) Twin support vector machine: a review from 2007 to 2014. Egyptian Informatics Journal, 16, 1, 55-69
Van Gestel, Tony et al (2003) Bankruptcy prediction with least squares support vector machine classifiers, IEEE International Conference on Computational Intelligence for Financial Engineering, 1-8.
Vapnik, Vladimir N (1995) The nature of statistical learning theory. Springer science & business media, New York.
|_
پیشبینی ورشکستگی شرکتها با استفاده از ترکیب مدلهای دادهکاوی مبتنی بر جریمه دستهبندی نادرست
چکیده
یکی از ابزارهای قدرتمند در مسائل پیشبینی ورشکستگی که در دهههای اخیر مورد توجه بسیاری از سرمایهگذاران، مدیران و محققان قرارگرفته است؛ دادهکاوی و به طور خاص ماشین بردار پشتیبان است. اما مطالعات نشان میدهد این روش نسبت به انتخاب پارامترها و متغیرهای ورودی از حساسیت بالایی برخوردار است. لذا هدف از تحقیق حاضر ترکیب مدل توسعه یافته ماشین بردار پشتیبان و k-نزدیکترین همسایه جهت حذف ورودیهای دارای خطا و متعاقبا افزایش دقت پیشبینی ورشکستگی است. به این منظور ابتدا با استفاده از 5 نسبت مالی شامل نسبت جاری، حاشیه سود خالص، نسبت بدهی، بازده داراییها و بازده سرمایه مرتبط به 150 شرکت حاضر در بورس اوراق بهادار تهران در بازه 10 ساله 1389-1398و الگوریتم k-نزدیکترین همسایگی دادههای آموزش پالایش شده و سپس با تکیه بر ماشین بردار پشتیبان مبتنی بر جریمه دستهبندی، جهت ساخت مدل پیشبینی به کار گرفته میشوند. پس از برآورد پارامترهای بهینه، اعتبارسنجی مدل با استفاده از دادههای آزمایش صورت خواهد گرفت. در نهایت نتایج بدست آمده از مدل پیشنهادی و مدلهای کلاسیک مورد مقایسه قرار خواهدگرفت. نتایج نشان میدهد با ترکیب مدلهای k-نزدیکترین همسایه و ماشین بردار پشتیبان خطای کلی پیشبینی کاهش یافته و ضرایب جریمه ماشین بردار پشتیبان با سطح احتمال بالایی معنادار هستند.
واژههای کلیدی: پیشبینی ورشکستگی، دادهکاوی، ماشین بردار پشتیبان، k-نزدیکترین همسایه، ضرایب جریمه
1- مقدمه
ورشکستگی مفاهیم و معانی متعددی دارد. طبق تعریف آلتمن ورشکستگی زمانی رخ میدهد که شرکت قادر به پرداخت بدهیهای خود نیست بنابراین از ادامه فعالیتهای تجاری باز میماند. ویتاکر (1999) بحران مالی را وضعیتی در نظر میگیرد که در آن جریانهای نقدی ورودی شرکت از مجموع هزینههای بهره مربوط به بدهیهای بلندمدت کمتر است. از نقطه نظر اقتصادی، بحران مالی را میتوان به زیانده بودن شرکت تعبیر کرد که در این حالت شرکت دچار زیانهای سنگین و متوالی شده است. در واقع، در این حالت نرخ بازده داخلی شرکت کمتر از نرخ هزینه سرمایه است. حالت دیگری از بحران مالی زمانی رخ میدهد که شرکت موفق به رعایت یک یا تعداد بیشتری از بندهای مربوط به قراردادهای تسهیلات مالی دریافتی خود نمیشود که بـه این حالت نکول تکنیکی گفته میشود.
اگرچه ورشکستگی همواره بعنوان یک پدیده نامطلوب مالی مهم بوده است. از اواسط قرن بیستم، همزمان با رشد سریع تکنولوژی، تغییرات محیطی و افزایش رقابت، احتمال ورشکستگی شرکتها نیز افزایش یافت. از سوی دیگر با ظهور شرکتهای سهامی و افزایش تقاضا برای تامین مالی از منابع خارجی، نیاز به ارزیابی شرکتها و کسب اطمینان از وضعیت مالی آنها توسط سرمایهگذاران و وام دهندگان بیشتر احساس شد. بنابراین در دهههای اخیر پیشبینی ورشکستگی و توسعه مدلهای آن بعنوان موضوعی مهم و بهطور گسترده مورد توجه جامعه دانشگاهی و سرمایهگذاران قرار گرفته است.
مطالعات اولیه در حوزه پیشبینی ورشکستگی با استفاده از تکنیکهای آماری مانند تحلیل ممیزی چندگانه1 ( آلتمن، 1968)، لاجیت2 (اولسن، 1980) و پروبیت3 (زمیجسکی، 1984) انجام گرفت. سالها بعد تعداد زیادی از مطالعات نشان دادند که روشهای هوش مصنوعی و به طور خاص شبکه عصبی مصنوعی4، میتوانند در حل مسائل طبقهبندی جایگزین مناسبی برای روشهای آماری و سنتی باشند. با اینحال این تحقیقات محدودیتهایی را برای استفاده از شبکه عصبی از جمله انتخاب مدل مناسب، همگرایی مدل به بهینه محلی و عدم تعمیمدهی کارآمد گزارش کردند. به مرور ماشین بردار پشتیبان5 که یکی دیگر از مدلهای قدرتمند دادهکاوی6 است و عملکرد قابل قبولی را در حل مسائل طبقهبندی از جمله تشخیص چهره و پیشبینی ورشکستگی ارائه داده بود، جایگزین روشهای سابق از جمله شبکه عصبی شد.SVM روشی است که با پیدا کردن ابرصفحهای7 میان نمونهها سعی در حداکثر کردن فاصله میان ابرصفحه و نمونهها و درنهایت نمونهها از یکدیگر دارد. درواقع روش کار SVM معادل حل کردن مسالهای کوادراتیک است. این روش از قوانین حداقلسازی ریسک ساختاری8 بهره میگیرد و افزایش قدرت تعمیمدهی را به همراه دارد. به همین دلیل جواب حاصل از آن برای مسائل محدب، یکتا و کلی میباشد (برگس، 1998). از آنجاییکه روش ماشین بردار پشتیبان به کیفیت دادهها و نمونههای ورودی حساسیت نشان داده و نمونههای دارای خطا اثر ملموسی بر دقت مدل میگذارند، به ذهن میرسد میتوان با استفاده از روشی دیگر مانند روش ساده و در عین حال قدرتمند k-نزدیکترین همسایه9 و ترکیب آنها با یکدیگر به کارایی بیشتری دست یافت. KNN نیز مانند SVM الگوریتمی تحت نظارت است که هدف از آن دستهبندی یک عضو جدید براساس ویژگی نمونههای آموزشی میباشد. بدین صورت که نمونه جدید بر اساس اکثریت Kنمونه که نزدیکترین همسایگی را با آن داشته باشند، تقسیمبندی میشود. بنابراین در تحقیق حاضر سعی بر این بوده که علاوه بر توسعه رویکرد ماشین بردار پشتیبان در تشخیص الگوی پنهان دادهها جهت پیشبینی ورشکستگی شرکتها، مدل توسعه یافته با استفاده از مدل k-نزدیکترین همسایه بهبود داده شود. بخشهای پژوهش بدین صورت است که ابتدا پیشینه تحقیق مورد بررسی قرار میگیرد. سپس مبانی نظری و معرفی مدلهای طبقهبندی مورد استفاده و الگوریتم پیشنهادی بیان میشود. در بخش بعد نتایج تحقیق و مقایسه مدل پیشنهادی و مدلهای کلاسیک ارائه شده و در نهایت، بخش پایانی و نتیجهگیری ذکر خواهد شد.
2 - پیشینه تحقیق
1-2 پیشینه نظری
در 50 سال اخير موضوع " پيشبيني ورشكستگي شركتها" به يكي از موضوعات عمده پژوهش در ادبيات مالي تبديل شده است. بهطور كلي، مدلهاي پيشنهاد شده براي پيشبيني ورشكستگي را ميتوان به دو دسته رويكردهاي آماري و روشهاي هوش مصنوعي طبقهبندي كرد. روشهای آماری از اولین روشهای پرکاربرد در مسائل طبقهبندی بودند که غالبا فرضیات محدودکنندهای از جمله خطی و نرمال بودن و استقلال متغیرهای وروردی را به مدل تحمیل میکردند. بههمین دلیل اثربخشی روش را کاهش میدادند (دیکن، 1976). روشهای آماری که براي پيشبيني ورشكستگي استفاده ميشوند، تجزيه و تحليل تكمتغيره ساده (بيوِر ، 1966)، تجزيهوتحليل چندمتغيره (آلتمن ، 1968)، رگرسيون لجستيك (السون ،1980) و تحليل عاملي (وِست ، 1985) را شامل میشوند. اما پس از سالها مطالعات بعدی نشان داد که روشهای هوش مصنوعی نسبت به این فرضیات آسیب پذیری کمتری دارند. به عبارت دیگر روشهای هوش مصنوعی بر استخراج اطلاعات از نمونههای آموزشی تکیه میکنند، درحالیکه روشهای آماری بر بهینهسازی احتمال طبقهبندی صحیح تمرکز دارند (لیانگ و همکاران، 1990). شبکه عصبی، درخت تصمیم10، ماشین بردار پشتیبان و k-نزدیکترین همسایه از مهمترین روشهای یادگیری ماشین بودند که در طبقهبندی جایگزین مدلهای آماری شدند. و در مسائل مالی از جمله پیشبینی ورشکستگی به صورت گسترده مورد مطالعه و مقایسه با روشهای آماری قرار گرفتند (کارالامبوس و همکاران، 2000؛ آتیا، 2001؛ شی و همکاران، 2009؛ باربزا، 2017؛ مای و همکاران، 2018، پتاک، 2021). بنابراین همزمان با نوآوری ایجاد شده در مدلهای پیشبینی ورشکستگی و از زمانی که وپینگ ماشین بردار پشتیبان را ارائه داد، این روش مورد توجه و پایه بسیاری از تحقیقات قرار گرفت. اساس کار ماشین بردار پشتیبان نظریه یادگیری آماری11 و حداقل کردن ریسک ساختاری است، و برخلاف سایر روشهای هوش مصنوعی سعی در حداقل کردن خطای تعمیمپذیری دارد. طی تحقیقات انجام شده برخی مزایای SVM نسبت به سایر روشهای یادگیری ماشین بدین ترتیب ذکر شده است: (الف) با مجموعه دادههای بزرگ سازگار است. (ب) برخلاف روشهای سنتی یادگیری ماشین، SVM به دنبال حداقل کردن ریسک ساختاری است. (ج) مبنای این روش مساله بهینه سازی کوادراتیک و محدبی است که بر خلاف سایر روشها به بهینه کلی دست مییابد. (د) SVM برای حل مسائل غیرخطی از توابع کرنل استفاده میکند، از این رو تعمیمپذیری و حل دادهها با ابعاد بزرگ مانند عکس و متن را تضمین مینماید. (ه) مدل یادگیرنده آن تنها با بردارهای پشتیبان ساخته میشود نه تمام نمونهها. به همین دلیل مدلی ساده، سازگار و در عین حال قوی میباشد (تیان و کی، 2014؛ تومار و آگاروال، 2015).
2-2 پیشینه تجربی
همانگونه که پیشتر ذکر شد، تاكنون مطالعات بسیاری در خصوص پيشبيني درماندگي مالي صورت گرفته است. اگرچه شاید بتوان ادعا کرد قديميترين پژوهش در این حوزه مربوط به استفاده از نسبت جاری جهت ارزيابي وضعيت اعتباري در سال 1870 بوده است. اما تحقیق بیور (1966) که همراه با یک نمونه از 158 شرکت انجام شد و نشان داد نسبتهای مالی میتوانند بهترین معیار سلامت مالی شرکت باشند، پایهگذار مطالعه در مسائل پیشبینی ورشکستگی محسوب میشود. درواقع تحقیق او نشان میداد نسبتهای مالی در شرکتهای سالم و ورشکسته متفاوت است. در اين تحقيق، بيور 30 نسبت مالي كه تصور ميكرد بهترين معیار براي سنجش سلامت مالي يك شركت هستند را انتخاب كرد. سپس اين نسبتها را به شش گروه تقسيم كرد. اين شش گروه عبارت بودند از : نسبتهاي مربوط به جريان نقدي، بدهي به كل داراييها، داراييهاي نقدشونده به كل داراييها، داراييهاي نقدشونده به بدهيهاي جاري، فعاليت (گردش) و سود خالص. آلتمن (1968) با استفاده از 5 نسبت مالی در حالیکه نمونههای ورودی را بر اساس اندازه و صنعت به چند دسته تقسیم کرده بود، مدلی را بر مبنای MDA ارائه داد که به مدل z-score معروف است. و ادعا کرد این مدل میتواند در تخصیص وامهای بانکی و ارزیابی مشخصات سرمایهگذاری استفاده شود. مدل او میتوانست یک سال قبل از ورشکستگی این رویداد را با دقت 96 درصد پیشبینی کند. اهلسون (1980) نیز مدلي را با استفاده از تكنيك لاجيت توسعه داد. وي در اين پژوهش از 105 شركت ورشكسته و 205 شركت غير ورشكسته بين سالهاي 1970 تا 1976 استفاده كرد و نه نسبت مالي را بعنوان متغير مستقل بكار برد؛ از اين نه نسبت مالي، پنج تاي آنها در مطالعات قبلي نيز استفاده شده بودند (چن، 2009) .شاه و مرتزا (2000) مدلي را با استفاده از شبکه عصبی مصنوعی برای پیش بینی ورشکستگی ارائه دادند. در اين مطالعه از اطلاعات 60 شركت ورشكسته و 54 شركت غير ورشكسته بين سالهای ۱۹۹۲ تا ۱۹۹۴ استفاده شده و دقت پيش بيني مدل مورد استفاده 73 درصد ثبت شده است. سالها بعد نیز بهدلیل عملکرد قابل قبول شبکه عصبی بسیاری از مطالعات و تحقیقات بر اساس این روش انجام میگرفت. اما در سال 2003 زمانی که ماشین بردار پشتیبان برای نخستین بار توسط هاردل و همکارانش در پیشبینی ورشکستگی مورد استفاده قرار گرفت و با روشهای سابق از جمله ANN و MDA مقایسه شد، با کسب 70درصد دقت و برتری نسبت به سایر روشها توجه محققان را جلب کرده و بعنوان روشی پیشرو در حوزههای مختلف از جمله تشخیص چهره، شناسایی دستخط و متنکاوی بطور گسترده مورد مطالعه قرار گرفت؛ آنها مجددا ثابت کردند SVM در مقایسه با مدلهای آماری نیز کارایی بهتری دارد (ون و همکاران، 2003) . چن در سال 2011 طی تحقیقی تجربی شامل33 نسبت مالی و 8 نسبت غیرمالی و یکی از شاخصهای کلان اقتصادی نشان داد نسبتهای مالی در تشخیص شرکتهای ورشکسته از کارایی بالاتری برخوردارند. پس از آن کیم و کانگ با انتخاب 1200 شرکت و بهکارگیری 7 نسبت مالی ( درآمد به کل دارایی، سود ناخالص به هزینه بهره، سود انباشته به کل دارایی، بازده نقدی، کل بدهی به کل دارایی، موجودی کالا به فروش و موجودی کالا به کل دارایی) نشان دادند ماشین بردار پشتیبان با کسب دقت 45/72 درصد در مقایسه با سایر الگوریتمها از جمله الگوریتم ژنتیک قویتر ظاهر شده و خطای پیشبینی را به میزان قابل توجهی کاهش میدهد (کیم و کانگ، 2012). ژو (2013) در تحقیق خود با بکارگیری 7 روش نمونهبرداری و 5 مدل پیشبینی و با استفاده از دو دیتابیس واقعی و نامتوازن، تاثیر روشهای نمونهبرداری بر عملکرد مدلهای استفاده شده را بررسی کرد. او ثابت کرد علاوه بر اینکه تاثیر روشهای نمونهبرداری به تعداد شرکتهای ورشکسته وابسته است، به عنوان مثال برای مسائل با تعداد نمونه کم روش بیشنمونهبرداری مصنوعی کلاس اقلیت بهینه است. از میان 5 روش متفاوت پیشبینی، ماشین بردار پشتیبان بهترین کارایی را دارد. در تحقیق دیگری نیز اثر عدم توازن دادههای مورد مطالعه بررسی شد. طبق یافتههای تحقیق، اگر نمونههای ورشکسته کمتر از 20 درصد دادههای آموزش را تشکیل دهند، توانایی پیشبینی به میزان قابل توجهی کاهش مییابد. بنابراین برای حل این مشکل روشی ترکیبی مبتنی بر کمنمونهگیری12 و بیشنمونهگیری13 پیشنهاد گردید. نتایج نشان میداد SVM تنها روشی است که کمترین میزان حساسیت را نسبت به دادههای نامتوزان داراست (سورین، 2018). کیو نیز در مقایسهای میان ماشین بردار پشتیبان و شبکه عصبی بیان کرد که استفاده از فضای ویژگی، SVM را قادر میسازد تا با استفاده از نمونههای آموزشیهای کمتر و به طور کاراتری به جواب بهینه دست یابد (کیو و همکاران، 2019). در برخی مطالعات دیگر نیز ماشین بردار پشتیبان با سایر روشها مقایسه شده و نتایج تمامی آنها حاکی از برتری SVM نسبت به سایر روشها بوده است (مین و همکارانش، 2006؛ دینگ و همکاران، 2008؛ چادهوری و همکاران، 2011؛ وانگ و ما ، 2012؛ لی و همکاران، 2018؛ آلاکا و همکاران، 2018).
در ایران نیز از سالها قبل پیشبینی ورشکستگی با استفاده از روشهای گوناگون از جمله ماشین بردار پشتیبان مورد بررسی قرار گرفته است. راعی و فلاحپور در سال 1387 از این روش به همراه یکی از پرکاربردترین مدلهای آماری، یعنی رگرسیون لجستیک14، جهت پیشبینی درماندگی مالی شرکتهای پذیرفته شده در بورس و اوراق بهادار تهران بهره گرفتند. یافتههای تحقیق حاکی از آن بود که نه تنها SVM نسبت به رگرسیون خطی15 از دقت كلي بهتري برخوردار است، بلكه توانايي بالاتري نيز در تعميمپذيري دارد. قدرتی و معنوی مقدم نیز به مقایسه مجموعه روشهای آماری و دو روش هوشمند ژنتیک فرج زاده و ژنتیک مک کی در بورس اوراق بهادار تهران طی سالهای 1382 تا 1389 پرداختند. در تحقیق آنها برای تفکیک شرکتهای سالم و دارای بحران مالی از ماده 141 قانون تجارت بهره گرفته شده بود. نتایج نشان میداد الگوی پیشبینی بحران مالی زمیسکی16، اسپرینگیت17، سی ای اسکور، ژنتیک فرج زاده و ژنتیک مککی18 توانایی پیشبینی تداوم فعالیت شرکتهای پذیرفته شده در بورس اوراق بهادار تهران را دارند. همچنین مدلهایی که بر پایه الگوریتم ژنتیک طراحی شدهاند نسبت به روش آماری دارای دقت بیشتری میباشند. در این تحقیق دقت کلی 91.7 درصد برای الگوریتم ژنتیک فرج زاده و 91.65 درصدی برای الگوریتم ژنتیک مککی گزارش شده است. مدلهای آماری زمیسکی، اسپرینگیت و سی ای اسکور نیز همگی دارای توان پیشبینی 90 درصد بودند (غضنفری و همکاران، 1397). مرادی و همکارانش (1391) دو روش ماشین بردار پشتیبان و تحلیل ممیزی چندگانه را در شرکتهای بورس اوراق بهادار تهران و با در نظر گرفتن ۸8 متغیر ورودی مورد مقایسه قرار دادند. و نتایج نشان از عدم برتری آماری مدلها نسبت به یکدیگر داشت. اصغری و اصفهانیپور در مطالعهای که اخیرا صورت گرفته است، مدل ترکیبی الگوریتم بهینهسازی ازدحام ذرات و ماشین بردار پشتیبان جهت پیشبینی ورشکستگی شرکتها را ارائه دادهاند. هدف اصلی آنها ارائه یک مدل پیشبینی کننده با عملکرد بالا و مقایسه نتایج آن با سایر مدلهای رایج بوده، و به همین منظور از الگوریتم بهینهسازی ذرات به عنوان روش انتخاب ویژگی در ترکیب با ماشین بردار پشتیبان به عنوان الگوریتم طبقهبندی کننده استفاده کردهاند. نتایج نشان میدهد مدل پیشنهادی پژوهش در پیشبینی ورشکستگی نسبت به روش پرسپترون چند لایه از عملکرد بهتری برخوردار است (اصغری و اصفهانیپور، 1398). همانطور که مشاهده میشود، تمامی مطالعات داخلی مبتنی بر استفاده از دادهکاوی در پیشبینی ورشکستگی بر دادههای حاصل از بورس اوراق بهادار متمرکز بودهاند. بررسی مطالعات خارجی در این حوزه نیز نشاندهنده استفاده از نسبتهای مالی شرکتها و دادههای بورس و اوراق بهادار کشورهای مختلف به عنوان ورودی مدلهای پیشبینی میباشد. که دلیل آن را میتوان عدم امکان دسترسی به پایگاه دادههای غنیتر دانست. لذا باتوجه به عدم تغییر دادههای ورودی جهت پیشبینی ورشکستگی، سوالاتی مطرح میگردد از جمله اینکه آیا میتوان با توسعه روش کارایی مثل ماشین بردار پشتیبان و لحاظ جریمه برای نتایج اشتباه به دقت بیشتری در امر پیشبینی دست یافت؟ آیا استفاده از یک روش دادهکاوی دیگر در نقش پالایشکننده ویژگیها به عنوان متغیرهای ورودی اثری در دقت مدل دارد؟
3- روش شناسی پژوهش
ماشین بردار پشتیبان که در حالت کلی برای دستهبندی دادهها استفاده میشود نسبت به دادههای آموزشی حساسیت قابل توجهی دارد. از این رو در این تحقیق به منظور حذف اثر دادههای دارای خطا و افزایش دقت پیشبینی از مدلی پیشنهادی حاصل از ترکیب روش نزدیکترین همسایگی و ماشین بردار پشتیبان استفاده شده است. بدین صورت که ابتدا بوسیلهی دادههای آموزشی و با بهرهگیری از روش نزدیکترین همسایگی مدلی جهت پیشبینی ورشکستگی شرکتها ساخته شده و نتیجه با دادههای واقعی مقایسه میگردد. دادههایی که توسط مدل به اشتباه برچسبگذاری شدهاند حذف شده و سایر دادهها بهعنوان ورودی مدل ماشین بردار پشتیبان در نظر گرفته میشوند. در ادامه و با در نظر گرفتن ضریب جریمه برای دسته بندی نادرست کلاسهای مختلف، کارایی ماشین بردار پشتیبان در پیشبینی وضعیت شرکتها با استفاده از دادههای آزمایش مورد سنجش قرار گرفته و با مدلهای کلاسیک مقایسه میگردد.
1-3 الگوریتمهای هر مرحله
1-1-3 روش k-نزدیکترین همسایه
روش k-نزدیکترین همسایه، به عنوان یک رویکرد طبقهبندی ناپارامتریک، عليرغم سادگي توانسته است نتایج قابل قبولی را در حل مسائل دستهبندی نشان دهد. در این روش اگر نقطهی فرضی x0 و n نقطه آموزشی وجود داشته باشد، الگوریتم تمامی xn هایی که در نزدیکترین فاصله به x0 باشند را پیدا کرده و براساس رایگیری اکثریت درمیان k همسایه، x0 را دستهبندی میکند. درواقع در اين روش به هر نمونه دستهبندي نشده كلاسي اختصاص داده مي شود كه مشتمل بر k عدد از نزديكترين همسايههاي آن باشد. به همين دلیل است كه اين روش دادهکاوی، k-نزدیکترین همسایه نامیده میشود. شکل 1 روند تصمیمگیری روش مذکور با مقدار3k= برای مجموعهای از نمونهها که در دو دسته تقسیمبندی شدهاند را نشان میدهد.
شکل1 19- روش نزدیکترین همسایگی برای k=3
مهمترین فاکتور در این الگوریتم که نقش مهمی در میزان دقت و موفقیت آن دارد، تابع فاصله است. در پژوهش پیش رو معیار فاصله ( D) براساس فاصله اقلیدسی در نظر گرفته شده است.
(1)
فاکتور مهم دیگر انتخاب k یعنی تعداد نمونههای همسایه معیار جهت دستهبندی نمونه جدید است. اگر k خیلی بزرگ باشد، کلاسهایی که تعداد نمونههای آنها زیاد است کلاسها با تعداد نمونههای کم را در خود جای داده و نتایج را دچار انحراف مینمایند. و اگر خیلی کوچک باشد، فرآیند آموزش با مشکل مواجه خواهد شد. اما در حالت کلی مقادیر بزرگتر k نسبت به دادههای دارای خطا ایمنترند.
2-1-3 روش ماشین بردار پشتیبان
ماشین بردار پشتیبان یکی از روشهای یادگیری ماشینی با نظارت است که در سال 1995 توسط وپنیک20 و همکارانش ارائه گردید. این روش در واقع یک طبقه بندیکننده دودویی21 است که سعی دارد میان دادههای دو کلاس ابرصفحهای ایجاد نماید؛ بهطوریکه حاشیه میان دادههای هر کلاس و ابرصفحه حداکثر گردد. دادههایی که در نزدیکترین فاصله نسبت به ابر صفحه قرار دارند و بردار پشتیبان نامیده میشوند، برای محاسبه این فاصله بکار میروند (وپینک 1995). مهمترین ویژگی ماشین بردار پشتیبان که آن را از سایر روشهای دادهکاوی متمایز میکند قدرت تعمیمدهی و رسیدن به نقطه بهینه کلی در مقابل نقطه بهینه محلی است. به منظور درک بهتر مطلب، در شکل 2 تصویری از یک مجموعه داده متعلق به دو کلاس نشان داده شده که ماشین بردار پشتیبان بهترین ابرصفحه را برای جداسازی آن ها انتخاب کرده است.
شکل2- ساختار مدل طبقهبندی ماشین بردار پشتیبان
مدل کلاسیک ماشین بردار پشتیبان بهصورت زیر میباشد :
(2)
و بهترتیب تعداد نمونهها و ویژگیهای مساله هستند. بردار نرمال و انحراف از ابر صفحه جداکننده است. نیز برچسب امین نمونه را نشان میدهد. همچنین و بهترتیب معرف پارامتر جریمه و متغیر کمبود مدل هستند. طبق برخی تحقیقات انجام شده، در بسیاری از مجموعه دادهها خروجی ماشین بردار پشتیبان نسبت به سایر روشها بهینهتر است. با اینحال ممکن است دادهها و مسائلی وجود داشته باشند که ماشین بردار کلاسیک برای آنها مناسب نیست. از این رو بهمنظور افزایش دقت مدل از تابع کرنل استفاده میشود. اضافه کردن تابع کرنل به مدل اصلی f دادهها را از فضای به فضای c که فضای ویژگی22 نامیده میشود منتقل میکند. ترکیب تابع کرنل و مدل کلاسیک، مدل غیرخطی نامیده میشود و به صورت زیر تعریف میگردد :
(3)
تابع کرنل استفاده شده در پژوهش حاضر نیز تابع پایه شعاعی23 و به صورت زیر است :
(4)
در بسیاری از مسائل حساسیت پیشبینی و برچسبگذاری اشتباه برای کلاسهای متفاوت یکسان نیست. بهطور مثال دستهبندی شرکتی که ورشکسته است بهعنوان شرکت سالم به مراتب تبعات بیشتر و سنگینتری در مقایسه با دستهبندی نادرست شرکتی سالم دارد. بنابراین در پژوهش حاضر سعی شده است با توسعه مدل کلاسیک ماشین بردار پشتیبان، جریمههای متفاوتی برای دستهبندی غلط مدل در نظر گرفته شود. مدل پیشنهادی بدین صورت میباشد :
(5)
و بهترتیب جریمه دستهبندی غلط کلاس اول ( شرکتهای سالم) و جریمه دستهبندی غلط کلاس دوم (شرکتهای ورشکسته) میباشند. سایر پارامترهای تاثیرگذار بر عملکرد ماشین بردار پشتیبان، پارامتر تعیین کننده بردارهای پشتیبان و پارامتر تابع کرنل میباشند که مشابه با پارامترهای مدل کلاسیک بوده و با نمادهای C و نمایش داده میشوند.
2-3 دادهها
1-2-3 معیار تعیین وضعیت ورشکستگی شرکتها
معیار مورد استفاده به منظور تعیین وضعیت ورشکستگی یک شرکت مشخص، ماده 141 قانون تجارت میباشد. بر اساس این ماده قانون تجارت ایران شرکتی به عنوان ورشکسته در نظرگرفته میشود که بر اساس زیانهای وارده، حداقل نیمی از سرمایه خود را از دست داده باشد. در شرایط فوق طبق قانون ذکر شده هیئت مدیره مکلف است بلافاصله طی مجمع عمومی فوقالعاده، صاحبان سهام کسب و کار را دعوت کرده تا موضوع انحلال یا بقای شرکت به رأی گذاشته شود. در صورتیکه مجموع شرکت به انحلال رأی مثبت ندهد در همان جلسه و با رعایت مقررات ماده 6 این قانون، درمورد افزایش و یا کاهش سرمایه تصمیم گرفته میشود (ناصرزاده، 1374، 19).
2-2-3 پیشپردازش
با توجه به برابر نبودن تعداد شرکتهای سالم و ورشکسته (به طور معمول تعداد شرکتهای ورشکسته به صورت معناداری از تعداد شرکت های سالم کمتر میباشد)، نیاز است به تعداد شرکتهای ورشکسته از میان شرکتهای سالم، نمونههایی انتخاب شوند. در صورت ورود دادهها بدون بهرهگیری از فرآیند بالانس دادهها، سیستم طراحی شده گروهی را با دقت بالا و گروه مقابل را به دلیل پایین بودن تعداد نمونههای ورودی با دقت پایینتری مورد تشخیص قرار خواهد داد. از طرفی الگوریتمهایی مانند شبکه عصبی، ماشین بردار پشتیبان و بسیاری از الگوریتمهای طبقهبندی جهت عملکرد مطلوب به دادههای ورودی نرمال شده نیاز دارند؛ بنابراین تمامی دادههای ورودی همگن و نرمال شده و سپس مورد استفاده قرار گرفتند.
3-2-3 جامعه مورد بررسی و متغیرهای ورودی
به منظور حذف اثر همهگیری ویروس کرونا بر کسب و کارها، جامعه مورد مطالعه در این پژوهش، شامل شرکتهای پذیرفته شده در بورس اوراق بهادار تهران24 است که تا پیش از سال 1399 صورت مالی خود را به بورس ارائه دادهاند، بهطوریکه دارای شرایط زیر باشند :
1. صورت مالی شرکت در دسترس باشد.
2. سال مالی شرکت منتهی به پایان اسفند ماه هر سال باشد.
از میان شرکتهای دارای شرایط، 75 شرکت ورشکسته و 75 شرکت سالم بهصورت تصادفی انتخاب شدند. همچنین نمونههای موجود به دودسته دادههای آموزشی برای برآورد پارامترهای بهینه و ساخت مدل و آزمایشی به منظور اعتبار سنجی تقسیم میشوند. متغیرهای پژوهش نیز در دو دستهی مستقل و وابسته تعریف میگردند. پس از مطالعه و بررسي پژوهشهاي مشابه كه در محيط اقتصادي ايران انجام شدهاند، 5 نسبت مالی شامل نسبت جاری، حاشیه سود خالص، نسبت بدهی، بازده داراییها و بازه سرمایه بهعنوان متغیرهای مستقل و پیشبینیکننده شناسایی و انتخاب شدند. متغیر وابسته نیز شرکتهای سالم و ورشکسته هستند که بهصورت (1-) برای شرکتهای ورشکسته و (1) برای شرکتهای سالم برچسبگذاری شدهاند. تمامی اطلاعات مالی شرکتها از صورتهای مالی آنها و با استفاده از نرم افزار رهآورد نوین گردآوری شدهاند. ابزار مورد استفاده جهت پالایش دادهها و پیشبینی نیز نرمافزار متلب میباشد.
4- نتایج
همانطور که پیشتر ذکر شد، مقدار پارامتر k برای نزدیکترین همسایگی و پارامترهای C و برای SVM در دقت و عملکرد این روشها تاثیر بسزایی دارند؛ از این رو الگوریتمهای به کار رفته با مقادیر مختلف پارامترها و به دفعات مورد تست قرار گرفته و مدل با کمترین مقدار خطای اعتبار سنجی متقاطع25 به عنوان مدل بهینه انتخاب شده است، نتایج بدین صورت است :
شکل 3- میانگین خطای مدل KNN به ازای مقادیر مختلف k
شکل4- نمای شماتیک میزان خطای مدل KNN به ازای k ها و تکرارهای متفاوت
طبق شکلهای 3 و 4 بالا با اجرای مدل KNN و در نظر گرفتن مقادیر 2 تا 25 برای پارامتر k در 10 تکرار، بهترین مدل دارای 15k= میباشد. جدول 1 نیز نشاندهنده میزان خطا به ازای 6 مقدار مختلف و 9 مقدار متفاوت C است که با استفاده از روش خطای اعتبار سنجی متقاطع (30k-fold =) بدست آمده است.
جدول1- خطای اعتبار سنجی به ازای مقادیر مختلف C و
| C =0.001 | C =0.01 | C =0.1 | C =1 | C =10 | C =100 | C =1000 | C =10000 | C =100000 |
=0.1 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.82 | 0.82 | 0.82 |
=1 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.000142 | 0.000107 | 0.0000356 | 0.0713 |
=10 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.000535 | 0.000107 | 0.000107 |
=100 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.00107 | 0.000535 |
=1000 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 |
=10000 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 | 0.0012 |
پارامتر | مقدار | ||
| 1 | ||
| 9.35 |
نام مدل | دقت کلی | میزان خطای جانشینی مجدد26 | میزان خطای اعتبار سنجی متقاطع27 |
KNN | %63 | %38 | %۴۱ |
SVM | %91 | %11 | %۴۰ |
KNN-SVM | %94.2 | %10 | %۲۰ |
KNN-CSSVM | %98.6 | %0 | %7 |
اعداد ذکر شده در ستون اول درصد پیشبینی صحیح را نشان میدهند. مجددا یادآوری میگردد تعداد شرکتهای هر گروه 75 شرکت است. بنابراین با توجه به کوچک بودن جامعه مورد بررسی دقت پایین در مدل نزدیکترین k-همسایه قابل تامل است. همانطور که جدول 3 نشان میدهد، اگرچه مدل کلاسیک SVM و مدل ترکیبی KNN-SVM نیز از دقت خوبی جهت پیشبینی برخوردارند اما مدل پیشنهادی بالاترین دقت را در پیش بینی ورشکستگی با استفاده از نسبتهای مالی در نظر گرفته شده داشته است. جهت تایید قدرت و اعتبار مدل بدست آمده خطای هر مدل به دوروش مجزا محاسبه شد و مطابق با انتظارات، KNN-CSSVM با خطایی نزدیک به صفر در هر دو روش کمترین میزان خطا را ثبت نمود.
برای بررسی فرضیه پژوهشی، مبنی بر عملکرد بهتر مدل پیشنهادی KNN-CSSVM در مقایسه با مدل SVM کلاسیک، از آزمون t مستقل استفاده شده است. با استفاده از این آزمون، عملکرد بهتر مدل پیشنهادی از نظر آماری بررسی میشود. نتایج نشان میدهد میانگین دقت در مدل SVM ساده 92 درصد و انحراف معیار آن برابر با 6.4 است، در حالیکه این مقادیر برای مدل پیشنهادی به ترتیب 97.3 درصد و 5.3 میباشد. و میتوان ادعا کرد دقت کلی مدل KNN-CSSVM، با سطح اطمینان 95 درصد از مدل SVM کلاسیک بیشتر است. نتایج آزمون بدین صورت است:
جدول 4- نتایج آزمون t در مساله مورد بررسی
الگوریتم | KNN-CSSVM | SVM |
میانگین دقت کلی | 97.3 | 92 |
انحراف معیار | 5.3 | 6.4 |
آماره t | 2.36 | |
p-value | 0.7 |
5- نتیجهگیری
پيشبيني درماندگي مالي و ورشكستگي شركتها يكي از پژوهشهاي با اهميت در حوزه مالي است. معمولاً بانكها و موسسات رتبهبندي اعتباري از اين مدلها براي اتخاذ تصميمات اعتباري و اختصاص رتبه استفاده مينمايند. از طرفی با پيشبيني وضعیت شرکت درآینده و پس از آن ريشهيابي و حل مسأله، ميتوان به نتايج بسيار رضايتبخشي در حوزه مدیریتی دست يافت. در این پژوهش، پيشبيني ورشکستگی شركتها با استفاده از مدلهاي KNN، SVM و مدلهای توسعه یافته انجام گرفت. و نتايج نشان داد مدل پیشنهادی KNN-CSSVM میتواند در امر پیشبینی جانشین مناسبی برای مدل ساده SVM باشد. درواقع، یافتههای تحقیق حاکی از این است که دقت کلی و قدرت تعمیمپذیری KNN-CSSVM از مدلهای SVM و KNN-SVM به طور معناداری بیشتر است. و با اطمینان بیشتری میتوان از آن برای پیشبینی یا رتبهبندی اعتباری شرکتها در بازه زمانی یک سال قبل از ورشکستگی استفاده نمود. همچنين، نتايج حاصل از اين پژوهش بار دیگر ثابت میکند كه نسبتهاي مالي ميتوانند پيشبينيكننده مناسبی براي ورشکستگی شركتها باشند. در مجموع میتوان ادعا نمود كه با استفاده از نتايج اين پژوهش بعنوان اولين گام، مي توان از مبتلا شدن شركتها به درماندگي مالي و ورشكستگي و پيامدهاي آن بطورمطلوبي جلوگيري كرد. البته در صورتيكه پس از پيشبيني به ريشهيابي مساله و رديابي علل پرداخته شود. همچنین قابل ذکر است صنعت بانكداري ايران به دلیل عملكرد سالهای اخير، تحريمهاي بانكي و بيتوجهيهاي مديريتي، فاصله قابل توجهي با بانكداري جهانی دارد و اين موضوع اخيرا مورد توجه مسوولان بانك مركزي و سيستم بانكي جهان قرار گرفته است؛ از این رو، بانكها و ساير موسسات مالي ميتوانند براي اتخاذ تصميمات اعتباري دقيقتر و علميتر از اين مدلها استفاده نمايند؛ بويژه بانكهايي كه قصد دارند رويكرد رتبهبندي داخلي از دستورالعمل بال 228را پيادهسازي نمايند.
[1] Multiple Discriminant Analysis )MDA)
[2] Logit
[3] Probit
[4] Artificial Neural Network (ANN)
[5] Support Vector Machine (SVM)
[6] Data Mining
[7] Hyperplane
[8] Structural risk minimization principle (Srm)
[9] K-Nearest Neighbors (KNN)
[10] Decision Tree
[11] Statistical learning theory (slt)
[12] Under Sampling
[13] Over Sampling
[14] Logistic Regression
[15] Linear regression (LR)
[16] Zemijewski
[17] Springate
[18] Mackay
[19] www. towardsdatascience.com
[20] Vladimir N. Vapnik
[21] Binary classifier
[22] Feature space
[23] Radial basis function (RBF)
[24] Tehran Stock Exchange (TSE)
[25] Cross-validation
[26] Resubstitution error
[27] Cross-Validation error
[28] پيشنويس توافقنامه بال دو، نخستين بار در ژوئن سال ۱۹۹۹ ميلادي تنظيم و پس از چند مرحله انتشار مقدماتي و اخذ نظرات اصلاحي و اجراي آزمايشي، سرانجام از ابتداي سال ۲۰۰۸ مـيلادي بـه مرحلـه اجـرا درآمد و داراي سه بخش (رکن) اصلي شامل: حداقل سرمايه لازم بانکها براي پوشش ريسکهاي مترتب، فرآيند بررسي نظارتي و انضباط بازارميباشد که البته اين عوامل به صورت متقابل بر يکديگر تاثيرگذار هستند.