طراحی مدل ترکیبی برای طبقهبندی دادههای نامتوازن در رشته بیمه شخص ثالث
الموضوعات : سامانههای پردازشی و ارتباطی چندرسانهای هوشمندمهناز منطقی پور 1 , پریسا رحیم خانی 2
1 - پژوهشگر
2 - پژوهشگر
الکلمات المفتاحية: مدل ترکیبی, داده های نا متوازن, داده کاوی, بیمه شخص ثالث,
ملخص المقالة :
بخش عمده پورتفوی صنعت بیمه کشور ایران را رشته بیمه اجباری مسئولیت مدنی دارندگان وسایل نقلیه موتوری زمینی در مقابل اشخاص ثالث، تشکیل داده است. توانایی پیش بینی وقوع و یا عدم وقوع خسارت به ویژه خسارتهای جانی نه تنها برای شرکتهای بیمه بلکه برای تصمیم گیرندگان در حوزههای افزایش امنیت جادهها اهمیت بسیاری دارد. به منظور پیش بینی برچسب وقوع یا عدم وقوع خسارت از روشهای طبقه بندی استفاده میشود که در واقع یک مساله طبقه بندی نامتوازن است. این نامتوازن بودن شدید، ناشی از ماهیت کسب و کار بیمه است. نامتوازن بودن دادههای صنعت بیمه باعث ایجاد چالشهای بسیاری در تجزیه و تحلیل دادههای مربوطه میشود. در این پژوهش، ما به طبقهبندی دادههای نامتوازن بیمه شخص ثالث در یک شرکت بیمه معتبر میپردازیم. در این راستا دو روش ترکیبی برای رفع مشکل نامتوازن بودن دادهها براساس 5 مدل پایه گاوسین بیز، بردارهای پشتیبان، لجستیک رگرسیون، درخت تصمیم، نزدیکترین همسایگی به منظور طبقهبندی موثرتر دادههای مربوطه ارائه میشود. نتایج بدست آمده نشان میدهد که مدلهای ترکیبی ارائه شده بهتر از سایر الگوریتمهای دادهکاوی برای دادههای مربوطه جواب میدهند و استفاده از درخت تصمیم در تجمیع مدلهای پایه برای ساخت مدل ترکیبی نتایج بهتری نسبت به رای گیری ساده مدلها ارائه میکند. همچنین ابر پارامتر تعداد مدلهای لازم در رای گیری بر اساس استراتژی شرکت قابل تنظیم است. تعداد ویژگیهای ثبت شده از بیمه نامهها در شرکتهای بیمه محدود است با تکمیل این ویژگیها به ویژه اضافه شدن سوابق رانندگی و سایر ویژگیهای فردی میتوان به مدل بهتری دست یافت.
[1] |
K. P. Murphy., Probabilistic Machine Learning: An Introduction, MIT Press, 2022. |
[2] |
A. Fernández, . S. García and M. Galar, R, Learning from Imbalanced Data Sets, Springer, 2018. |
[3] |
S. Ardabili , A. Mosavi and . A. R. Varkonyi-Koczy, "Advances in Machine Learning Modeling Reviewing Hybrid and Ensemble Methods," Preprints , 2019. |
[4] |
G. . G. Sundarkumar and V. Ravi, "A novel hybrid under sampling method for mining unbalanced datasets in banking and insurance," Engineering Applications of Artificial Intelligence, vol. 37, p. 368–377, 2015. |
[5] |
S. I. V. Shamitha, S. K. Shamitha and V. Ilango, "A hybrid technique for health insurance fraud detection on highly imbalanced dataset," International Journal of Innovative technology and exploring engineering (IJITEE), vol. 8, no. 11, pp. 2278-3075, 2019. |
[6] |
S. Kotekani and I. Velchamy, "An Effective Data Sampling Procedure for Imbalanced Data learning on health insurance fraud detection, CIT," Journal of Computing and Information Technology,, vol. 28, no. 4, p. 269–285, (2020).. |
[7] |
J. Brownlee, Data Preparation for machine learning, Jason Brownle, 2020. |
[8] |
A. Géron, Hands-on Machine learning with scikit-learn, keras, tensorflow, Beijing, Boston, Farnham, Sebastopol, Tokyo: O’Reilly Media, Inc, 2019. |
[9] |
J. Kozak, Decision Tree and ensemble learning based on ant colony algorithm, Katowice, Poland: Springer, 2019. |
|
|
_||_
|
|
|
|
|