یک رویکرد مقایسه ای یادگیری ماشینی برای پیشبینی داده های ذخایر خسارتهای واقعشده ولی گزارشنشده بیمه ای در حضور داده های سانسور شده و بریده شده
محورهای موضوعی : اقتصاد مالی
اکبر پیله ور سلطان احمدی
1
,
کیومرث شهبازی
2
*
,
حمزه دیدار
3
1 - علوم اقتصادی، دانشکده اقتصاد، دانشگاه ارومیه، ارومیه/ایران
2 - استاد اقتصاد دانشگاه ارومیه، گروه علوم اقتصادی، دانشگاه ارومیه، ارومیه، ایران
3 - دانشیار حسابداری دانشگاه ارومیه، گروه حسابداری ، دانشگاه ارومیه، ارومیه، ایران
کلید واژه: ذخایر خسارتهای واقعشده ولی گزارشنشده, جنگل تصادفی, شبکه عصبی پرسپترون چندلایه, شبکه عصبی با حافظه طولانی کوتاهمدت ,
چکیده مقاله :
این مطالعه با هدف پیشبینی ذخایر خسارتهای واقعشده ولی گزارشنشده، در رشتههای مختلف بیمهای، از مدلهای یادگیری ماشین پیشرفته و تحلیل دادههای سانسورشده و بریدهشده استفاده کرده است. دادهها شامل اطلاعات تاریخهای وقوع و گزارش حادثه در پنج رشته بیمهای، شامل ثالث مالی، بدنه، ثالث جانی و حوادث راننده، آتشسوزی و مسئولیت بوده و روشها شامل رگرسیون خطی چندگانه (MLR)، مدل خطی تعمیمیافته (GLM)، مدل افزایشی تعمیمیافته (GAM)، جنگل تصادفی (RF)، شبکه عصبی (MLP) و حافظه کوتاهمدت و بلندمدت (LSTM) در دوره زمانی 1400 تا 1401 در شرکت بیمه ایران میباشند. با سانسور کردن و برش دادهها در مقاطع مختلف، بر حسب روزهای تعطیل، روزهای شلوغ سال و دورههای رونق ساخت و ساز، ویژگیهای اثرگذار دادهها، براساس نوع رشته بیمه ای مدلسازی شد. نتایج نشان داد که مدلهای LSTM و RF در پیشبینی تاخیرها عملکرد بسیار بهتری نسبت به مدلهای خطی داشتند؛ بهطور خاص، مدل RF در رشتههای بدنه و ثالث مالی با خطا به ترتیب 64/10 و 02/11 و مدل LSTM با خطا بهترتیب 83/9 و 72/10، دقت بالاتری نسبت به سایر مدلها داشتهاند. این مدلها در شناسایی الگوهای پیچیده موجود در دادهها توانمند بوده و نشان دادند که با توجه به تأثیرگذاری عواملی مانند تعطیلات آخر هفتهها و نوع ترکیب دادهها میتوانند الگوهای پیچیدهتری را در دادههای بیمهای شناسایی کنند. این نتایج تأکید دارد که مدلهای LSTM و جنگل تصادفی بهطور چشمگیری قابلیت بهبود دقت پیشبینی را دارا بوده و ابزار مناسبی برای ارزیابی ریسک و تخصیص بهینه ذخایر مالی در صنعت بیمه محسوب میشوند.
This study aims to predict incurred but not reported (IBNR) reserves in various insurance lines by employing advanced machine learning models and analyzing censored and trimmed data. The dataset includes information on incident and report dates for five major insurance lines: third-party financial, vehicle, third-party bodily injury and driver accidents, fire, and liability. The methods applied in this study are Multiple Linear Regression (MLR), Generalized Linear Model (GLM), Generalized Additive Model (GAM), Random Forest (RF), Multilayer Perceptron (MLP), and Long Short-Term Memory (LSTM) networks, using data from Iran Insurance Company for the period of 2021-2022. The data were censored and trimmed based on specific periods, such as holidays, Nowruz, peak travel seasons, and construction periods, to model impactful features according to the insurance line type. Results indicate that LSTM and RF models outperform linear models in predicting delays; specifically, RF achieved errors of 10.64 and 11.02 in vehicle and third-party financial lines, while LSTM attained errors of 9.83 and 10.72, respectively. These models effectively identified complex patterns in the data, revealing that considering factors such as holidays, weekends, and data structure can help capture intricate insurance data patterns. The findings underscore that LSTM and Random Forest models significantly enhance prediction accuracy, serving as valuable tools for risk assessment and optimal reserve allocation in the insurance industry.
پورزمانی، زهرا. (۱۳۹۴). کاربرد الگوریتم ژنتیک خطی و غیرخطی در بهبود قدرت پیشبینی. مهندسی مالی و مدیریت اوراق بهادار، ۲۴، صص ۸۱-۹۴.
جانفشان، بیتا. (۱۳۸۵). معرفی دو روش برآورد ذخیره خسارتهای واقعشده اما گزارشنشده. فصلنامه صنعت بیمه، ۲۱(2)، صص ۳۳-۵۰
شکری، ا.، ایزدی، م. ا.، و خالدی، ب. (۱۴۰۲). مدلبندی خسارتهای معوق در مثلثهای تأخیر وابسته با در نظر گرفتن وابستگی تقویمی. پژوهشنامه بیمه، ۱۲ (۴)، صص ۲۸۳-۲۹۸
شهبازی، کیومرث، و پیلهور سلطان احمدی، اکبر. (۱۳۹۴). معرفی یک سیستم پیشبینی مناسب برای برآورد تقاضای درمان در بیمارستان امام رضا (ع) ارومیه. فصلنامه مطالعات اقتصادی کاربردی ایران، ۱۶_(۴)، صص ۲۰۵-۲۳۲
شهریار، بهنام، امدادی، فاطمه، و صیادزاده، علی. (۱۳۹۴). اندازهگیری ذخایر خسارت معوق بهعنوان مهمترین ذخیره فنی شرکتهای بیمه: رویکرد توانگری II. مجموعه مقالات بیست و دومین همایش ملی و هشتمین همایش بینالمللی بیمه و توسعه، ۲۲
غلامیان، الهام، و داوودی، سید محمدرضا. (۱۳۹۷). پیشبینی روند قیمت در بازار سهام با استفاده از الگوریتم جنگل تصادفی. مهندسی مالی و مدیریت اوراق بهادار، ۹(35)، صص ۳۰۱-۳۲۲
Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley.
Andersson, D. U. (2023). Optimizing method selection for IBNR-reserve calculation using machine learning (Master's thesis, Stockholm University, Department of Mathematics, Mathematical Statistics). Stockholm, Sweden: Stockholm University.
Antonio, K., & Plat, R. (2014). Micro-level stochastic loss reserving for general insurance. Scandinavian Actuarial Journal, 2014(7), pp. 649–669.
Badescu, A. L., Lin, X. S., & Tang, Q. (2016). A marked Cox model for the number of IBNR claims: Theory. Insurance: Mathematics and Economics, 69, pp. 29–37.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), pp. 5-32.
Calcetero-Vanegas, S., Badescu, A. L., & Lin, X. S. (2023). Claim reserving via inverse probability weighting: A micro-level chain-ladder method. arXiv preprint arXiv:2307.10808.
Chang, W. (2024). Improving the accuracy of IBNR reserve predictions using uniform splines. Scandinavian Actuarial Journal.
Dobson, A. J., & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4th ed.). Chapman and Hall/CRC.
Farkas, S., & Lopez, O. (2024). Semiparametric copula models applied to the decomposition of claim amounts. Scandinavian Actuarial Journal, 2024(10), pp. 1065-1092.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.
Hiabu, M., Hofman, E. D., & Pittarello, G. (2024). A machine learning approach based on survival analysis for IBNR frequencies in non-life reserving. Retrieved from https://arxiv.org/abs/2312.14549v2
Hiabu, M., Mammen, E., Martínez-Miranda, M. D., & Nielsen, J. P. (2016). In-sample forecasting with local linear survival densities. Biometrika, 103(4), pp. 843–859.
Lee, Y. K., Mammen, E., Nielsen, J. P., & Park, B. U. (2015). Asymptotics for in-sample density forecasting. The Annals of Statistics, 43(2), pp. 620–651.
Lee, Y. K., Mammen, E., Nielsen, J. P., & Park, B. U. (2017). Operational time and in-sample density forecasting. The Annals of Statistics, 45(3), pp. 1312–1341.
Maait, M. A. M. (2023). Estimating Claims Reserves in Insurance Industries: Evidence from the Egyptian Market. Scientific Journal for Financial and Commercial Studies and Research, Faculty of Commerce, Damietta University, 4(1), pp. 967-984.
Mammen, E., Martínez-Miranda, M. D., Nielsen, J. P., & Vogt, M. (2021). Calendar effect and in-sample forecasting. Insurance: Mathematics and Economics, 96, pp. 31–52.
Miranda, M. D. M., Nielsen, J. P., Sperlich, S., & Verrall, R. (2013). Continuous run-off triangles in loss reserving. ASTIN Bulletin, 43(3), pp. 321-349.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis (5th ed.). Wiley.
Nelder, J. A., & Wedderburn, R. W. (1972). Generalized Linear Models. Journal of the Royal Statistical Society: Series A (General), 135(3), pp. 370–384.
Smith, J., & Doe, R. (2020). Machine Learning in Insurance Claims. Journal of Insurance Studies, 45(3), pp. 456-468.
Wood, S. N. (2017). Generalized Additive Models: An Introduction with R (2nd ed.). CRC Press.
Wuthrich, M. (2018). Neural networks applied to Chain–Ladder reserving. European Actuarial Journal, 8(2), pp. 407-436. http://dx.doi.org/10.2139/ssrn.2966126