یک رویکرد مقایسه ای یادگیری ماشینی برای پیشبینی داده های ذخایر خسارتهای واقعشده ولی گزارشنشده بیمه ای در حضور داده های سانسور شده و بریده شده
محورهای موضوعی : اقتصاد مالی
اکبر پیله ور سلطان احمدی
1
,
کیومرث شهبازی
2
*
,
حمزه دیدار
3
1 - علوم اقتصادی، دانشکده اقتصاد، دانشگاه ارومیه، ارومیه/ایران
2 - استاد اقتصاد دانشگاه ارومیه، گروه علوم اقتصادی، دانشگاه ارومیه، ارومیه، ایران
3 - دانشیار حسابداری دانشگاه ارومیه، گروه حسابداری ، دانشگاه ارومیه، ارومیه، ایران
کلید واژه: ذخایر خسارتهای واقعشده ولی گزارشنشده, جنگل تصادفی, شبکه عصبی پرسپترون چندلایه, شبکه عصبی با حافظه طولانی کوتاهمدت ,
چکیده مقاله :
این مطالعه با هدف پیشبینی ذخایر خسارتهای واقعشده ولی گزارشنشده، در رشتههای مختلف بیمهای، از مدلهای یادگیری ماشین پیشرفته و تحلیل دادههای سانسورشده و بریدهشده استفاده کرده است. دادهها شامل اطلاعات تاریخهای وقوع و گزارش حادثه در پنج رشته بیمهای، شامل ثالث مالی، بدنه، ثالث جانی و حوادث راننده، آتشسوزی و مسئولیت بوده و روشها شامل رگرسیون خطی چندگانه (MLR)، مدل خطی تعمیمیافته (GLM)، مدل افزایشی تعمیمیافته (GAM)، جنگل تصادفی (RF)، شبکه عصبی (MLP) و حافظه کوتاهمدت و بلندمدت (LSTM) در دوره زمانی 1400 تا 1401 در شرکت بیمه ایران میباشند. با سانسور کردن و برش دادهها در مقاطع مختلف، بر حسب روزهای تعطیل، روزهای شلوغ سال و دورههای رونق ساخت و ساز، ویژگیهای اثرگذار دادهها، براساس نوع رشته بیمه ای مدلسازی شد. نتایج نشان داد که مدلهای LSTM و RF در پیشبینی تاخیرها عملکرد بسیار بهتری نسبت به مدلهای خطی داشتند؛ بهطور خاص، مدل RF در رشتههای بدنه و ثالث مالی با خطا به ترتیب 64/10 و 02/11 و مدل LSTM با خطا بهترتیب 83/9 و 72/10، دقت بالاتری نسبت به سایر مدلها داشتهاند. این مدلها در شناسایی الگوهای پیچیده موجود در دادهها توانمند بوده و نشان دادند که با توجه به تأثیرگذاری عواملی مانند تعطیلات آخر هفتهها و نوع ترکیب دادهها میتوانند الگوهای پیچیدهتری را در دادههای بیمهای شناسایی کنند. این نتایج تأکید دارد که مدلهای LSTM و جنگل تصادفی بهطور چشمگیری قابلیت بهبود دقت پیشبینی را دارا بوده و ابزار مناسبی برای ارزیابی ریسک و تخصیص بهینه ذخایر مالی در صنعت بیمه محسوب میشوند.
This study aims to predict incurred but not reported (IBNR) reserves in various insurance lines by employing advanced machine learning models and analyzing censored and trimmed data. The dataset includes information on incident and report dates for five major insurance lines: third-party financial, vehicle, third-party bodily injury and driver accidents, fire, and liability. The methods applied in this study are Multiple Linear Regression (MLR), Generalized Linear Model (GLM), Generalized Additive Model (GAM), Random Forest (RF), Multilayer Perceptron (MLP), and Long Short-Term Memory (LSTM) networks, using data from Iran Insurance Company for the period of 2021-2022. The data were censored and trimmed based on specific periods, such as holidays, Nowruz, peak travel seasons, and construction periods, to model impactful features according to the insurance line type. Results indicate that LSTM and RF models outperform linear models in predicting delays; specifically, RF achieved errors of 10.64 and 11.02 in vehicle and third-party financial lines, while LSTM attained errors of 9.83 and 10.72, respectively. These models effectively identified complex patterns in the data, revealing that considering factors such as holidays, weekends, and data structure can help capture intricate insurance data patterns. The findings underscore that LSTM and Random Forest models significantly enhance prediction accuracy, serving as valuable tools for risk assessment and optimal reserve allocation in the insurance industry.