Predicting the annual cost of medical insurance using machine learning
Subject Areas : Application of artificial intelligence and information technologyAli Zhaleh karimi 1 , Ramin Dalir 2
1 - Master's student of artificial intelligence and robotics, Imam Hossein (AS) University, Tehran, Iran
2 - PhD Student of artificial intelligence, University of Zanjan, Zanjan, Iran
Keywords: Medical insurance, medical cost, classification, machine learning,
Abstract :
Health insurance is one of the ways to reduce the costs imposed on society.Studying and researching in the field of damages and diseases helps the stakeholders to easily make policies in this regard.The insurance rate is affected by some medical issues. Accurate estimation of individual health care and treatment costs is important for a range of stakeholders and health agencies.Therefore, by predicting medical expenses, both the insured and the insurer can predict the future to some extent and have better options for making decisions. One of the goals of this article is to predict the low, medium or high spending of people for the treatment of the disease and to identify the effective factors in health insurance costs. In this article, the data of the US Census Bureau including 1338 samples with the features of age, gender, body mass index (BMI),smoking,number of dependents,region and annual cost are used. In the proposed method, the data set is first analyzed and reviewed in order to get a general view of it and to identify the influencing factors in the treatment cost.Then, by pre-processing and categorizing costs into low, medium and high, the data is converted into a form suitable for classification. In the next step, classification algorithms are used to learn the category of each of the samples, and by evaluating them, the best algorithm is selected. In the end, with the method of parameter improvement and algorithm parameters adjustment, the performance of the algorithm is improved and the annual cost prediction model is created.Examining the dataset showed that being a smoking, increasing age and being overweight have an effect on treatment costs.The classification results also show that the random forest algorithm has the ability to predict low, medium, and high costs for disease treatment with 91% accuracy.
Arab, M., Fathian, M., & Aliahmadi Jeshfaghani, H. (2022). Forecast of Medical Expenses of Iran Health Insurance Organization Using Machine Learning Based Methods. Iranian Journal of Health Insurance, 0-0.
Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20, 273-297.
Dong, S., & Fei, D. (2021). Improve the interpretability by decision tree regression: exampled by an insurance dataset. 2021 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI),
Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International journal of data mining & knowledge management process, 5(2), 1.
Islam, M. A., Nag, A., Chandra, P., Fahim, S. F. A., & Hoque, M. M. (2023). Healthcare Cost Patterns and Prediction: Investigating Personal Datasets Using Data Analytics. Authorea Preprints.
Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
Loh, W. Y. (2011). Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1), 14-23.
Marquardt, D. W., & Snee, R. D. (1975). Ridge regression in practice. The American Statistician, 29(1), 3-20.
Rish, I. (2001). An empirical study of the naive Bayes classifier. IJCAI 2001 workshop on empirical methods in artificial intelligence,
Schapire, R. E., & Freund, Y. (2013). Boosting: Foundations and algorithms. Kybernetes, 42(1), 164-166.
Syarif, I., Prugel-Bennett, A., & Wills, G. (2016). SVM parameter optimization using grid search and genetic algorithm to improve classification performance. TELKOMNIKA (Telecommunication Computing Electronics and Control), 14(4), 1502-1509.
Tajaddodi Nodehi, M., Hosseini Khatibani, S., Yazdinejad, M., & Zolfi, S. (2023). Predicting people's health insurance costs using machine learning and ensemble learning methods. Iranian Journal of Insurance Research, 13(1), 1-14. https://doi.org/10.22056/ijir.2024.01.01
Tianqi, C., & Guestrin, C. (2016). Xgboost: A scalable tree boosting system In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.
Zhang, S., Li, X., Zong, M., Zhu, X., & Wang, R. (2017). Efficient kNN classification with different numbers of nearest neighbors. IEEE transactions on neural networks and learning systems, 29(5), 1774-1785.
Applied Research in Sustainable Industry Management
Original Research Article/ Vol.01, No.01, Spring 2024, P:83-101
Predicting the annual cost of medical insurance using machine learning
Ali Zhaleh Karimi1, Ramin Dalir2
Received: 10/03/2024 Accepted: 19/06/2024
Abstract:
Health insurance is one of the ways to reduce the costs imposed on society. Studying and researching in the field of damages and diseases helps the stakeholders to easily make policies in this regard. The insurance rate is affected by some medical issues. Accurate estimation of individual health care and treatment costs is important for a range of stakeholders and health agencies. Therefore, by predicting medical expenses, both the insured and the insurer can predict the future to some extent and have better options for making decisions. One of the goals of this article is to predict the low, medium or high spending of people for the treatment of the disease and to identify the effective factors in health insurance costs. In this article, the data of the US Census Bureau including 1338 samples with the features of age, gender, body mass index (BMI), smoking, number of dependents, region and annual cost are used. In the proposed method, the data set is first analyzed and reviewed in order to get a general view of it and to identify the influencing factors in the treatment cost. Then, by pre-processing and categorizing costs into low, medium and high, the data is converted into a form suitable for classification. In the next step, classification algorithms are used to learn the category of each of the samples, and by evaluating them, the best algorithm is selected. In the end, with the method of parameter improvement and algorithm parameters adjustment, the performance of the algorithm is improved and the annual cost prediction model is created. Examining the dataset showed that being a smoking, increasing age and being overweight have an effect on treatment costs. The classification results also show that the random forest algorithm has the ability to predict low, medium, and high costs for disease treatment with 91% accuracy.
Keywords:
Medical insurance, medical cost, classification, machine learning
نشريه علمی پژوهشهاي کاربردی در مدیریت صنعت پایدار
پیشبینی میزان هزینۀ سالانۀ بیمۀ درمانی با استفاده از یادگیری ماشین
تاریخ دریافت: 20/12/1402 تاریخ پذیرش: 30/03/1403
چکیده
بیمۀ درمانی، یکی از راهکارهای کاهش هزینههای تحمیلی بر افراد جامعه است. مطالعه و بررسى در حوزۀ خسارات و بیماریها، کمک میکند تا ذینفعان بهراحتی بتوانند دراینخصوص سیاستگزاری كنند. نرخ بيمه، تحتتأثیر برخى مسائل پزشكى است. برآورد دقيق هزینههای مراقبتهای بهداشتی فردی و درمانی، برای طیفی از ذینفعان و آژانسهای بهداشتى مهم است. ازاینرو با پیشبینی هزینههای درمانی، هم بیمهشونده و هم بیمهگذار، میتوانند تا حدودی آینده را پیشبینی کنند و گزینههای بهتری برای تصمیمگیری داشته باشند. پیشبینی هزینهکرد کم، متوسط یا زیاد افراد برای درمان بیماری و شناسایی عوامل مؤثر در هزینههای بیمۀ درمانی، از اهداف این مقاله است. در این مقاله از دادههای ادارۀ سرشماری جمعیت امریکا مشتمل بر 1338 نمونه با ویژگیهای سن، جنسیت، شاخص تودۀ بدنی (BMI)، سیگاریبودن، تعداد افراد تحت تکفل، منطقه و هزینۀ سالانه، استفاده شده است. در روش پیشنهادی ابتدا به تحلیل و بررسی مجموعهداده پرداخته میشود تا یک دید کلی از آن به دست آید و عوامل تأثیرگذار در هزینۀ درمانی شناسایی شوند. سپس با پیشپردازش و دستهبندی هزینهها به کم، متوسط و زیاد، دادهها به شکل مناسب برای طبقهبندی تبدیل میشوند. در مرحلۀ بعد، از الگوریتمهای طبقهبندی برای یادگیری دستۀ هر کدام از نمونهها استفاده میشود و با ارزیابی آنها، بهترین الگوریتم انتخاب میشود. در انتها با روش بهبود پارامتر و تنظیم پارامترهای الگوریتم، عملکرد الگوریتم بهبود مییابد و مدل پیشبینی میزان هزینۀ سالانه ایجاد میشود. بررسی مجموعهداده نشان داد که سیگاریبودن، افزایش سن و اضافهوزن بر روی هزینههای درمانی تأثیر گذارند. نتایج طبقهبندی نیز بیانگر این است که الگوریتم جنگل تصادفی با دقت 91% توانایی پیشبینی میزان هزینهکرد کم، متوسط و زیاد برای درمان بیماری را دارد.
واژگان کلیدی: بیمۀ درمانی، هزینۀ درمانی، طبقهبندی، یادگیری ماشین
1. مقدمه
بيمه، يكى از ارکان توسعۀ نظام مراقبتهای بهداشتى در جهان است. مطالعه و بررسى در حوزۀ خسارات و بیماریها، کمک میکند تا ذینفعان بهراحتی بتوانند دراینخصوص سیاستگزاری كنند. ازاینرو با پیشبینی هزینههای درمانی، هم بیمهشونده و هم بیمهگذار، میتوانند تا حدودی آینده را پیشبینی کنند و گزینههای بهتری برای تصمیمگیری داشته باشند. نرخ بيمه، تحتتأثیر برخى مسائل پزشكى است. برآورد دقيق هزینههای مراقبتهای بهداشتی فردی و درمانی برای طیفی از ذینفعان و آژانسهای بهداشتى مهم است(Tajaddodi Nodehi et al., 2023).
مؤسسۀ بینالمللی تأمین اجتماعی (ISSA) در "گزارش هزینههای بیمۀ پزشکی و بیمۀ بیماری"، دلایل مشترک زیر را برای افزایش هزینههای بیمۀ پزشکی فهرست کرده است: (۱) رشد جمعیت و پیری؛ (۲) تغییرها در ساختار بیماری؛ (۳) بهبود آموزش فرهنگی؛ (۴) تغییرهای زندگی در محیط و محیط کار؛ (۵) بهبود استانداردهای زندگی؛ (۶) توسعۀ پزشکی(Dong & Fei, 2021).
در ایران نیز باتوجهبه افزایش سن جمعیت، تقاضا برای منابع پزشکی در حال افزایش است. تحقیقات اندکی در مورد عوامل افزایش بیمۀ درمانی و پیشبینی هزینههای درمانی برای سازمانها و افراد صورتگرفته است. پایینبودن سهم اعتبارات تخصيصى از محل بودجۀ عمومى دولت و منابع پیشپرداخت در بیمههای اجتماعی درمانی و بالابودن سهم هزینههای خانوارها از مجموع هزینههای مصرفی بهداشت و درمان کشور، از عوامل محدودکننده در تأمین مالی هزینههای مصرفی در بخش سلامت، محسوب میشود(Arab et al., 2022).
یکی از راهکارها برای برخورد با کسری منابع مالی، مدیریت و کنترل هزینهها بر اساس پیشبینی هزینهها است. در تمامی سازمانها، حجم انبوهی از داده وجود دارد که استفاده و تجزیهوتحلیل آنها، میتواند کمک شایان توجهی به تصمیمگیری مدیران داشته باشد، اما حجم بالاى اين دادهها و تنوع موجود در آنها و ارتباطات زیاد و ناشناخته بین آنها، باعث شده است که ابزارهای دستی و سیستمی معمولی، قادر به استفاده درست از آنها نبوده و بررسی این دادهها با روشهای قدیمى، خارج از توان افراد و ناكارآمد است. پيشرفت فنّاورى و ايجاد فناوریهای جدید، دغدغههای موجود در این زمینه را کاهش داده و با پیشنهاد بهکارگیری ابزارها و تکنیکهای جدید، امکان بررسی دادههای انبوه و کشف دانش از دل این دادهها را امکانپذیر ساخته است(Arab et al., 2022). یکی از امروزیترین و جدیدترین اين فناوریها، هوش مصنوعی و استفاده از الگوریتمهای یادگیری ماشین است.
در این مقاله از دادههای آمار جمعیتی ادارۀ سرشماری ایالات متحده با ویژگیهای سن، جنسیت، شاخص تودۀ بدنی (BMI)، سیگاریبودن، تعداد افراد تحت تکفل، منطقه و هزینۀ سالانه، استفاده شده است. این مجموعهداده، نمونۀ خوبی برای ارزیابی توانایی الگوریتمهای یادگیری ماشین در پیشبینی عوامل مؤثر در بیماری و هزینههای درمانی است. برای پیشبینی هزینۀ سالانه، در این مقاله از روش طبقهبندی استفاده شده است که یکی از تکنیکهای یادگیری با نظارت است و برای پیشبینی کلاس نمونهها، از مجموعهداده استفاده میشود. به همین منظور ابتدا مجموعهداده بررسی و تحلیل شده و به کمک روشهای پیشپردازش و انتخاب ویژگی، مجموعهدادۀ مناسب برای طبقهبندی دادهها بهدستآمده است. در این روش، سه دسته کم، متوسط و زیاد بر اساس هزینهکرد بیمهشدگان تعریف شده است و از الگوریتمهای طبقهبندی درخت تصمیم، جنگل تصادفی، رگرسیون لجستیک، ریج، KNN و... برای پیشبینی میزان هزینهکرد هر یک از بیمهشدگان استفاده شده است. همچنین برای افزایش دقت طبقهبندی، با استفاده از تکنیک بهبود پارامتر، الگوریتم Grid search بهکار گرفته شده است.
2. معرفی مجموعهداده
مجموعهدادۀ مورداستفاده یک مجموعهدادۀ شبیهسازیشده شامل هزینههای پزشکی برای بیماران در ایالات متحده است. این دادهها با استفاده از آمار جمعیتی ادارۀ آمار امریکا برای کتاب (Lantz, 2019) تهیه شده است و در پلتفرم Kaggle منتشر شده است5 و در حد خود، منعکسکنندۀ شرایط دنیای واقعی است. مجموعهدادۀ مجموعه، شامل ۱۳۳۸ نمونه از ذینفعانی است که در حال حاضر در طرح بیمه ثبتنام کردهاند، ویژگیهای سن، جنسیت، شاخص تودۀ بدنی(BMI)، سیگاریبودن، تعداد افراد تحت تکفل ، منطقه و هزینۀ سالانه که نشاندهندۀ ویژگیهای بیمار و همچنین کل هزینههای پزشکی پرداختشده به طرح برای سال تقویمی مورد توجه قرار گرفته است. توضیح هر یک از ویژگیها در جدول 1 ارائه شده است. جدول 2 نیز چند نمونه از دادههای مجموعهداده را نشان میدهد. همانطور که مشاهده میشود ویژگیهای sex ، smoker و region ، دارای مقادیر غیرعددی هستند و بقیۀ ویژگیها، مقادیر بهصورت عددی هستند.
جدول 1: توضیح ویژگیهای مجموعهداده
ویژگی | توضیح |
سن (age) | یک عدد صحیح که سن ذینفع اولیه را نشان میدهد (بهاستثنای افراد بالای 64 سال، زیرا عموماً تحت پوشش دولت هستند) |
جنسیت (sex) | جنسیت دارندۀ بیمهنامۀ اعم از مرد یا زن |
شاخص تودۀ بدنی (BMI) | شاخص تودۀ بدنی (BMI) که این حس را ارائه میدهد که یک فرد نسبت به قد خود، چقدر اضافه یا کموزن دارد. BMI برابر است با وزن (به کیلوگرم) تقسیم بر مجذور قد (به متر). BMI ایدهآل در محدودۀ 18.5 تا 24.9 است. |
تعداد افراد تحت تکفل (children) | یک عدد صحیح که نشاندهندۀ تعداد فرزندان / افراد تحت تکفل تحت پوشش طرح بیمه است |
سیگاری بودن (smoker) | یک متغیر قطعی بله یا خیر که نشان میدهد آیا بیمهشده به طور منظم سیگار میکشد یا خیر |
منطقه (region) | محل سکونت ذینفع در ایالات متحده، به چهار منطقۀ جغرافیایی تقسیم شده است: شمال شرقی، جنوب شرقی، جنوب غربی یا شمال غربی |
هزینۀ سالانه (charges) | هزینههای درمانی هر فرد مشمول طرح بیمه در سال را نشان میدهد |
جدول 2: نمونهای از دادههای مجموعهداده
ویژگیها | |||||||
# | سن | جنسیت | شاخص تودۀ بدنی | افراد تحت تکفل | سیگاری بودن | منطقه | هزینۀ سالانه |
0 | 19 | female | 27.900 | 0 | yes | southwest | 16884.92400 |
1 | 18 | male | 33.770 | 1 | no | southeast | 1725.55230 |
2 | 28 | male | 33.000 | 3 | no | southeast | 4449.46200 |
3 | 33 | male | 22.705 | 0 | no | northwest | 21984.47061 |
4 | 32 | male | 28.880 | 0 | no | northwest | 3866.85520 |
3. بررسی و تحلیل دادهها
مرحلۀ تحلیل و بررسی مجموعهدادۀ فرایند تحقیق، شامل یک کاوش عمیق در مجموعهدادهها برای کشف الگوها، روابط و بینشهایی است که میتواند به آمادهسازی و تحلیل مدل بعدی کمک کند(Islam et al., 2023).
با بررسی جدول 3 که تحلیل آماری ویژگیهای عددی مجموعهداده را نشان میدهد، مشخص میشود که تعداد مقادیر هر یک از ویژگیها 1338 است و مجموعهداده دارای دادۀ ازدست رفته نیست. همچنین بازۀ مقادیر و میانگین برای هر ویژگی نیز مشخص میشود. برهمین اساس میانگین سنی در این مجموعهداده حدود 39 سال و از بازۀ 18 الی 64 سال است. برای ویژگی BMI نیز، بازۀ از 96/15 الی 13/53 و میانگین برابر 66/30 است که نشاندهندۀ خارج بودن افراد از حالت ایدهآل و اضافهوزن در آنها است. ویژگی تعداد افراد تحت تکفل نیز از بازۀ 0 الی 5 است و میانگین آن، حدود 1 است. برای ویژگی هزینۀ سالانه نیز میانگین 44/13270 دلار و بازۀ از 87/1121 الی 42/63770 دلار است. نمودار توزیع ویژگیهای افراد تحت تکفل و هزینۀ سالانه (شکل1) نیز نشان میدهد که توزیع تعداد افراد تحت تکفل، پلهای است و اکثر بیمهشوندگان، هزینۀ سالانه کمتر از 15000 دلار پرداخت کردهاند.
جدول 3: اطلاعات آماری ویژگیهای مجموعهداده
اطلاعات آماری | ویژگیها | |||
سن | شاحص تودۀ بدنی | افراد تحت تکفل | هزینۀ سالانه | |
تعداد | 1338.000000 | 1338.000000 | 1338.000000 | 1338.000000 |
میانگین | 39.207025 | 30.663397 | 1.094918 | 13270.422265 |
انحراف معیار | 14.049960 | 6.098187 | 1.205493 | 12110.011237 |
کمینه | 18.000000 | 15.960000 | 0.000000 | 1121.873900 |
25% | 27.000000 | 26.296250 | 0.000000 | 4740.287150 |
50% | 39.000000 | 30.400000 | 1.000000 | 9382.033000 |
75% | 51.000000 | 34.693750 | 2.000000 | 16639.912515 |
بیشینه | 64.000000 | 53.130000 | 5.000000 | 63770.428010 |
شکل 1: نمودار توزیع هزینۀ سالانه(راست) و تعداد افراد تحت تکفل(چپ)
شکل 2 توزیع دادههای غیرعددی را نشان میدهد. بررسی ویژگی جنسیت نشان میدهد که توزیع جنسیت بیمهشوندگان زن و مرد، تقریباً یکسان است و در مورد منطقه نیز هر چهار منطقه، تقریباً دارای توزیع یکسانی هستند اما ویژگی سیگاریبودن متفاوت از این دو ویژگی است و افراد غیر سیگاری در مقابل افراد سیگاری، بخش قابلتوجهی (5/79%) از بیمهشوندگان را تشکیل میدهند.
3
شکل 2: توزیع ویژگی های جنسیت(راست)، سیگاریبودن(وسط) و منطقه(چپ) |
برای تحلیل هزینههای پرداختی و عوامل مؤثر در بیماری، سه ویژگی سن، سیگاریبودن و BMI، گروهبندی شدند تا میانگین هزینهکرد هر گروه مشخص شود (شکل 3). به همین منظور ویژگی سن به گروههای (18-20)، (20-40)، (40-60) و (60-80) تقسیم شده و ویژگی BMI به گروههای (15-5/18)، (5/18-9/24)، (9/24-30) و (30-60) تقسیم شده است. همانطور که انتظار میرفت با افزایش سن و BMI، میزان هزینۀ سالانۀ بیمار افزایش مییابد. همچنین بررسی ویژگی سیگاریبودن، نشان میدهد افراد سیگاری، هزینۀ بسیار زیادی نسبت به افراد غیر سیگاری پرداخت میکنند. بهعبارتدیگر عوامل افراد مسن، دارای اضافهوزن و سیگاری، بیشتر در معرض بیماری قرار دارند و نسبت به بقیۀ گروهها هزینۀ بیشتری پرداخت میکنند. در مورد بقیۀ ویژگیها مانند جنسیت، منطقه و افراد تحت تکفل، بررسیها نشان میدهد که گروههای مختلف، تفاوت قابل توجهی با یکدیگر ندارند. البته در مورد افراد تحت تکفل برخلاف تصور، با افزایش تعداد افراد تحت تکفل، هزینه افزایش نمییابد و در برخی موارد کاهش را نیز تجربه میکند (شکل 4).
شکل 3: نمودار میانگین هزینه سالانه برای گروههای سنی(راست)، سیگاری(وسط) و BMI(چپ) |
شکل 4: نمودار میانگین هزینۀ سالانه بر اساس تعداد افراد تحت تکفل
شکل 5: نقشه حرارتی ویژگیهای مجموعهداده(چپ) و رتبهبندی همبستگی ویژگیها بر اساس هزینه سالانه(راست) |
نقشۀ حرارتی حاصل در شکل 5، یک نمایش بصری از همبستگی بین ویژگیها در مجموعهداده ارائه میدهد. هر سلول در نقشۀ حرارتی، باتوجهبه قدرت و جهت همبستگی، رنگ میشود. بررسی نقشۀ حرارتی، نشان میدهد که سیگاریبودن، سن و BMI، بیشترین همبستگی و تأثیر را بر روی هزینۀ سالانه دارند (شکل 5 رتبهبندی). ویژگیهای تعداد افراد تحت تکفل، منطقه و جنسیت نیز به ترتیب تأثیر مثبت، خنثی و منفی، بر روی هزینۀ سالانه دارند. در میان ویژگیهای مجموعهداده، میتوان گفت که سیگاریبودن با حدود 80% ارتباط مستقیم با هزینههای درمانی، با اختلاف، بیشترین عامل افزایش هزینههای درمانی است. بهطورکلی افراد سیگاریِ مسنِ چاق، مستعدترین افراد به بیماری و پرداخت هزینههای بیشتر برای درمان بیماری هستند.
4. روش پیشنهادی
شکل 6 : روش پیشنهادی برای پیشبینی هزینۀ سالانۀ بیمۀ درمانی
1-4.پیشپردازش
پیشپردازش مجموعهداده، میتواند تأثیر بسیار زیادی در نتایج ارزیابیها داشته باشد. در پیشپردازش داده، سعی میشود به حالت و وضعیت مناسب برای اعمال الگوریتم تبدیل شود. در مورد دادههای جنسیت، سیگاریبودن و منطقه که ماهیتی غیرعددی (کیفی) دارند، تبدیل به مقادیر عددی ضروری است؛ چرا که الگوریتمها بر اساس مقادیر عددی، قادر به پیشبینی هستند. به همین منظور با استفاده از روشهای جایگذاری مقادیر غیرعددی مانند male، female، yes، no و...، به یک عدد نگاشت میشوند.
مرحلۀ بعدی در پیشپردازش دادهها، دستهبندی میزان هزینۀ سالانه است. این کار، قابلیت طبقهبندی را به مجموعهداده میافزاید. برای دستهبندی هزینۀ سالانه، هزینۀ سالانه با تعداد نمونۀ مساوی برای هر بازه، بازهبندی میشود و به هر کدام از بازهها یک عدد اختصاص مییابد که به آن کلاس میگویند که کلاس 1، 2 و 3 به ترتیب نمایندۀ هزینهکرد کم، متوسط و زیاد هستند. بازۀ کلاسها بهصورت کلاس1 بازۀ 87/1121 تا 43/6250 دلار، کلاس2 بازۀ 47/6272 تا 44/12815دلار و کلاس3 بازۀ 45/12829 تا 42/63770 دلار است. جدول 4، چند نمونه از مجموعهداده را پس از پیشپردازش نشان میدهد.
جدول 4 : نمونهای از دادههای مجموعهداده بعد از پیشپردازش
ویژگیها | ||||||||
# | سن | جنسیت | شاخص تودۀ بدنی | افراد تحت تکفل | سیگاری بودن | منطقه | هزینۀ سالانه | کلاس |
0 | 19 | 1 | 27.900 | 0 | 1 | 0 | 16884.92400 | 2 |
1 | 18 | 0 | 33.770 | 1 | 0 | 1 | 1725.55230 | 0 |
2 | 28 | 0 | 33.000 | 3 | 0 | 1 | 4449.46200 | 0 |
3 | 33 | 0 | 22.705 | 0 | 0 | 2 | 21984.47061 | 2 |
4 | 32 | 0 | 28.880 | 0 | 0 | 2 | 3866.85520 | 0 |
در آخرین مرحله نیز نوبت به انتخاب ویژگی و تقسیم مجموعهداده به دادههای آموزشی6 و آزمایشی7 میرسد. باتوجهبه تحلیلهای انجامشده بر روی مجموعهداده و بینش بهدستآمده، همۀ ویژگیها بر روی هزینۀ سالانه تأثیرگذارند بهاستثنای ویژگی منطقه با درصد تأثیر 0062/0 که تقریباً حالت خنثی دارد. بنابراین در مرحلۀ انتخاب ویژگی، برای کاهش محاسبات، ویژگی منطقه، حذف میشود و ویژگیهای سن، جنسیت، افراد تحت تکفل، سیگاریبودن و BMI، برای آموزش الگوریتم انتخاب میشوند. تقسیم دادهها نیز با نسبت 80 به 20 انجام میشود؛ یعنی 80 درصد از نمونههای مجموعهداده برای آموزش الگوریتم استفاده میشوند و 20 درصد از آنها برای ارزیابی عملکرد مدل آموزش دیده استفاده میشوند.
2-4.آموزش مدل بر روی دادهها
طبقهبندی، یک تکنیک یادگیری تحت نظارت است که تابعی را از مجموعهدادههای آموزشی میآموزد که شامل ویژگیهای ورودی و خروجی طبقهبندی شده است. این تابع برای پیشبینی برچسب کلاس برای هر بردار ورودی معتبر، استفاده میشود. هدف اصلی طبقهبندی، استفاده از الگوریتمهای یادگیری ماشین برای دستیابی به بهترین دقت پیشبینی است(Syarif et al., 2016). در این پژوهش، آموزش مدل با استفاده از 9 الگوریتم طبقهبندی صورت میگیرد، به این صورت که این الگوریتمها با استفاده از دادههای آموزشی، آموزش میبینند و مدل طبقهبندی برای پیشبینی دسته(کم، متوسط، زیاد) هزینه ایجاد میشوند سپس این مدلها با استفاده از دادههای آزمایشی، ارزیابی میشوند. در جدول 5، توضیح مختصری برای هریک از الگوریتمها ارائه شده است.
جدول 5: توضیح الگوریتمهای طبقهبندی
الگوریتم | توضیح |
درخت تصمیم8 | یک الگوریتم طبقهبندی است که از یک مدل درختمانند از تصمیمها و پیامدهای احتمالی آنها استفاده میکند. این مجموعهداده را بر اساس مقادیر ویژگی به شاخههای مختلف تقسیم میکند و قوانین تصمیمگیری را برای طبقهبندی نمونهها ایجاد میکند.(Loh, 2011) |
جنگل تصادفی9 | یک روش یادگیری گروهی است که چندین طبقهبندی درخت تصمیم را برای پیشبینی ترکیب میکند. این یک جنگل از درختان تصمیم را ایجاد میکند که در آن هر درخت بر روی یک زیرمجموعۀ تصادفی از دادهها و ویژگیهای آموزشی، آموزش داده میشود. پیشبینی نهایی با تجمیع پیشبینیهای همۀ درختهای تصمیمگیری فردی انجام میشود.(Breiman, 2001) |
رگرسیون لجستیک10 | یک الگوریتم طبقهبندی است که احتمال یک نمونۀ متعلق به یک کلاس خاص را مدل میکند. از یک تابع لجستیک، برای ترسیم ویژگیهای ورودی بهاحتمال نتیجۀ باینری استفاده میکند.(Hosmer Jr et al., 2013) |
Ridge | گونهای از رگرسیون لجستیک است که یک اصطلاح منظمسازی به نام منظمسازی ریج را در خود جایداده است. این منظمسازی با افزودن یک عبارت جریمه به تابع ضرر به کاهش بیش از حد برازش کمک میکند.(Marquardt & Snee, 1975) |
KNN11 | یک الگوریتم غیرپارامتری است که نمونهها را بر اساس شباهت آنها با نمونههای همسایه در فضای ویژگی، طبقهبندی میکند. KNN یک نمونۀ آزمایشی را با درنظرگرفتن کلاس اکثریت k همسایۀ نزدیکش برچسبگذاری میکند.(Zhang et al., 2017) |
AdaBoost | یک الگوریتم یادگیری گروهی است که چندین طبقهبندی ضعیف را برای ایجاد یک طبقهبندی قوی ترکیب میکند. در هر تکرار، وزنهای بالاتری را به نمونههای طبقهبندیشدۀ اشتباه، اختصاص میدهد و به طبقهبندیکنندههای ضعیف بعدی، اجازه میدهد تا روی موارد دشوار تمرکز کنند. (Schapire & Freund, 2013) |
گاوسی سادهلوح بیز12 | یک الگوریتم احتمالی بر اساس قضیۀ بیز است. فرض میکند که ویژگیها باتوجهبه کلاس، بهصورت شرطی مستقل هستند و از توزیع گاوسی (عادی) پیروی میکنند.(Rish, 2001) |
ماشین بردار پشتیبانی13 | طبقهبندیکنندۀ قدرتمندی است که با ساخت ابرصفحهها در یک فضای ویژگی با ابعاد بالا، نمونهها را از هم جدا میکند. هدف SVM، به حداکثر رساندن حاشیۀ بین کلاسهای مختلف است که منجر به تعمیم بهتر میشود. میتواند هر دو وظیفۀ طبقهبندی خطی و غیرخطی را با استفاده از توابع کرنل مختلف انجام دهد.(Cortes & Vapnik, 1995) |
XGBClassifier | یک الگوریتم تقویت گرادیان بهینه است که ترکیبی از مدلهای مبتنی بر درخت و تکنیکهای منظمسازی برای دستیابی به عملکرد پیشبینی بالا را استفاده قرار می دهد. از یک الگوریتم بهینهسازی جدید و محاسبات موازی، برای افزایش سرعت آموزش و دقت مدل استفاده میکند.(Tianqi & Guestrin, 2016) |
3-4. ارزیابی عملکرد مدل
برای ارزیابی عملکرد مدلهای طبقهبندی حاصل از آموزش الگوریتمهای طبقهبندی، نیاز به استفاده از معیارهای مناسب برای مسائل طبقهبندی است. برای مسائل طبقهبندی، ارزیابی تبعیض(discrimination evaluation) بهترین راهحل (بهینه) در طول آموزش طبقهبندی، میتواند بر اساس ماتریس سردرگمی تعریف شود. همانطور که در جدول 6 نشان داده شده است. ردیف جدول، کلاس پیشبینیشده را نشان میدهد، در حالی که ستون، کلاس واقعی را نشان میدهد. از این ماتریس درهم ریختگی14، tp و tn نشاندهندۀ تعداد نمونههای مثبت و منفی هستند که بهدرستی طبقهبندی شدهاند. در همین حال، fp و fn به ترتیب تعداد نمونههای منفی و مثبت بهاشتباه طبقهبندی شده را نشان میدهند(Hossin & Sulaiman, 2015). از تعمیم چندکلاسی جدول 6 ، چهار معیار رایج میتوانند برای ارزیابی عملکرد طبقهبندیکننده استفاده شوند، همانطور که در جدول 7 نشان داده شدهاند. پس از ارزیابی تمام الگوریتمها با معیارهای زیر و مقایسۀ نتایج، بهترین الگوریتم بهعنوان الگوریتم منتخب برای مراحل بعدی انتخاب میشود.
جدول 6: ماتریس درهم ریختگی برای طبقهبندی دو کلاسی(Hossin & Sulaiman, 2015)
| در واقعیت مثبت | در واقعیت منفی |
پیشبینی مثبت | مثبت صادق15 (tp) | مثبت کاذب16 (fp) |
پیشبینی منفی | منفی کاذب17 (fn) | منفی صادق18 (tn) |
جدول 7 : معرفی معیارهای ارزیابی مدلهای طبقهبندیکننده(Hossin & Sulaiman, 2015)
معیار ارزیابی | فرمول | توضیح |
دقت19 | (1) | بهطورکلی، معیار دقت نسبت پیشبینیهای صحیح را بر تعداد کل موارد ارزیابیشده اندازهگیری میکند. |
صحت20 | (2) | صحت برای اندازهگیری الگوهای مثبتی که بهدرستی از کل الگوهای پیشبینیشده در یک کلاس مثبت پیشبینی شدهاند، استفاده میشود. |
حساسیت21 | (3) | حساسیت برای اندازهگیری کسری از الگوهای مثبت که بهدرستی طبقهبندی شدهاند استفاده میشود. |
F1-Score | (4) | این معیار، نشاندهندۀ میانگین هارمونیک بین مقادیر حساسیت و صحت است. |
5-4. بهبود عملکرد
بهطورکلی، اکثر الگوریتمهای یادگیری ماشین درصورتیکه پارامترهای آنها بهدرستی تنظیم نشوند، به نتایج بهینه دست نخواهند یافت. برای ساخت یک مدل طبقهبندی با دقت بالا، انتخاب یک الگوریتم قدرتمند یادگیری ماشین و همچنین تنظیم پارامترهای آن، بسیار مهم است. بهینهسازی پارامتر اگر بهصورت دستی انجام شود میتواند بسیار وقتگیر باشد، بهخصوص زمانی که الگوریتم یادگیری، دارای پارامترهای زیادی باشد(Syarif et al., 2016).
در این مقاله از روش Grid Search همراه با cross-validation برای بهبود پارامترهای الگوریتم منتخب استفاده شده است. Grid Search در اصل یک جستجوی جامع است که بر اساس زیرمجموعۀ تعریفشدۀ فضای فراپارامتر است. فراپارامترها با استفاده از مقدار حداقل (کران پایین)، مقدار حداکثر (کران بالایی) و تعداد مراحل، مشخص میشوند. سه مقیاس مختلف وجود دارد که میتوان از آنها استفاده کرد: مقیاس خطی، مقیاس درجۀ دوم و مقیاس لگاریتمی. در این روش، عملکرد هر ترکیب از پارامترها با استفاده از معیارهای عملکرد، ارزیابی میشود(Syarif et al., 2016).
5. بحث و نتایج
در تمامی مراحل این مقاله، از سرویس COLAB شرکت گوگل با سختافزار بدون GPU و 12.7 G Ram همراه با Python3 استفاده شده است. بررسی نتایج تحلیل مجموعهداده، نشان داد که عوامل سیگارکشیدن، سن و اضافهوزن، اثرات قابلتوجهی بر روی هزینههای درمان دارند که از بین این عوامل، میتوان سیگارکشیدن و اضافهوزن را کنترل نمود. این نتیجهگیری برای شرکتهای بیمه، برای مقایسه و توسعۀ محصولات بیمهای مؤثرتر و ارائۀ خدمات بیمهای بهتر، مفید است. علاوه بر این، ممکن است در ارزیابی برنامههای مدیریت سلامت جمعیت، مفید باشد.
جدول 8: نتایج ارزیابی الگوریتمهای طبقهبندی با معیارهای دقت، صحت، حساسیت و F1-Score (بهترین نتایج پررنگ شده است)
الگوریتم طبقهبندی | دقت (acc) | صحت (p) | حساسیت (r) | F1-Score |
درخت تصمیم | 0.78 | 0.79 | 0.78 | 0.78 |
جنگل تصادفی | 0.90 | 0.90 | 0.89 | 0.90 |
رگرسیون لجستیک | 0.84 | 0.88 | 0.83 | 0.84 |
Ridge | 0.88 | 0.90 | 0.87 | 0.87 |
KNN22 | 0.71 | 0.70 | 0.69 | 0.66 |
AdaBoost | 0.80 | 0.80 | 0.80 | 0.80 |
گاوسی سادهلوح بیز | 0.84 | 0.88 | 0.83 | 0.84 |
ماشین بردار پشتیبانی | 0.71 | 0.74 | 0.69 | 0.65 |
XGBClassifier | 0.87 | 0.87 | 0.86 | 0.86 |
نتایج ارزیابی الگوریتمهای طبقهبندی در جدول 8 ارائه شده است. بررسی نتایج ارزیابی نشان میدهد که الگوریتم جنگل تصادفی بادقت 90%، نسبت به دیگر الگوریتمها عملکرد بهتری داشته و در هر چهار معیار ارزیابی، امتیاز بالاتری کسب نموده است. در رتبۀ بعدی، الگوریتم Ridge قرار دارد که بادقت 88%، پیشبینی صحیح هزینۀ سالانه را انجام میدهد. الگوریتم XGBClassifier نیز بادقت 87% در رتبۀ 3 قرار میگیرد (شکل 7). بنابراین الگوریتم جنگل تصادفی بهعنوان الگوریتم منتخب انتخاب میشود.
شکل 7 : نمودار مقایسۀ دقت مدلهای طبقهبندی
شکل 8 : میزان اهمیت ویژگیها برای مدل جنگل تصادفی
برای افزایش توانایی مدل در پیشبینی هزینۀ سالانه، از روش بهبود پارامتر Grid Search بر روی الگوریتم منتخب استفاده میشود. مقادیر پارامتر حاصل از اعمال روش Grid Search همراه با cross-validation بر روی الگوریتم جنگل تصادفی، برابر با ('bootstrap': False, 'criterion': 'gini', 'max_depth': 8, 'n_estimators': 100) است. ارزیابی الگوریتم پس از تنظیم مقادیر پارامترهای بهدستآمده، نشان میدهد، میزان دقت به 91%، صحت به 92%، حساسیت به 90% و F1-Score به 91% رسیده است و عملکرد جنگل تصادفی در سه معیار، بهبود یافته است. بررسی اهمیت ویژگیها برای مدل بهدستآمده نشان میدهد که این مدل از سن و سیگاری بودن برای پیشبینی دستۀ هزینه (کم، متوسط و زیاد) بیشتر استفاده کرده است (شکل 8). بهعبارتدیگر برای مدل منتخب، تأثیرگذارترین عامل در پیشبینی دستۀ هزینه، سن است.
6. نتيجهگيري
بیمۀ درمانی یکی از راهحلهای افزایش وضعیت سلامتی جامعه است؛ چرا که توانایی افراد برای درمان بیماری خود را با پرداخت هزینه، افزایش میدهد. از مهمترین چالشهای صنعت بیمه، پیشبینی هزینههای بیمۀ درمانی افراد است. برای برآورد هزینههای بیمه و نرخگذاری بیمه، پیشبینی هزینۀ بیمۀ درمانی موردنیاز است.
در این مقاله با استفاده از مجموعهدادۀ بیمهشوندگان ادارۀ آمار امریکا، به بررسی عوامل مؤثر بر هزینۀ درمان پرداخته شد و با دستهبندی میزان هزینۀ پرداختی به کم، متوسط و زیاد، امکان طبقهبندی هزینۀ سالانه فراهم شد. مبتنی بر نتایج بهدستآمده بر اساس این مجموعهداده، میتوان گفت که سیگارکشیدن، تأثیر بسیار زیادی بر هزینههای درمانی دارد و افزایش سن و اضافهوزن (چاقی) به ترتیب بعد از آن قرار دارند. اما جنسیت، منطقه و تعداد افراد تحت تکفل تأثیر زیادی بر هزینههای درمانی ندارند. در طبقهبندی نیز عملکرد الگوریتم جنگل تصادفی بادقت 91% ، نسبت به سایر الگوریتمها بهتر است و دقت مناسبی برای برآورد کلی میزان هزینهکرد (کم، متوسط و زیاد) افراد برای درمان بیماری دارد. این نتایج، میتواند برای ارزیابی برنامههای مدیریت سلامت جمعیت استفاده شود؛ علاوه بر این، این رویکرد میتواند به رفاه اجتماعی برای سیاستگزاری و تصمیمگیری سریعتر در پیشبینی هزینۀ بیمۀ پزشکی، کمک کند.
محققان میتوانند با جمعآوری دادههای معتبر در حوزۀ بیمۀ درمان، زمینه را برای بررسی و تحلیل وضعیت بیمۀ درمانی در ایران فراهم کنند و به کمک مجموعهدادههای باکیفیت، امکان پیشبینی دقیق هزینۀ درمانی برای بیماران را فراهم نمایند.
تعارض منافع
تعارض منافع وجود ندارد.
کد ارکید
ORCID
Ali Zhaleh Karimi https://orcid.org/0009-0008-1115-6365
Ramin Dalir https://orcid.org/0009-0003-9000-977X
منابع
1. Arab, M., Fathian, M., & Aliahmadi Jeshfaghani, H. (2022). Forecast of Medical Expenses of Iran Health Insurance Organization Using Machine Learning Based Methods. Iranian Journal of Health Insurance, 0-0.
2. Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.
3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20, 273-297.
4. Dong, S., & Fei, D. (2021). Improve the interpretability by decision tree regression: exampled by an insurance dataset. 2021 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI),
5. Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
6. Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International journal of data mining & knowledge management process, 5(2), 1.
7. Islam, M. A., Nag, A., Chandra, P., Fahim, S. F. A., & Hoque, M. M. (2023). Healthcare Cost Patterns and Prediction: Investigating Personal Datasets Using Data Analytics. Authorea Preprints.
8. Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
9. Loh, W. Y. (2011). Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1), 14-23.
10. Marquardt, D. W., & Snee, R. D. (1975). Ridge regression in practice. The American Statistician, 29(1), 3-20.
11. Rish, I. (2001). An empirical study of the naive Bayes classifier. IJCAI 2001 workshop on empirical methods in artificial intelligence,
12. Schapire, R. E., & Freund, Y. (2013). Boosting: Foundations and algorithms. Kybernetes, 42(1), 164-166.
13. Syarif, I., Prugel-Bennett, A., & Wills, G. (2016). SVM parameter optimization using grid search and genetic algorithm to improve classification performance. TELKOMNIKA (Telecommunication Computing Electronics and Control), 14(4), 1502-1509.
14. Tajaddodi Nodehi, M., Hosseini Khatibani, S., Yazdinejad, M., & Zolfi, S. (2023). Predicting people's health insurance costs using machine learning and ensemble learning methods. Iranian Journal of Insurance Research, 13(1), 1-14. https://doi.org/10.22056/ijir.2024.01.01
15. Tianqi, C., & Guestrin, C. (2016). Xgboost: A scalable tree boosting system In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.
16. Zhang, S., Li, X., Zong, M., Zhu, X., & Wang, R. (2017). Efficient kNN classification with different numbers of nearest neighbors. IEEE transactions on neural networks and learning systems, 29(5), 1774-1785.
[1] * Master's student of artificial intelligence and robotics, Imam Hossein (AS) University, Tehran, Iran (Crossponding Authur), email: azhkarimi@ihu.ac.ir
[2] ** PhD Student of artificial intelligence, University of Zanjan, Zanjan, Iran, email: rdalir@ihu.ac.ir
[3] * دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه امام حسین (ع)، تهران ، ایران(نویسنده مسئول)، پست الکترونیکی: azhkarimi@ihu.ac.ir
[4] ** دانشجوی دکتری هوش مصنوعی، دانشگاه زنجان، زنجان، ایران ، پست الکترونیکی: rdalir@ihu.ac.ir
[5] https://www.kaggle.com/datasets/mirichoi0218/insurance/data
[6] Training Set
[7] Test Set
[8] Decision Tree
[9] Random Forest
[10] Logistic Regression
[11] K-Nearest Neighbors
[12] Gaussian Naive Bayes
[13] Support Vector Machine
[14] confusion matrix
[15] True Positive
[16] False Positive
[17] False Negative
[18] True Negative
[19] Accuracy
[20] Precision
[21] Recall
[22] K-Nearest Neighbors