کد مقاله : 140306051130204 بازدید : 326 صفحه: 83 - 101

نوع مقاله: پژوهشی

پیش‌بینی میزان هزینۀ سالانۀ بیمۀ درمانی با استفاده از یادگیری ماشین

محورهای موضوعی : کاربرد هوش مصنوعی و فناوری اطلاعات

1 - دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه امام حسین (ع)، تهران ، ایران
2 - دانشجوی دکتری هوش مصنوعی، دانشگاه زنجان، زنجان، ایران

تاریخ دریافت : 1402/12/19 تاریخ پذیرش : 1403/05/13 تاریخ انتشار : 1403/05/13

کلید واژه: بیمۀ درمانی, هزینۀ درمانی, طبقه‌بندی, یادگیری ماشین,

چکیده مقاله :

بیمۀ درمانی، یکی از راهکارهای کاهش هزینه‌های تحمیلی بر افراد جامعه است. مطالعه و بررسى در حوزۀ خسارات و بیماری‌ها، کمک می‌کند تا ذی‌نفعان به‌راحتی بتوانند دراین‌خصوص سیاست‌گزاری كنند. نرخ بيمه، تحت‌تأثیر برخى مسائل پزشكى است. برآورد دقيق هزینه‌های مراقبت‌های بهداشتی فردی و درمانی، برای طیفی از ذی‌نفعان و آژانس‌های بهداشتى مهم است. ازاین‌رو با پیش‌بینی هزینه‌های درمانی، هم بیمه‌شونده و هم بیمه‌گذار، می‌توانند تا حدودی آینده را پیش‌بینی کنند و گزینه‌های بهتری برای تصمیم‌گیری داشته باشند. پیش‌بینی هزینه‌کرد کم، متوسط یا زیاد افراد برای درمان بیماری و شناسایی عوامل مؤثر در هزینه‌های بیمۀ درمانی، از اهداف این مقاله است. در این مقاله از داده‌های ادارۀ سرشماری جمعیت امریکا مشتمل بر 1338 نمونه با ویژگی‌های سن، جنسیت، شاخص تودۀ بدنی (BMI)، سیگاری‌بودن، تعداد افراد تحت تکفل، منطقه و هزینۀ سالانه، استفاده شده است. در روش پیشنهادی ابتدا به تحلیل و بررسی مجموعه‌داده پرداخته می‌شود تا یک دید کلی از آن به دست آید و عوامل تأثیرگذار در هزینۀ درمانی شناسایی شوند. سپس با پیش‌پردازش و دسته‌بندی هزینه‌ها به کم، متوسط و زیاد، داده‌ها به شکل مناسب برای طبقه‌بندی تبدیل می‌شوند. در مرحلۀ بعد، از الگوریتم‌های طبقه‌بندی برای یادگیری دستۀ هر کدام از نمونه‌ها استفاده می‌شود و با ارزیابی آن‌ها، بهترین الگوریتم انتخاب می‌شود. در انتها با روش بهبود پارامتر و تنظیم پارامترهای الگوریتم، عملکرد الگوریتم بهبود می‌یابد و مدل پیش‌بینی میزان هزینۀ سالانه ایجاد می‌شود. بررسی مجموعه‌داده نشان داد که سیگاری‌بودن، افزایش سن و اضافه‌وزن بر روی هزینه‌های درمانی تأثیر گذارند. نتایج طبقه‌بندی نیز بیانگر این است که الگوریتم جنگل تصادفی با دقت 91% توانایی پیش‌بینی میزان هزینه‌کرد کم، متوسط و زیاد برای درمان بیماری را دارد.

چکیده انگلیسی:

Health insurance is one of the ways to reduce the costs imposed on society.Studying and researching in the field of damages and diseases helps the stakeholders to easily make policies in this regard.The insurance rate is affected by some medical issues. Accurate estimation of individual health care and treatment costs is important for a range of stakeholders and health agencies.Therefore, by predicting medical expenses, both the insured and the insurer can predict the future to some extent and have better options for making decisions. One of the goals of this article is to predict the low, medium or high spending of people for the treatment of the disease and to identify the effective factors in health insurance costs. In this article, the data of the US Census Bureau including 1338 samples with the features of age, gender, body mass index (BMI),smoking,number of dependents,region and annual cost are used. In the proposed method, the data set is first analyzed and reviewed in order to get a general view of it and to identify the influencing factors in the treatment cost.Then, by pre-processing and categorizing costs into low, medium and high, the data is converted into a form suitable for classification. In the next step, classification algorithms are used to learn the category of each of the samples, and by evaluating them, the best algorithm is selected. In the end, with the method of parameter improvement and algorithm parameters adjustment, the performance of the algorithm is improved and the annual cost prediction model is created.Examining the dataset showed that being a smoking, increasing age and being overweight have an effect on treatment costs.The classification results also show that the random forest algorithm has the ability to predict low, medium, and high costs for disease treatment with 91% accuracy.

منابع و مأخذ:

Arab, M., Fathian, M., & Aliahmadi Jeshfaghani, H. (2022). Forecast of Medical Expenses of Iran Health Insurance Organization Using Machine Learning Based Methods. Iranian Journal of Health Insurance, 0-0.
Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20, 273-297.
Dong, S., & Fei, D. (2021). Improve the interpretability by decision tree regression: exampled by an insurance dataset. 2021 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI),
Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International journal of data mining & knowledge management process, 5(2), 1.
Islam, M. A., Nag, A., Chandra, P., Fahim, S. F. A., & Hoque, M. M. (2023). Healthcare Cost Patterns and Prediction: Investigating Personal Datasets Using Data Analytics. Authorea Preprints.
Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.
Loh, W. Y. (2011). Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1), 14-23.
Marquardt, D. W., & Snee, R. D. (1975). Ridge regression in practice. The American Statistician, 29(1), 3-20.
Rish, I. (2001). An empirical study of the naive Bayes classifier. IJCAI 2001 workshop on empirical methods in artificial intelligence,
Schapire, R. E., & Freund, Y. (2013). Boosting: Foundations and algorithms. Kybernetes, 42(1), 164-166.
Syarif, I., Prugel-Bennett, A., & Wills, G. (2016). SVM parameter optimization using grid search and genetic algorithm to improve classification performance. TELKOMNIKA (Telecommunication Computing Electronics and Control), 14(4), 1502-1509.
Tajaddodi Nodehi, M., Hosseini Khatibani, S., Yazdinejad, M., & Zolfi, S. (2023). Predicting people's health insurance costs using machine learning and ensemble learning methods. Iranian Journal of Insurance Research, 13(1), 1-14. https://doi.org/10.22056/ijir.2024.01.01
Tianqi, C., & Guestrin, C. (2016). Xgboost: A scalable tree boosting system In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.
Zhang, S., Li, X., Zong, M., Zhu, X., & Wang, R. (2017). Efficient kNN classification with different numbers of nearest neighbors. IEEE transactions on neural networks and learning systems, 29(5), 1774-1785.

متن کامل:

$C:\Users\pazhohesh\Desktop\4df6d067-558e-4f3d-b6ad-6baf54c6e809.jpg$

Applied Research in Sustainable Industry Management

Original Research Article/ Vol.01, No.01, Spring 2024, P:83-101

Predicting the annual cost of medical insurance using machine learning

Ali Zhaleh Karimi ¹, Ramin Dalir²

Received: 10/03/2024 Accepted: 19/06/2024

Abstract:

Health insurance is one of the ways to reduce the costs imposed on society. Studying and researching in the field of damages and diseases helps the stakeholders to easily make policies in this regard. The insurance rate is affected by some medical issues. Accurate estimation of individual health care and treatment costs is important for a range of stakeholders and health agencies. Therefore, by predicting medical expenses, both the insured and the insurer can predict the future to some extent and have better options for making decisions. One of the goals of this article is to predict the low, medium or high spending of people for the treatment of the disease and to identify the effective factors in health insurance costs. In this article, the data of the US Census Bureau including 1338 samples with the features of age, gender, body mass index (BMI), smoking, number of dependents, region and annual cost are used. In the proposed method, the data set is first analyzed and reviewed in order to get a general view of it and to identify the influencing factors in the treatment cost. Then, by pre-processing and categorizing costs into low, medium and high, the data is converted into a form suitable for classification. In the next step, classification algorithms are used to learn the category of each of the samples, and by evaluating them, the best algorithm is selected. In the end, with the method of parameter improvement and algorithm parameters adjustment, the performance of the algorithm is improved and the annual cost prediction model is created. Examining the dataset showed that being a smoking, increasing age and being overweight have an effect on treatment costs. The classification results also show that the random forest algorithm has the ability to predict low, medium, and high costs for disease treatment with 91% accuracy.

Keywords:

Medical insurance, medical cost, classification, machine learning

پیش‌بینی میزان هزینۀ سالانۀ بیمۀ درمانی با استفاده از یادگیری ماشین

علی ژاله کریمی³، رامین دلیر⁴

تاریخ دریافت: 20/12/1402 تاریخ پذیرش: 30/03/1403

چکیده

واژگان کلیدی: بیمۀ درمانی، هزینۀ درمانی، طبقه‌بندی، یادگیری ماشین

1.‌ مقدمه

بیماری، یکی از رخداد‌هایی است که انسان در طور زندگی با آن دست و پنجه نرم می‌کند. بیماری، می‌تواند یک سرماخوردگی ساده یا سرطان باشد. هر نوع بیماری به نسبت شدتی که دارد، هزینه‌هایی بر افراد جامعه تحمیل می‌کند که در برخی موارد می‌تواند حجم بسیاری از سرمایۀ مالی فرد را مصرف کند. برآورد هزینه‌های پزشکی، دشوار است؛ زیرا پرهزینه‌ترین شرایط، نادر و به‌ظاهر تصادفی هستند. با این حال، برخی شرایط برای بخش‌های خاصی از جمعیت، شایع‌تر است. به‌عنوان مثال، احتمال ابتلا به سرطان ریه در میان افراد سیگاری، بیشتر از افراد غیر سیگاری است و احتمال ابتلا به بیماری قلبی در میان افراد چاق، بیشتر است(Lantz, 2019). بیمۀ درمانی، یکی از راهکارهای کاهش هزینه‌های تحمیلی بر افراد جامعه است. مفهوم محدود هزینه‌های بیمۀ درمانی را می‌توان به‌عنوان بیمه در برابر هزینه‌های پزشکی تحمیل‌شده در تشخیص و درمان یک بیماری توضیح داد؛ یعنی هزینه‌های بیمۀ پرداخت‌شده توسط بیمه‌شده برای به‌دست‌آوردن غرامت اقتصادی برای هزینه‌های پزشکی تحمیل‌شده به دلیل بیماری(Dong & Fei, 2021).

بيمه، يكى از ارکان توسعۀ نظام مراقبت‌های بهداشتى در جهان است. مطالعه و بررسى در حوزۀ خسارات و بیماری‌ها، کمک می‌کند تا ذی‌نفعان به‌راحتی بتوانند دراین‌خصوص سیاست‌گزاری كنند. ازاین‌رو با پیش‌بینی هزینه‌های درمانی، هم بیمه‌شونده و هم بیمه‌گذار، می‌توانند تا حدودی آینده را پیش‌بینی کنند و گزینه‌های بهتری برای تصمیم‌گیری داشته باشند. نرخ بيمه، تحت‌تأثیر برخى مسائل پزشكى است. برآورد دقيق هزینه‌های مراقبت‌های بهداشتی فردی و درمانی برای طیفی از ذی‌نفعان و آژانس‌های بهداشتى مهم است(Tajaddodi Nodehi et al., 2023).

مؤسسۀ بین‌المللی تأمین اجتماعی (ISSA) در "گزارش هزینه‌های بیمۀ پزشکی و بیمۀ بیماری"، دلایل مشترک زیر را برای افزایش هزینه‌های بیمۀ پزشکی فهرست کرده است: (۱) رشد جمعیت و پیری؛ (۲) تغییرها در ساختار بیماری؛ (۳) بهبود آموزش فرهنگی؛ (۴) تغییر‌های زندگی در محیط و محیط کار؛ (۵) بهبود استانداردهای زندگی؛ (۶) توسعۀ پزشکی(Dong & Fei, 2021).

در ایران نیز باتوجه‌به افزایش سن جمعیت، تقاضا برای منابع پزشکی در حال افزایش است. تحقیقات اندکی در مورد عوامل افزایش بیمۀ درمانی و پیش‌بینی هزینه‌های درمانی برای سازمان‌ها و افراد صورت‌گرفته است. پایین‌بودن سهم اعتبارات تخصيصى از محل بودجۀ عمومى دولت و منابع پیش‌پرداخت در بیمه‌های اجتماعی درمانی و بالابودن سهم هزینه‌های خانوارها از مجموع هزینه‌های مصرفی بهداشت و درمان کشور، از عوامل محدودکننده در تأمین مالی هزینه‌های مصرفی در بخش سلامت، محسوب می‌شود(Arab et al., 2022).

یکی از راهکارها برای برخورد با کسری منابع مالی، مدیریت و کنترل هزینه‌ها بر اساس پیش‌بینی هزینه‌ها است. در تمامی سازمان‌ها، حجم انبوهی از داده وجود دارد که استفاده و تجزیه‌وتحلیل آن‌ها، می‌تواند کمک شایان توجهی به تصمیم‌گیری مدیران داشته باشد، اما حجم بالاى اين داده‌ها و تنوع موجود در آنها و ارتباطات زیاد و ناشناخته بین آنها، باعث شده است که ابزارهای دستی و سیستمی معمولی، قادر به استفاده درست از آنها نبوده و بررسی این داده‌ها با روش‌های قدیمى، خارج از توان افراد و ناكارآمد است. پيشرفت فنّاورى و ايجاد فناوری‌های جدید، دغدغه‌های موجود در این زمینه را کاهش داده و با پیشنهاد به‌کارگیری ابزارها و تکنیک‌های جدید، امکان بررسی داده‌های انبوه و کشف دانش از دل این داده‌ها را امکان‌پذیر ساخته است(Arab et al., 2022). یکی از امروزی‌ترین و جدیدترین اين فناوری‌ها، هوش مصنوعی و استفاده از الگوریتم‌های یادگیری ماشین است.

در این مقاله از داده‌های آمار جمعیتی ادارۀ سرشماری ایالات متحده با ویژگی‌های سن، جنسیت، شاخص تودۀ بدنی (BMI)، سیگاری‌بودن، تعداد افراد تحت تکفل، منطقه و هزینۀ سالانه، استفاده شده است. این مجموعه‌داده، نمونۀ خوبی برای ارزیابی توانایی الگوریتم‌های یادگیری ماشین در پیش‌بینی عوامل مؤثر در بیماری و هزینه‌های درمانی است. برای پیش‌بینی هزینۀ سالانه، در این مقاله از روش طبقه‌بندی استفاده شده است که یکی از تکنیک‌های یادگیری با نظارت است و برای پیش‌بینی کلاس نمونه‌ها، از مجموعه‌داده استفاده می‌شود. به همین منظور ابتدا مجموعه‌داده بررسی و تحلیل شده و به کمک روش‌های پیش‌پردازش و انتخاب ویژگی، مجموعه‌دادۀ مناسب برای طبقه‌بندی داده‌ها به‌دست‌آمده است. در این روش، سه دسته کم، متوسط و زیاد بر اساس هزینه‌کرد بیمه‌شدگان تعریف شده است و از الگوریتم‌های طبقه‌بندی درخت تصمیم، جنگل تصادفی، رگرسیون لجستیک، ریج، KNN و... برای پیش‌بینی میزان هزینه‌کرد هر یک از بیمه‌شدگان استفاده شده است. همچنین برای افزایش دقت طبقه‌بندی، با استفاده از تکنیک بهبود پارامتر، الگوریتم Grid search به‌کار گرفته شده است.

2.‌ معرفی مجموعه‌داده

مجموعه‌دادۀ مورداستفاده یک مجموعه‌دادۀ شبیه‌سازی‌شده شامل هزینه‌های پزشکی برای بیماران در ایالات متحده است. این داده‌ها با استفاده از آمار جمعیتی ادارۀ آمار امریکا برای کتاب (Lantz, 2019) تهیه شده است و در پلتفرم Kaggle منتشر شده است⁵ و در حد خود، منعکس‌کنندۀ شرایط دنیای واقعی است. مجموعه‌دادۀ مجموعه، شامل ۱۳۳۸ نمونه از ذی‌نفعانی است که در حال حاضر در طرح بیمه ثبت‌نام کرده‌اند، ویژگی‌های سن، جنسیت، شاخص تودۀ بدنی(BMI)، سیگاری‌بودن، تعداد افراد تحت تکفل ، منطقه و هزینۀ سالانه که نشان‌دهندۀ ویژگی‌های بیمار و همچنین کل هزینه‌های پزشکی پرداخت‌شده به طرح برای سال تقویمی مورد توجه قرار گرفته است. توضیح هر یک از ویژگی‌ها در جدول 1 ارائه شده است. جدول 2 نیز چند نمونه از داده‌های مجموعه‌داده را نشان می‌دهد. همان‌طور که مشاهده می‌شود ویژگی‌های sex ، smoker و region ، دارای مقادیر غیرعددی هستند و بقیۀ ویژگی‌ها، مقادیر به‌صورت عددی هستند.

جدول 1: توضیح ویژگی‌های مجموعه‌داده

ویژگی	توضیح
سن (age)	یک عدد صحیح که سن ذی‌نفع اولیه را نشان می‌دهد (به‌استثنای افراد بالای 64 سال، زیرا عموماً تحت پوشش دولت هستند)
جنسیت (sex)	جنسیت دارندۀ بیمه‌نامۀ اعم از مرد یا زن
شاخص تودۀ بدنی (BMI)	شاخص تودۀ بدنی (BMI) که این حس را ارائه می‌دهد که یک فرد نسبت به قد خود، چقدر اضافه یا کم‌وزن دارد. BMI برابر است با وزن (به کیلوگرم) تقسیم بر مجذور قد (به متر). BMI ایده‌آل در محدودۀ 18.5 تا 24.9 است.
تعداد افراد تحت تکفل (children)	یک عدد صحیح که نشان‌دهندۀ تعداد فرزندان / افراد تحت تکفل تحت پوشش طرح بیمه است
سیگاری بودن (smoker)	یک متغیر قطعی بله یا خیر که نشان می‌دهد آیا بیمه‌شده به طور منظم سیگار می‌کشد یا خیر
منطقه (region)	محل سکونت ذی‌نفع در ایالات متحده، به چهار منطقۀ جغرافیایی تقسیم شده است: شمال شرقی، جنوب شرقی، جنوب غربی یا شمال غربی
هزینۀ سالانه (charges)	هزینه‌های درمانی هر فرد مشمول طرح بیمه در سال را نشان می‌دهد

جدول 2: نمونه‌ای از داده‌های مجموعه‌داده

ویژگی‌ها
#	سن	جنسیت	شاخص تودۀ بدنی	افراد تحت تکفل	سیگاری بودن	منطقه	هزینۀ سالانه
0	19	female	27.900	0	yes	southwest	16884.92400
1	18	male	33.770	1	no	southeast	1725.55230
2	28	male	33.000	3	no	southeast	4449.46200
3	33	male	22.705	0	no	northwest	21984.47061
4	32	male	28.880	0	no	northwest	3866.85520

3. بررسی و تحلیل داده‌ها

مرحلۀ تحلیل و بررسی مجموعه‌دادۀ فرایند تحقیق، شامل یک کاوش عمیق در مجموعه‌داده‌ها برای کشف الگوها، روابط و بینش‌هایی است که می‌تواند به آماده‌سازی و تحلیل مدل بعدی کمک کند(Islam et al., 2023).

با بررسی جدول 3 که تحلیل آماری ویژگی‌های عددی مجموعه‌داده را نشان می‌دهد، مشخص می‌شود که تعداد مقادیر هر یک از ویژگی‌ها 1338 است و مجموعه‌داده دارای دادۀ ازدست رفته نیست. همچنین بازۀ مقادیر و میانگین برای هر ویژگی نیز مشخص می‌شود. برهمین اساس میانگین سنی در این مجموعه‌داده حدود 39 سال و از بازۀ 18 الی 64 سال است. برای ویژگی BMI نیز، بازۀ از 96/15 الی 13/53 و میانگین برابر 66/30 است که نشان‌دهندۀ خارج بودن افراد از حالت ایده‌آل و اضافه‌وزن در آن‌ها است. ویژگی تعداد افراد تحت تکفل نیز از بازۀ 0 الی 5 است و میانگین آن، حدود 1 است. برای ویژگی هزینۀ سالانه نیز میانگین 44/13270 دلار و بازۀ از 87/1121 الی 42/63770 دلار است. نمودار توزیع ویژگی‌های افراد تحت تکفل و هزینۀ سالانه (شکل1) نیز نشان می‌دهد که توزیع تعداد افراد تحت تکفل، پله‌ای است و اکثر بیمه‌شوندگان، هزینۀ سالانه کمتر از 15000 دلار پرداخت کرده‌اند.

جدول 3: اطلاعات آماری ویژگی‌های مجموعه‌داده

اطلاعات آماری	ویژگی‌ها
اطلاعات آماری	سن	شاحص تودۀ بدنی	افراد تحت تکفل	هزینۀ سالانه
تعداد	1338.000000	1338.000000	1338.000000	1338.000000
میانگین	39.207025	30.663397	1.094918	13270.422265
انحراف معیار	14.049960	6.098187	1.205493	12110.011237
کمینه	18.000000	15.960000	0.000000	1121.873900
25%	27.000000	26.296250	0.000000	4740.287150
50%	39.000000	30.400000	1.000000	9382.033000
75%	51.000000	34.693750	2.000000	16639.912515
بیشینه	64.000000	53.130000	5.000000	63770.428010

شکل 1: نمودار توزیع هزینۀ سالانه(راست) و تعداد افراد تحت تکفل(چپ)

شکل 2 توزیع داده‌های غیرعددی را نشان می‌دهد. بررسی ویژگی جنسیت نشان می‌دهد که توزیع جنسیت بیمه‌شوندگان زن و مرد، تقریباً یکسان است و در مورد منطقه نیز هر چهار منطقه، تقریباً دارای توزیع یکسانی هستند اما ویژگی سیگاری‌بودن متفاوت از این دو ویژگی است و افراد غیر سیگاری در مقابل افراد سیگاری، بخش قابل‌توجهی (5/79%) از بیمه‌شوندگان را تشکیل می‌دهند.

شکل 2: توزیع ویژگی های جنسیت(راست)، سیگاری‌بودن(وسط) و منطقه(چپ)

برای تحلیل هزینه‌های پرداختی و عوامل مؤثر در بیماری، سه ویژگی سن، سیگاری‌بودن و BMI، گروه‌بندی شدند تا میانگین هزینه‌کرد هر گروه مشخص شود (شکل 3). به همین منظور ویژگی سن به گروه‌های (18-20)، (20-40)، (40-60) و (60-80) تقسیم شده و ویژگی BMI به گروه‌های (15-5/18)، (5/18-9/24)، (9/24-30) و (30-60) تقسیم شده است. همان‌طور که انتظار می‌رفت با افزایش سن و BMI، میزان هزینۀ سالانۀ بیمار افزایش می‌یابد. همچنین بررسی ویژگی سیگاری‌بودن، نشان می‌دهد افراد سیگاری، هزینۀ بسیار زیادی نسبت به افراد غیر سیگاری پرداخت می‌کنند. به‌عبارت‌دیگر عوامل افراد مسن، دارای اضافه‌وزن و سیگاری، بیش‌تر در معرض بیماری قرار دارند و نسبت به بقیۀ گروه‌ها هزینۀ بیشتری پرداخت می‌کنند. در مورد بقیۀ ویژگی‌ها مانند جنسیت، منطقه و افراد تحت تکفل، بررسی‌ها نشان می‌دهد که گروه‌های مختلف، تفاوت قابل توجهی با یکدیگر ندارند. البته در مورد افراد تحت تکفل برخلاف تصور، با افزایش تعداد افراد تحت تکفل، هزینه افزایش نمی‌یابد و در برخی موارد کاهش را نیز تجربه می‌کند (شکل 4).

شکل 3: نمودار میانگین هزینه سالانه برای گروه‌های سنی(راست)، سیگاری(وسط) و BMI(چپ)

شکل 4: نمودار میانگین هزینۀ سالانه بر اساس تعداد افراد تحت تکفل

شکل 5: نقشه حرارتی ویژگی‌های مجموعه‌داده(چپ) و رتبه‌بندی همبستگی ویژگی‌ها بر اساس هزینه سالانه(راست)

نقشۀ حرارتی حاصل در شکل 5، یک نمایش بصری از همبستگی بین ویژگی‌ها در مجموعه‌داده ارائه می‌دهد. هر سلول در نقشۀ حرارتی، باتوجه‌به قدرت و جهت همبستگی، رنگ می‌شود. بررسی نقشۀ حرارتی، نشان می‌دهد که سیگاری‌بودن، سن و BMI، بیشترین همبستگی و تأثیر را بر روی هزینۀ سالانه دارند (شکل 5 رتبه‌بندی). ویژگی‌های تعداد افراد تحت تکفل، منطقه و جنسیت نیز به ترتیب تأثیر مثبت، خنثی و منفی، بر روی هزینۀ سالانه دارند. در میان ویژگی‌های مجموعه‌داده، می‌توان گفت که سیگاری‌بودن با حدود 80% ارتباط مستقیم با هزینه‌های درمانی، با اختلاف، بیشترین عامل افزایش هزینه‌های درمانی است. به‌طورکلی افراد سیگاریِ مسنِ چاق، مستعد‌ترین افراد به بیماری و پرداخت هزینه‌های بیشتر برای درمان بیماری هستند.

4.‌ روش پیشنهادی

فرایند پیشنهادی برای حل مسئله این است که پس از تحلیل مجموعه‌داده و به‌دست‌آوردن دید کلی از ویژگی‌ها، به آماده‌سازی و پیش‌پردازش آن‌ها پرداخته می‌شود تا به داده‌های مناسب برای اعمال الگوریتم‌های طبقه‌بندی تبدیل شوند. سپس از 9 الگوریتم طبقه‌بندی برای پیش‌بینی میزان هزینۀ سالانه (کم، متوسط و زیاد) استفاده می‌شود و با ارزیابی و مقایسۀ نتایج هرکدام، بهترین الگوریتم انتخاب می‌شود. در انتها نیز با استفاده از روش Grid Search همراه با cross-validation ، به بهبود پارامترهای الگوریتم منتخب پرداخته می‌شود و در نهایت مدل پیش‌بینی میزان هزینۀ سالانه برای بیمۀ درمانی به دست می آید (شکل 6).

شکل 6 : روش پیشنهادی برای پیش‌بینی هزینۀ سالانۀ بیمۀ درمانی

1-4.پیش‌پردازش

پیش‌پردازش مجموعه‌داده، می‌تواند تأثیر بسیار زیادی در نتایج ارزیابی‌ها داشته باشد. در پیش‌پردازش داده، سعی می‌شود به حالت و وضعیت مناسب برای اعمال الگوریتم تبدیل شود. در مورد داده‌های جنسیت، سیگاری‌بودن و منطقه که ماهیتی غیرعددی (کیفی) دارند، تبدیل به مقادیر عددی ضروری است؛ چرا که الگوریتم‌ها بر اساس مقادیر عددی، قادر به پیش‌بینی هستند. به همین منظور با استفاده از روش‌های جای‌گذاری مقادیر غیرعددی مانند male، female، yes، no و...، به یک عدد نگاشت می‌شوند.

مرحلۀ بعدی در پیش‌پردازش داده‌ها، دسته‌بندی میزان هزینۀ سالانه است. این کار، قابلیت طبقه‌بندی را به مجموعه‌داده می‌افزاید. برای دسته‌بندی هزینۀ سالانه، هزینۀ سالانه با تعداد نمونۀ مساوی برای هر بازه، بازه‌بندی می‌شود و به هر کدام از بازه‌ها یک عدد اختصاص می‌یابد که به آن کلاس می‌گویند که کلاس 1، 2 و 3 به ترتیب نمایندۀ هزینه‌کرد کم، متوسط و زیاد هستند. بازۀ کلاس‌ها به‌صورت کلاس1 بازۀ 87/1121 تا 43/6250 دلار، کلاس2 بازۀ 47/6272 تا 44/12815دلار و کلاس3 بازۀ 45/12829 تا 42/63770 دلار است. جدول 4، چند نمونه از مجموعه‌داده را پس از پیش‌پردازش نشان می‌دهد.

جدول 4 : نمونه‌ای از داده‌های مجموعه‌داده بعد از پیش‌پردازش

ویژگی‌ها
#	سن	جنسیت	شاخص تودۀ بدنی	افراد تحت تکفل	سیگاری بودن	منطقه	هزینۀ سالانه	کلاس
0	19	1	27.900	0	1	0	16884.92400	2
1	18	0	33.770	1	0	1	1725.55230	0
2	28	0	33.000	3	0	1	4449.46200	0
3	33	0	22.705	0	0	2	21984.47061	2
4	32	0	28.880	0	0	2	3866.85520	0

در آخرین مرحله نیز نوبت به انتخاب ویژگی و تقسیم مجموعه‌داده به داده‌های آموزشی⁶ و آزمایشی⁷ می‌رسد. باتوجه‌به تحلیل‌های انجام‌شده بر روی مجموعه‌داده و بینش به‌دست‌آمده، همۀ ویژگی‌ها بر روی هزینۀ سالانه تأثیر‌گذارند به‌استثنای ویژگی منطقه با درصد تأثیر 0062/0 که تقریباً حالت خنثی دارد. بنابراین در مرحلۀ انتخاب ویژگی، برای کاهش محاسبات، ویژگی منطقه، حذف می‌شود و ویژگی‌های سن، جنسیت، افراد تحت تکفل، سیگاری‌‌بودن و BMI، برای آموزش الگوریتم انتخاب می‌شوند. تقسیم داده‌ها نیز با نسبت 80 به 20 انجام می‌شود؛ یعنی 80 درصد از نمونه‌های مجموعه‌داده برای آموزش الگوریتم استفاده می‌شوند و 20 درصد از آن‌ها برای ارزیابی عملکرد مدل آموزش دیده استفاده می‌شوند.

2-4.آموزش مدل بر روی داده‌ها

طبقه‌بندی، یک تکنیک یادگیری تحت نظارت است که تابعی را از مجموعه‌داده‌های آموزشی می‌آموزد که شامل ویژگی‌های ورودی و خروجی طبقه‌بندی شده است. این تابع برای پیش‌بینی برچسب کلاس برای هر بردار ورودی معتبر، استفاده می‌شود. هدف اصلی طبقه‌بندی، استفاده از الگوریتم‌های یادگیری ماشین برای دستیابی به بهترین دقت پیش‌بینی است(Syarif et al., 2016). در این پژوهش، آموزش مدل با استفاده از 9 الگوریتم طبقه‌بندی صورت می‌گیرد، به این صورت که این الگوریتم‌ها با استفاده از داده‌های آموزشی، آموزش می‌بینند و مدل طبقه‌بندی برای پیش‌بینی دسته(کم، متوسط، زیاد) هزینه ایجاد می‌شوند سپس این مدل‌ها با استفاده از داده‌های آزمایشی، ارزیابی می‌شوند. در جدول 5، توضیح مختصری برای هریک از الگوریتم‌ها ارائه شده است.

جدول 5: توضیح الگوریتم‌های طبقه‌بندی

الگوریتم	توضیح
درخت تصمیم⁸	یک الگوریتم طبقه‌بندی است که از یک مدل درخت‌مانند از تصمیم‌ها و پیامدهای احتمالی آنها استفاده می‌کند. این مجموعه‌داده را بر اساس مقادیر ویژگی به شاخه‌های مختلف تقسیم می‌کند و قوانین تصمیم‌گیری را برای طبقه‌بندی نمونه‌ها ایجاد می‌کند.(Loh, 2011)
جنگل تصادفی⁹	یک روش یادگیری گروهی است که چندین طبقه‌بندی درخت تصمیم را برای پیش‌بینی ترکیب می‌کند. این یک جنگل از درختان تصمیم را ایجاد می‌کند که در آن هر درخت بر روی یک زیر‌مجموعۀ تصادفی از داده‌ها و ویژگی‌های آموزشی، آموزش داده می‌شود. پیش‌بینی نهایی با تجمیع پیش‌بینی‌های همۀ درخت‌های تصمیم‌گیری فردی انجام می‌شود.(Breiman, 2001)
رگرسیون لجستیک¹⁰	یک الگوریتم طبقه‌بندی است که احتمال یک نمونۀ متعلق به یک کلاس خاص را مدل می‌کند. از یک تابع لجستیک، برای ترسیم ویژگی‌های ورودی به‌احتمال نتیجۀ باینری استفاده می‌کند.(Hosmer Jr et al., 2013)
Ridge	گونه‌ای از رگرسیون لجستیک است که یک اصطلاح منظم‌سازی به نام منظم‌سازی ریج را در خود جای‌داده است. این منظم‌سازی با افزودن یک عبارت جریمه به تابع ضرر به کاهش بیش از حد برازش کمک می‌کند.(Marquardt & Snee, 1975)
KNN¹¹	یک الگوریتم غیرپارامتری است که نمونه‌ها را بر اساس شباهت آن‌ها با نمونه‌های همسایه در فضای ویژگی، طبقه‌بندی می‌کند. KNN یک نمونۀ آزمایشی را با درنظرگرفتن کلاس اکثریت k همسایۀ نزدیکش برچسب‌گذاری می‌کند.(Zhang et al., 2017)
AdaBoost	یک الگوریتم یادگیری گروهی است که چندین طبقه‌بندی ضعیف را برای ایجاد یک طبقه‌بندی قوی ترکیب می‌کند. در هر تکرار، وزن‌های بالاتری را به نمونه‌های طبقه‌بندی‌شدۀ اشتباه، اختصاص می‌دهد و به طبقه‌بندی‌کننده‌های ضعیف بعدی، اجازه می‌دهد تا روی موارد دشوار تمرکز کنند. (Schapire & Freund, 2013)
گاوسی ساده‌لوح بیز¹²	یک الگوریتم احتمالی بر اساس قضیۀ بیز است. فرض می‌کند که ویژگی‌ها باتوجه‌به کلاس، به‌صورت شرطی مستقل هستند و از توزیع گاوسی (عادی) پیروی می‌کنند.(Rish, 2001)
ماشین بردار پشتیبانی¹³	طبقه‌بندی‌کنندۀ قدرتمندی است که با ساخت ابر‌صفحه‌ها در یک فضای ویژگی با ابعاد بالا، نمونه‌ها را از هم جدا می‌کند. هدف SVM، به حداکثر رساندن حاشیۀ بین کلاس‌های مختلف است که منجر به تعمیم بهتر می‌شود. می‌تواند هر دو وظیفۀ طبقه‌بندی خطی و غیرخطی را با استفاده از توابع کرنل مختلف انجام دهد.(Cortes & Vapnik, 1995)
XGBClassifier	یک الگوریتم تقویت گرادیان بهینه است که ترکیبی از مدل‌های مبتنی بر درخت و تکنیک‌های منظم‌سازی برای دستیابی به عملکرد پیش‌بینی بالا را استفاده قرار می دهد. از یک الگوریتم بهینه‌سازی جدید و محاسبات موازی، برای افزایش سرعت آموزش و دقت مدل استفاده می‌کند.(Tianqi & Guestrin, 2016)

3-4. ارزیابی عملکرد مدل

برای ارزیابی عملکرد مدل‌های طبقه‌بندی حاصل از آموزش الگوریتم‌های طبقه‌بندی، نیاز به استفاده از معیارهای مناسب برای مسائل طبقه‌بندی است. برای مسائل طبقه‌بندی، ارزیابی تبعیض(discrimination evaluation) بهترین راه‌حل (بهینه) در طول آموزش طبقه‌بندی، می‌تواند بر اساس ماتریس سردرگمی تعریف شود. همان‌طور که در جدول 6 نشان داده شده است. ردیف جدول، کلاس پیش‌بینی‌شده را نشان می‌دهد، در حالی که ستون، کلاس واقعی را نشان می‌دهد. از این ماتریس درهم ریختگی¹⁴، tp و tn نشان‌دهندۀ تعداد نمونه‌های مثبت و منفی هستند که به‌درستی طبقه‌بندی شده‌اند. در همین حال، fp و fn به ترتیب تعداد نمونه‌های منفی و مثبت به‌اشتباه طبقه‌بندی شده را نشان می‌دهند(Hossin & Sulaiman, 2015). از تعمیم چند‌کلاسی جدول 6 ، چهار معیار رایج می‌توانند برای ارزیابی عملکرد طبقه‌بندی‌کننده استفاده شوند، همان‌طور که در جدول 7 نشان داده شده‌اند. پس از ارزیابی تمام الگوریتم‌ها با معیارهای زیر و مقایسۀ نتایج، بهترین الگوریتم به‌عنوان الگوریتم منتخب برای مراحل بعدی انتخاب می‌شود.

جدول 6: ماتریس درهم ریختگی برای طبقه‌بندی دو کلاسی(Hossin & Sulaiman, 2015)

	در واقعیت مثبت	در واقعیت منفی
پیش‌بینی مثبت	مثبت صادق¹⁵ (tp)	مثبت کاذب¹⁶ (fp)
پیش‌بینی منفی	منفی کاذب¹⁷ (fn)	منفی صادق¹⁸ (tn)

جدول 7 : معرفی معیارهای ارزیابی مدل‌های طبقه‌بندی‌کننده(Hossin & Sulaiman, 2015)

معیار ارزیابی	فرمول	توضیح
دقت¹⁹	(1)	به‌طورکلی، معیار دقت نسبت پیش‌بینی‌های صحیح را بر تعداد کل موارد ارزیابی‌شده اندازه‌گیری می‌کند.
صحت²⁰	(2)	صحت برای اندازه‌گیری الگوهای مثبتی که به‌درستی از کل الگوهای پیش‌بینی‌شده در یک کلاس مثبت پیش‌بینی شده‌اند، استفاده می‌شود.
حساسیت²¹	(3)	حساسیت برای اندازه‌گیری کسری از الگوهای مثبت که به‌درستی طبقه‌بندی شده‌اند استفاده می‌شود.
F1-Score	(4)	این معیار، نشان‌دهندۀ میانگین هارمونیک بین مقادیر حساسیت و صحت است.

5-4. بهبود عملکرد

به‌طورکلی، اکثر الگوریتم‌های یادگیری ماشین درصورتی‌که پارامترهای آن‌ها به‌درستی تنظیم نشوند، به نتایج بهینه دست نخواهند یافت. برای ساخت یک مدل طبقه‌بندی با دقت بالا، انتخاب یک الگوریتم قدرتمند یادگیری ماشین و همچنین تنظیم پارامترهای آن، بسیار مهم است. بهینه‌سازی پارامتر اگر به‌صورت دستی انجام شود می‌تواند بسیار وقت‌گیر باشد، به‌خصوص زمانی که الگوریتم یادگیری، دارای پارامترهای زیادی باشد(Syarif et al., 2016).

در این مقاله از روش Grid Search همراه با cross-validation برای بهبود پارامترهای الگوریتم منتخب استفاده شده است. Grid Search در اصل یک جستجوی جامع است که بر اساس زیرمجموعۀ تعریف‌شدۀ فضای فراپارامتر است. فراپارامترها با استفاده از مقدار حداقل (کران پایین)، مقدار حداکثر (کران بالایی) و تعداد مراحل، مشخص می‌شوند. سه مقیاس مختلف وجود دارد که می‌توان از آنها استفاده کرد: مقیاس خطی، مقیاس درجۀ دوم و مقیاس لگاریتمی. در این روش، عملکرد هر ترکیب از پارامترها با استفاده از معیارهای عملکرد، ارزیابی می‌شود(Syarif et al., 2016).

5. بحث و نتایج

در تمامی مراحل این مقاله، از سرویس COLAB شرکت گوگل با سخت‌افزار بدون GPU و 12.7 G Ram همراه با Python3 استفاده شده است. بررسی نتایج تحلیل مجموعه‌داده، نشان داد که عوامل سیگارکشیدن، سن و اضافه‌وزن، اثرات قابل‌توجهی بر روی هزینه‌های درمان دارند که از بین این عوامل، می‌توان سیگارکشیدن و اضافه‌وزن را کنترل نمود. این نتیجه‌گیری برای شرکت‌های بیمه، برای مقایسه و توسعۀ محصولات بیمه‌ای مؤثرتر و ارائۀ خدمات بیمه‌ای بهتر، مفید است. علاوه بر این، ممکن است در ارزیابی برنامه‌های مدیریت سلامت جمعیت، مفید باشد.

جدول 8: نتایج ارزیابی الگوریتم‌های طبقه‌بندی با معیارهای دقت، صحت، حساسیت و F1-Score (بهترین نتایج پررنگ شده است)

الگوریتم طبقه‌بندی	دقت (acc)	صحت (p)	حساسیت (r)	F1-Score
درخت تصمیم	0.78	0.79	0.78	0.78
جنگل تصادفی	0.90	0.90	0.89	0.90
رگرسیون لجستیک	0.84	0.88	0.83	0.84
Ridge	0.88	0.90	0.87	0.87
KNN²²	0.71	0.70	0.69	0.66
AdaBoost	0.80	0.80	0.80	0.80
گاوسی ساده‌لوح بیز	0.84	0.88	0.83	0.84
ماشین بردار پشتیبانی	0.71	0.74	0.69	0.65
XGBClassifier	0.87	0.87	0.86	0.86

نتایج ارزیابی الگوریتم‌های طبقه‌بندی در جدول 8 ارائه شده است. بررسی نتایج ارزیابی نشان می‌دهد که الگوریتم جنگل تصادفی بادقت 90%، نسبت به دیگر الگوریتم‌ها عملکرد بهتری داشته و در هر چهار معیار ارزیابی، امتیاز بالاتری کسب نموده است. در رتبۀ بعدی، الگوریتم Ridge قرار دارد که بادقت 88%، پیش‌بینی صحیح هزینۀ سالانه را انجام می‌دهد. الگوریتم XGBClassifier نیز بادقت 87% در رتبۀ 3 قرار می‌گیرد (شکل 7). بنابراین الگوریتم جنگل تصادفی به‌عنوان الگوریتم منتخب انتخاب می‌شود.

شکل 7 : نمودار مقایسۀ دقت مدل‌های طبقه‌بندی

شکل 8 : میزان اهمیت ویژگی‌ها برای مدل جنگل تصادفی

برای افزایش توانایی مدل در پیش‌بینی هزینۀ سالانه، از روش بهبود پارامتر Grid Search بر روی الگوریتم منتخب استفاده می‌شود. مقادیر پارامتر حاصل از اعمال روش Grid Search همراه با cross-validation بر روی الگوریتم جنگل تصادفی، برابر با ('bootstrap': False, 'criterion': 'gini', 'max_depth': 8, 'n_estimators': 100) است. ارزیابی الگوریتم پس از تنظیم مقادیر پارامترهای به‌دست‌آمده، نشان می‌دهد، میزان دقت به 91%، صحت به 92%، حساسیت به 90% و F1-Score به 91% رسیده است و عملکرد جنگل تصادفی در سه معیار، بهبود یافته است. بررسی اهمیت ویژگی‌ها برای مدل به‌دست‌آمده نشان می‌دهد که این مدل از سن و سیگاری بودن برای پیش‌بینی دستۀ هزینه (کم، متوسط و زیاد) بیشتر استفاده کرده است (شکل 8). به‌عبارت‌دیگر برای مدل منتخب، تأثیرگذارترین عامل در پیش‌بینی دستۀ هزینه، سن است.

6. نتيجه‌گيري

بیمۀ درمانی یکی از راه‌حل‌های افزایش وضعیت سلامتی جامعه است؛ چرا که توانایی افراد برای درمان بیماری خود را با پرداخت هزینه، افزایش می‌دهد. از مهم‌ترین چالش‌های صنعت بیمه، پیش‌بینی هزینه‌های بیمۀ درمانی افراد است. برای برآورد هزینه‌های بیمه و نرخ‌گذاری بیمه، پیش‌بینی هزینۀ بیمۀ درمانی موردنیاز است.

در این مقاله با استفاده از مجموعه‌دادۀ بیمه‌شوندگان ادارۀ آمار امریکا، به بررسی عوامل مؤثر بر هزینۀ درمان پرداخته شد و با دسته‌بندی میزان هزینۀ پرداختی به کم، متوسط و زیاد، امکان طبقه‌بندی هزینۀ سالانه فراهم شد. مبتنی بر نتایج به‌دست‌آمده بر اساس این مجموعه‌داده، می‌توان گفت که سیگارکشیدن، تأثیر بسیار زیادی بر هزینه‌های درمانی دارد و افزایش سن و اضافه‌وزن (چاقی) به ترتیب بعد از آن قرار دارند. اما جنسیت، منطقه و تعداد افراد تحت تکفل تأثیر زیادی بر هزینه‌های درمانی ندارند. در طبقه‌بندی نیز عملکرد الگوریتم جنگل تصادفی بادقت 91% ، نسبت به سایر الگوریتم‌ها بهتر است و دقت مناسبی برای برآورد کلی میزان هزینه‌کرد (کم، متوسط و زیاد) افراد برای درمان بیماری دارد. این نتایج، می‌تواند برای ارزیابی برنامه‌های مدیریت سلامت جمعیت استفاده شود؛ علاوه بر این، این رویکرد می‌تواند به رفاه اجتماعی برای سیاست‌گزاری و تصمیم‌گیری سریع‌تر در پیش‌بینی هزینۀ بیمۀ پزشکی، کمک کند.

محققان می‌توانند با جمع‌آوری داده‌های معتبر در حوزۀ بیمۀ درمان، زمینه را برای بررسی و تحلیل وضعیت بیمۀ درمانی در ایران فراهم کنند و به کمک مجموعه‌داده‌های باکیفیت، امکان پیش‌بینی دقیق هزینۀ درمانی برای بیماران را فراهم نمایند.

تعارض منافع

تعارض منافع وجود ندارد.

کد ارکید

ORCID

Ali Zhaleh Karimi https://orcid.org/0009-0008-1115-6365

Ramin Dalir https://orcid.org/0009-0003-9000-977X

منابع

1. Arab, M., Fathian, M., & Aliahmadi Jeshfaghani, H. (2022). Forecast of Medical Expenses of Iran Health Insurance Organization Using Machine Learning Based Methods. Iranian Journal of Health Insurance, 0-0.

2. Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.

3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20, 273-297.

4. Dong, S., & Fei, D. (2021). Improve the interpretability by decision tree regression: exampled by an insurance dataset. 2021 International Conference on Computer Engineering and Artificial Intelligence (ICCEAI),

5. Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.

6. Hossin, M., & Sulaiman, M. N. (2015). A review on evaluation metrics for data classification evaluations. International journal of data mining & knowledge management process, 5(2), 1.

7. Islam, M. A., Nag, A., Chandra, P., Fahim, S. F. A., & Hoque, M. M. (2023). Healthcare Cost Patterns and Prediction: Investigating Personal Datasets Using Data Analytics. Authorea Preprints.

8. Lantz, B. (2019). Machine learning with R: expert techniques for predictive modeling. Packt publishing ltd.

9. Loh, W. Y. (2011). Classification and regression trees. Wiley interdisciplinary reviews: data mining and knowledge discovery, 1(1), 14-23.

10. Marquardt, D. W., & Snee, R. D. (1975). Ridge regression in practice. The American Statistician, 29(1), 3-20.

11. Rish, I. (2001). An empirical study of the naive Bayes classifier. IJCAI 2001 workshop on empirical methods in artificial intelligence,

12. Schapire, R. E., & Freund, Y. (2013). Boosting: Foundations and algorithms. Kybernetes, 42(1), 164-166.

13. Syarif, I., Prugel-Bennett, A., & Wills, G. (2016). SVM parameter optimization using grid search and genetic algorithm to improve classification performance. TELKOMNIKA (Telecommunication Computing Electronics and Control), 14(4), 1502-1509.

14. Tajaddodi Nodehi, M., Hosseini Khatibani, S., Yazdinejad, M., & Zolfi, S. (2023). Predicting people's health insurance costs using machine learning and ensemble learning methods. Iranian Journal of Insurance Research, 13(1), 1-14. https://doi.org/10.22056/ijir.2024.01.01

15. Tianqi, C., & Guestrin, C. (2016). Xgboost: A scalable tree boosting system In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.

16. Zhang, S., Li, X., Zong, M., Zhu, X., & Wang, R. (2017). Efficient kNN classification with different numbers of nearest neighbors. IEEE transactions on neural networks and learning systems, 29(5), 1774-1785.

[1] * Master's student of artificial intelligence and robotics, Imam Hossein (AS) University, Tehran, Iran (Crossponding Authur), email: azhkarimi@ihu.ac.ir

[2] ** PhD Student of artificial intelligence, University of Zanjan, Zanjan, Iran, email: rdalir@ihu.ac.ir

[3] * دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه امام حسین (ع)، تهران ، ایران(نویسنده مسئول)، پست الکترونیکی: azhkarimi@ihu.ac.ir

[4] ** دانشجوی دکتری هوش مصنوعی، دانشگاه زنجان، زنجان، ایران ، پست الکترونیکی: rdalir@ihu.ac.ir

[5] https://www.kaggle.com/datasets/mirichoi0218/insurance/data

[6] Training Set

[7] Test Set

[8] Decision Tree

[9] Random Forest

[10] Logistic Regression

[11] K-Nearest Neighbors

[12] Gaussian Naive Bayes

[13] Support Vector Machine

[14] confusion matrix

[15] True Positive

[16] False Positive

[17] False Negative

[18] True Negative

[19] Accuracy

[20] Precision

[21] Recall

[22] K-Nearest Neighbors

مقالات مرتبط

مدیریت عملکرد کسب و کار توسط عینی‏ سازي داده‏ها با داشبورد سلف سرویس در عصر تحول دیجیتال
تاریخ چاپ : 1403/05/13
بررسی اثر هوش مصنوعی در حکمرانی شبکه ای سازمانهای خدماتی، مورد مطالعه: صنعت توزیع گاز ایران
تاریخ چاپ : 1403/05/13

اشتراک گذاری

آدرس مقاله

پیش‌بینی میزان هزینۀ سالانۀ بیمۀ درمانی با استفاده از یادگیری ماشین