Providing a Model for Preprocessing the Organizational Data in Order to Predict Insurance Business Processes
Subject Areas : StatisticsMehrdad Fadaei PellehShahi 1 , Sohrab Kordrostami 2 * , Amir Hossein Refahi Sheikhani 3 , Marzieh Faridi Masouleh 4 , Soheil Shokri 5
1 - Applied Mathematics, Department of Mathematics, Lahijan Branch, Islamic Azad University, Lahijan, Iran
2 - Department of Mathematics, Lahijan Branch, Islamic Azad University, Lahijan, Iran
3 - Department of Mathematics, Lahijan Branch, Islamic Azad University, Lahijan, Iran
4 - Computer and Information Technology Department, Ahrar Institute of Technology and Higher Education, Rasht, Iran
5 - Department of Mathematics, Lahijan Branch, Islamic Azad University, Lahijan, Iran
Keywords: پیش پردازش, شبکه عصبی بازگشتی, داده کاوی, کسب و کار بیمه های اجتماعی, پیش بینی,
Abstract :
In this paper , a new data preprocessing method for predicting business processes is presented , using recursive neural networks , Markov chains and recursive deep learning . The aim of this study is to obtain high quality data and extract the information of the most important variables involved in the disability process of the Social Security Organization (S S O ) . For this purpose, the proposed method includes reducing the number of features and normalizing the data compared to the initial features . The method is implemented for real data of the Social Security Organization and is applied in the form of predictive method . T he results show that the proposed method increases the amount of memory usage , but the amount of CPU usage time becomes significantly lower than the methods compared . In addition, the presented method signifi cantly increases the accuracy and efficiency .
[1] A. Khan, H. Le, K. Do, T. Tran, A. Ghose, H. Dam, R. Sindhgatta. Memory-augmented neural networks for predictive process analytics: arXiv preprint arXiv: 1802. 00938 (2018).
[2] A. E. Márquez-Chamorro, M. Resinas, A. Ruiz-Corts.Predictive monitoring of business processes: a survey. IEEE Transactions on Services Computing 99:1-1 (2017).
[3] L. Lin, L. Wen, J. Wang. Mm-pred: A deep predictive model for multi-attribute event sequence. In Proceedings of the 2019 SIAM international conference on data mining: Society for Industrial and Applied Mathematics. 118-126 (2019).
[4] J.-P. Briot, G. Hadjeres, F. Pachet. Deep learning techniques for music generation-a survey. arXiv preprint arXiv: 1709.0162. (2019)
[5] J. Evermann, J.-R. Rehse, P. Fettke. A deep learning approach for predicting process behavior at runtime: in International Conference on Business Process Management, Springer 327-338 (2016).
[6] Y. LeCun, Y. Bengio, G. Hinton. Deep learning: Nature 521: 436–444 (2015).
[7] T. A. Gibson, J. A. Henderson, J. Wiles. Predicting temporal sequences using an event-based spiking neural network incorporating learnable delays 3213-3220 (2014).
[8] F. Daniel, K. Barkaoui, S. Dustdar,eds. Process Mining Manifesto: in Business Process Management Workshops. IEEE Task Force on Process Mining. vol. 99 of Lecture Notes in Business Information Processing, Springer-Verlag, Berlin 169-194 (2012).
[9] J. Kumar, A. K. Singh. Workload prediction in cloud using arti_cial neural network and adaptive di_erential evolution. Future Generation Computer Systems 81: 41-52 (2018).
[10] N. Tax, I. Verenich, M. La Rosa, M. Dumas. Predictive business process monitoring with lstm neural networks: In International Conference on Advanced Information Systems Engineering, 477–492 (2017).
[11] W. M. P. van der Aalst, M.H. Schonenberg, M. Song. Time prediction based on process mining. Inf. Syst 36(2): 450–475 (2011).
[12] X. Jiang, S. Pan, G. Long, F. Xiong, J. Jiang, C. Zhang. Cost-sensitive parallel learning framework for insurance intelligence operation. Transactions on Industrial Electronics 1–11 (2018).
[13] M.A. Jassim, S.N. Abdulwahid. Data Mining preparation: Process, Techniques and Major Issues in Data Analysis, IOP Conf. Ser.: Mater. Sci. Eng. 1090 012053 (2021).
[14] A.K. Dubey, A. Kumar, R . Agrawal. An efficient ACO‑PSO‑based framework for data classification and preprocessing in big data, Evolutionary Intelligence, part of Springer Nature 2020 https://doi. org/10. 1007/s12065-020-00477-7 (2020)
[15] S. García, S. Ramírez-Gallego, J. Luengo, J.M. Benítez, F.,Herrera. Big data preprocessing: methods and prospects, Big Data Analytics, DOI 10.1186/s41044-016-0014-0 (2016).
[16] J. A. Cortés-Ibáñez, S. González, J. J. Valle-Alonso, J. Luengo, S. García, F. Herrera. Preprocessing methodology for time series: an industrial world application case study. Information Sciences, 514, 385-401 (2020).
[17] H.woo, J. kim, W. Lee. Validation of Text Data Preprocessing Using a Neural Network Model: Mathematical Problems in Engineering. ) 2020).
[18] G. report.Critical Capabilities for Composite Content Management Applications (2010).
[19] G. T. Lakshmanan, D. Shamsi, Y. N. Doganata, M. Unuvar, R. Khalaf. A markov predictionmodel for data-driven semi-structured business processes: Knowledge and Information Systems 42: 97-126 (2015).
[20] W.V. Aalst, A. Adriansyah, A.K. Medeiros, F. Arcieri, T. Baier, T. Blickle, J. Chandra Bose, P.Van Den Brand, R. Brandtjen, J. Buijs. Process mining manifesto: In International Conference on Business Process Management 169–194 (2011).
[21] J. Schmidhuber. Deep learning in neural networks: An overview. Neural Networks 61: 85–117 (2015).
[22] N. Tax, I. Verenich, M. La Rosa, M. Dumas. Predictive business process monitoring with lstm neural networks: in International Conference on Advanced Information Systems Engineering. Springer 477-492 (2017).
[23] N. Navarin, B. Vincenzi, M. Polato, A. Sperduti. Lstm networks for data-aware remaining time prediction of business process instances: arXiv preprint arXiv: 1711.03822 (2017).
[24] J. Evermann, J. Rehse, P. Fettke. Predicting process behaviour using deep learning: Decision Support Systems. (2017).
[25] P.H. Klees, M. leoni A. W. Veenstra. The Application of Comparative Process Mining in Logistics.Student theses are made available in the TU/e repository upon obtaining the required degree. (2017).
[26] M. Fadaei Pellehshahi, S. Kordrostami, A.H. Refahi Sheikhani, M. Faridi Masouleh. Predicting business processes of the social insurance using recurrent neural network and Markov chain: Journal of Modelling in Management, Vol. ahead-of- print No. ahead- of- print. (2021).
ارائه مدل پیشپردازش دادههای سازمانی جهت پیشبینی فرآیندهای
کسب و کار بیمههای اجتماعی
چکیده
در این مقاله، یک روش جدید پیشپردازش دادهها در زمینه پیشبینی فرآیندهای کسب و کار با استفاده از شبکه عصبی بازگشتی، زنجیره مارکوف و یادگیری عمیق بازگشتی ارائه شده است. هدف، بدست آوردن دادههای با کیفیت و استخراج اطلاعات مهمترین متغیرهای دخیل در فرآیند از کارافتادگی از سازمان تامین اجتماعی است. برای دستیابی به این هدف، روش، شامل کاهش تعداد ویژگی و نرمالسازی دادهها در مقایسه با ویژگیهای اولیه میباشد. روش پیشنهادی با دادههای حقیقی سازمان تامین اجتماعی؛ پیادهسازی شده و در مدل، پیشبینی اعمال گردیده و نتایج نشان میدهد که استفاده از روش ارائه شده، میزان استفاده از منابع حافظهای را به میزان بسیار جزئی افزایشداده ولی میزان زمان استفاده از CPU، نسبت به روشهای مورد مقایسه کاهش چشمگیری داشته و مضاعف بر آن، میزان دقت و کارایی را نیز به میزان قابل توجه ای افزایش میدهد.
واژههای کلیدی: پیشپردازش، پیشبینی، کسب و کار بیمههای اجتماعی، شبکه عصبی بازگشتی، داده کاوی.
1- مقدمه
پیشبینی نتایج در رویدادهای یک فرآیند کسب و کار، کاربردهای جالب زیادی دارد. برای مثال زمانی که افراد به مرور کردن صفحات مختلف وب سایت مربوط به زمینههای مرتبط فرآیند دلخواه، تمایل پیدا میکنند، پیشبینی موفقیتآمیز مرحله بعدی باعث میشود موارد مرتبط را قبل از انتخاب، آماده نمایند و جذابیت بیشتری را برای مشتریان ایجاد کنند.
وب، مجموعهای از اسناد متنی نوشتهشده در HTML به نام صفحات وب است. این صفحات وب از طریق URLها به یکدیگر متصل میشوند. وب سه جنبه دارد: محتوای وب، ساختار وب و کاربرد وب. بنابراین، کشف دانش درباره وب عمدتا به سه دسته تقسیم میشود. اول محتوا کاوی وب که هدف آن یافتن اطلاعات مفید در محتوای صفحات وب مانند متن، تصاویر و تگهای HTML است. دوم ساختار کاوی وب است و هدف آن کشف اطلاعات از ساختار هایپرلینک وب بوده و در نهایت سومین جنبه، کاربرد کاوی وب است و هدف آن کشف دانش در الگوهای استفاده کاربران وب است.
وظایف چندگانه پیش گویانه در مدل سازی فرآیند کسب و کار وجود دارد. فرض میکنیم که در نقطه پیشبینی، یک نمونه فرآیند جزئی اجرا میشود و میخواهیم ویژگیهای آینده، به عنوان مثال، ادامه یک نمونه فرآیند یا زمان باقیمانده یا مجموعهای از منابع مورد نیاز برای تکمیل نمونه، را پیش بینی کنیم. تحت شبکههای عصبی با حافظه تقویت شده1، بسیاری از این وظایف پیشبینی را میتوان به پیشبینی دنباله تبدیل کرد، یعنی دنبالهای از نمادهای گسسته تولید میکنیم. به عنوان مثال، فرایند ادامه، یک مورد طبیعی است، که در آن هر نماد یک رویداد است [1].
پیشبینی و برآورد در کسب و کار هر سازمان، دارای اهمیت بسیاری بوده و نتایج پیشبینیهای دقیق، شامل بهرهوری بالاتر، صرفهجویی بیشتر در هزینهها، افزایش کمیت و کیفیت سود و همچنین ارائه خدمات بهتر به ذینفعان خواهد بود.
تکنیکهای فرآیندکاوی، استخراج اطلاعات مفید از ثبت رویدادها و اطلاعات بر اساس تاریخ فرآیندهای کسب و کار را ممکن میسازد. این اطلاعات به بهبود فرآیندها کمک می کنند و معمولا پس از اتمام فرآیند استخراج میشوند. با این حال، علاقه به استفاده از فرآیندکاوی برای اجرای فرآیندهای در حال اجرا رو به افزایش است[2].
پیشبینی دقیق دنبالهی رویدادها به ارائه خدمات بهتر به مشتریان و جلوگیری از خطرات کمک میکند. در تحقیقات اخیر تلاش شده تا به مسئله یادگیری تاثیر رویدادهای گذشته بر رویدادهای آینده با استفاده از روش های یادگیری عمیق پرداخته شود. چنین کارهایی اغلب دنباله رویدادهای گذشته را به عنوان ورودی و تغییرات رویدادها را مدل میکنند و تعداد کمی از آنها به تاثیر ویژگیهای رویداد، مربوط میشود [3,4,5,6,7,8].
الگوریتمهای فرآیندکاوی متداول[3,9,10,11] قادر به استخراج دانش از ثبت رویدادها هستند که به ایجاد یک مدل فرآیند و ایجاد رویداد بعد از آن کمک میکند. اگر چه روش های استخراج فرآیند در تحلیل اطلاعات ورودی به سیستمهای اطلاعاتی موثر بودهاند اما در پیش بینی ها محدودیتهایی وجود دارد:
1- تعداد زیادی از رویدادها و یا روابط پیچیده بین رویدادها قابل کنترل نیستند.
2- دقت نسبی به میزان قابل توجهی، بسته به نوع داده ورودی متفاوت است.
تحولات اخیر در هوش مصنوعی، فرصتهای جدیدی را در صنایع بیمه به منظور ایجاد راه حلهای مناسب و خدمات مبتنی بر دانش جدید مشتریان و اجرای عملیاتهای پیشرفته و عملکردهای تجاری، ارائه کرده است. با این حال، دادههای مربوط به بیمه، ناهمگن بوده و توزیع کلاس نامتعادل با فراوانی پایین و ابعاد بالا، چهار چالش عمده را در زمینه یادگیری در کسب و کار دنیای واقعی، ایجاد کرده است[12]. در [12]، بر روی چارچوب یادگیری موازی مقرون به صرفه جهت افزایش عملیات های بیمه با رویکرد یادگیری عمیق که نیازمند پیش پردازش نیست، تمرکز شده است که شامل یک شبکه عصبی موازی منسجم و جدید بوده و دادههای همگن واقعی را ارائه میکند.
آمادهسازی دادهها، مهمترین و زمانبرترین بخش در پروژههای مدیریت فرآیندها می باشد. در پیشبینی فرآیندهای کسب و کار بیمههای اجتماعی با چالش تعداد زیاد ویژگی، توزیع نامتوازن، نرخ پایین تخصیص دادهها، مواجه بوده لذا یک روش پیشپردازش مطلوب برای انتخاب ویژگیهای بهینه که منجر به پیشبینی با دقت بالاتر گردند، ارزشمند خواهد بود.
در تحقیقات گذشته، کاهش تعداد ویژگی و نرمالسازی دادهها قابل مشاهده بوده و لیکن، چالش ویژگیهای فراوان، توزیع نامتوازن، نرخ پایین تخصیص در دادههای ناهمگن از فرآیندهای نیمهساختیافته از سازمان تامین اجتماعی وجود داشته که در مباحث پیشبینی فرآیندهای کسب و کار تامین اجتماعی از اهمیت بالایی برخوردار بوده و روش ارائه شده در این مقاله در جهت رفع این چالش و امکان پیشبینی با دقت بالاتر ارائه میگردد.
قلمرو موضوعی این پژوهش، عملیات پیشپردازش بر روی دادههای بیمه شدگان با درخواست ازکارافتادگی در سازمان تامین اجتماعی میباشد و قلمرو مکانی سازمان تامین اجتماعی میباشد. مراحل این روش پیشنهادی از طریق مدل پیشبینی با ترکیب شبکه عصبی بازگشتی و زنجیره مارکوف و یادگیری عمیق بازگشتی تایید میگردد و علاوه بر این به ما امکان میدهد اهمیت ویژگیهایی را که برای انتخاب مجموعهای از مناسبترین ویژگیها استفاده میشود، به دست آوریم. در واقع با توجه به کاهش چشمگیر تعداد ویژگی و افزایش دقت در پیش بینی مدل، به این ارزیابی دست خواهیم یافت. ادامه مقاله به شرح زیر سازماندهی میشود:
بخش 2 به پیشینه پژوهش پرداخته، در بخش 3 تشریح مساله عنوان گردیده و در بخش 4 روش کامل پیشنهادی برای پیش پردازش دادهها را ارائه میدهد. در بخش 5 یافتههای پژوهش و بخش 6 به بحث و نتیجه گیری در مورد یافتهها پرداخته و نتایج با روشهای معتبر مقایسه گردیده و چالشهای باز در این زمینه را شناسایی میکند.
2- پیشینه پژوهش
در سنوات گذشته و طی دهههای اخیر، محققان با روشهای مختلف از جمله سریهای زمانی، شبکههای عصبی بازگشتی و حافظه کوچک ماندگار، مسائل پیشبینی فعالیت بعدی، زمان فعالیت بعدی و ادامه فرآیند در پردازش دادههای متنی و دادههای پویا را تحلیل نمودهاند که به بررسی موردی از عناوین ذکر شده میپردازیم.
در دهه 1960 میلادی و ماقبل آن به ایجاد پایگاههای داده و جمعآوری دادهها پرداختهشده و از دهه 1970 تا اواسط 1980، سیستم های مدیریت پایگاه داده شکل گرفته است.
از اواسط 1980 تا به حال، سیستمهای پایگاه داده پیشرفته در حال بکارگیری بوده و از اواخر1980 میلادی تاکنون به صورت همزمان بر روی این پایگاه دادهها، تحلیل پیشرفته داده که در واقع شامل داده کاوی میباشد، در حال انجام است.
تکنیکهای مختلف داده کاوی برای استخراج الگوها و در نتیجه، دانش از انواع مختلف پایگاه دادهها و جمعآوری دادهها، یک فعالیت ضروری و با اهمیت در فرآیندکاوی میباشد[13].
پاکسازی دادهها، تجمیع دادهها، کاهش دادهها و تبدیل دادهها از مراحل پیش پردازش دادهها در بحث داده کاوی بوده که با انواع دادههای ذیل قابل پیادهسازی میباشد:
· انواع داده ساده: دادههای موجود در مخزن دادهها و دادههای معاملاتی و مبادلاتی
· انواع دادههای پیچیده: صدا، تصویر، دادههای جریانی و دادههای درختی
در مقاله [14] بهینهسازی کلونی موچهها بررسیشده و چارچوب مبتنی بر بهینهسازی ازدحام ذرات برای طبقهبندی دادهها و پیشپردازش در محیط کلان داده که از وزنها بر اساس اندازه، محتوا و کلمات کلیدی اختصاص دادهشده، پیشنهاد گردیده است [14].
در مقاله [15]، مروری بر افزایش پیشپردازش دادهها، یک دستهبندی به روزرسانی شده در رایانش ابری تحت چارچوب کلان دادهها ارائهشده و با تکنیکهای پیشپردازش مانند انتخاب ویژگی، دادههای ناقص، یادگیری نامتعادل، کاهش نمونه و همچنین حداکثر اندازه پشتیبانیشده، بررسی خانوادههای مختلف دادهها پوشش داده شده و مسائل کلیدی در پیشپردازش دادههای بزرگ برجسته شدهاند[15].
جان آنتونیوکورتس و همکاران در سال 2020 یک مدل پیشپردازش در زمینه پیشبینی سری زمانی صنعتی ارائه دادهاند که از میانگین مرکزی جهت رفع سرو صدا و هموارسازی سریهای زمانی استفادهشده و انتخاب مهمترین ویژگیها براساس اهمیت استفاده الگوریتم های رگرسیون شکلگرفته و هریک از مراحل روش از طریق آزمایش با سه رگرسیون پیشرفته تاییدشده است[16].
اگرچه در مطالعات مختلف، پیشپردازش دادهها را بخشی از فرآیند اکتشاف دادهها میدانند اما این مطالعات، فاقد تحلیل مناسب در خصوص نیاز به فن آوریها و راه حلهای جداگانه برای پیش پردازش میباشند[17].
در [17] به بررسی اثرات پیشپردازش از طریق پردازش دادههای متنی مدلهای جمله میپردازد. برای این منظور، آزمایش برای ارزیابی ترکیبات انواع پیشپردازش دادههای معمولی انجامشده است. بعلاوه، آثار دو تکنیک جدید در مورد دقت مدل تجزیه و تحلیل پیش پردازش اصطلاحات فنی متشکل از کلمات مرکب و تعیین ترتیب یادگیری بر اساس پیچیدگی دادهها وجود دارد.
در زمانی که چالشها یا مشکلات به درستی شناسایی و به صورت مناسب مرتب شوند، داده کاوی بسیار موفقیتآمیز خواهد بود [13].
سیستمهای مدیریت روند کسب و کار سنتی بر جریان کارهای اجرایی کامل ساختارمند به طور جامع متمرکز هستند. اخیرا این تمرکز به سمت رسیدگی به فرآیندهای پوشش وسیعتری از رفتار، حرکت کرده است. در حقیقت، فرآیندهای کسب و کار حاوی طیفی از فرایندهای سنتی ساختارمند هستند به همراه جریانهای غیرساختارمند تک منظوره که توسط انسان هدایت میشوند. سیستمهای فرایند کسب و کار سنتی، در یک طرف این طیف، به یک مدل فرآیند نیاز دارند که بتواند به طور کامل از پیش تعریف شود و معمولا شامل محدودیتهایی مانند جریان کنترل شدید است. به عنوان یک حرکت به سوی فرآیندهای کمتر شدتیافته و سخت در این طیف، رجوع به مراحل به عنوان نیمهساختارمند متداول است. فرآیندهای نیمه ساختارمند به طور گسترده در صنایعی از قبیل دولتی، بیمه، بانکداری و مراقبتهای بهداشتی بوجود میآیند[18]. فرآیند درخواست خسارت از بیمه خودرو، مدیریت نسخههای دارو و ارائه خدمات مناسب به بیمار در بیمارستان، چند نمونه از چنین فرآیندهایی هستند. این فرآیندها از نوع سنتی فرایندهای ساختارمند و متوالی از پیش تعیینشده خارج میشوند، زیرا چرخه عمر آنها به طور کامل توسط یک مدل فرایند به طور کامل هدایت نمیشود. به طور معمول مقدار زیادی از اطلاعات مربوط به فرآیندهای نیمه ساختارمند موردگرا وجود دارد و از منابع داده متفرقه میآید. کسانی که روی یک مورد کار میکنند، به عنوان کارشناسان پرونده نیز شناخته میشوند، که مستقل قضاوت میکنند و در عین حال در انتخاب مجموعه و دنبالهای از مراحل فرآیند برای رسیدگی به یک نمونه پرونده در محتویات سند موجود و اطلاعات مربوط به آن پرونده تابع دستورالعملهای شرکت هستند. کارشناسان پرونده میتوانند به موازات، چندین وظیفه را انجام دهند و یک یا چند وظیفه را تکرار کنند. حجم دادههای موجود ممکن است در هر مرحله در طی بررسی یک پرونده تغییر کند و مقادیر دادههای جدید میتواند بر تصمیمگیری کارشناسان پرونده مربوطه در نحوه روند کار تاثیر بگذارد. بنابراین، مجموعهای از وظایف و دستورات اجرایی آنها در یک نمونه پروسه کسب و کار نیمه ساختارمند، یک دلیل پیش فرض نیست[19].
در محیطی که روند پروندهها به تجزیه و تحلیل حجم زیاد دادههای پویا و مهلت اجرا به تصمیمگیری سریع نیاز دارد، اداره کردن پروندهها چالشبرانگیز و مستعد خطا است حتی برای کارشناسان پرونده که تخصص بالایی دارند. حجم زیادی از دادههای مربوط به یک نمونه پرونده ممکن است حتی برای یک کارشناس پرونده برای ایجاد یک تصویر منسجم از آن پرونده مشکل باشد. همه این عوامل باعث میشود مدیران پروندهها در شناسایی موقعیتهای بحرانی که در آن مداخله مستقیم، لازم است و اجرای سیاست ها در طول زمان اجرا شود، با سختی مواجه شوند. با این وجود نتایج تصمیمات گذشته میتواند برای تصمیمگیری بهتر در آینده استفاده شود[19].
تجزیه و تحلیل فرآیند، شامل یک لایه پیچیده تجزیه و تحلیل دادهها بر اساس مفهوم سنتی فرآیند کاوی است[20]. در مقایسه با فرآیند کاوی، تجزیه و تحلیل فرآیند، مسئله اصلیتری را برای استفاده از دادههای تولیدشده یا مرتبط با اجرای فرآیند برای بدست آوردن دیدگاههای عملی در مورد فرآیندهای کسب و کار نشان میدهد. تجزیه و تحلیل فرآیند، طیف وسیعی از دادهها را استفاده میکند و اگر چه تنها به پردازش ثبت و درج ها محدود نمیشود و اطلاعات مربوط به رویداد، ثبت و درج های تامین، اطلاعات مربوط به تصمیم گیری و محتوای فرآیند و سوالات پرس و جوها را نیز پوشش میدهد بلکه تعدادی از کاربردهای دنیای واقعی و خاص مربوط به تجزیه و تحلیل، مانند بهینهسازی منابع و اولویتبندی نمونه را هم به نتیجه میرساند. سایر عملیات تجزیه و تحلیل فرآیند عبارتند از پیشبینی فعالیت بعدی، زمان فعالیت بعدی، ادامه فرآیند و مدت زمانی که تا تکمیل یا لغو فرایند طول میکشد[1].
پیشرفتهای اخیر در معماری شبکه های عصبی و الگوریتمهای یادگیری باعث محبوبشدن روشهای یادگیری عمیق شده است. روشهای یادگیری عمیق به ویژه در کشف ساختار پیچیده و نمایشهای قوی و مقادیر زیاد دادههای خام بسیار مفید است و بنابراین به طور قابل توجهی نیاز به ویژگیهای ساخت با کمک دست که معمولا در هنگام استفاده از تکنیکهای سنتی یادگیری ماشین مورد نیاز است را کاهش میدهد. شبکههای عصبی بازگشتی، به ویژه حافظه کوچک ماندگار، سبب وقوع پیشرفت غیرمنتظره در حل توالی پیچیده وظایف مدلسازی در حوزههای مختلف مانند درک تصویر، شناخت گفتار و پردازش زبان طبیعی شده است[6,21].
به طور مشابه، حافظه کوچک ماندگار میتواند به طور مداوم تکنیکهای کلاسیک را برای تعدادی از وظایف تجزیه و تحلیل فرآیند مانند پیشبینی فعالیت بعدی، زمان برای فعالیت بعدی و غیره بهتر اجرا کند[22,23]. بیشتر تکنیکهای کلاسیک برای تکنیک های پیش بینی در آثار تحقیقی تحلیل پیشگویانه فرآیند با هدف حل مسائل مربوط به وظیفه هدف پیشنهاد شده است. در اینجا ما تعدادی خروجی خواهیم داشت که این خروجیها در مجموع Target یا هدف ما را تشکیل میدهند.، یادگیری عمیق در مسائل خارج از چهارچوب های خاص نیز کاربرد دارد. تکنیکهای یادگیری عمیق نسبت به تکنیک های کلاسیک مزیت بیشتری دارند، زیرا بدون نیاز به مهندسی صحیح ویژگی یا تنظیم پیکربندی به وظایف مختلف، قابل تعمیماند. علاوه بر این، روشهای مذکور، تقویت برای نویز را نشان میدهند و مقیاس عملکرد را به عنوان ورودی دادههای بزرگتر بیان میکنند[24]. شبیهسازی این بررسی با تعداد محدودی داده در یک بازه زمانی کوتاه انجام گرفته، حال اینکه با دادههای بسیار زیاد در طول یک سال و یا حتی در بازههای زمانی بیشتر نیز قابل بررسی میباشد.
فرایند کاوی شامل بهبود فرایندها و مدلهای فرآیند نیز میشود. یکی از فرآیندهای بهینهسازی میتواند کاهش هزینهها باشد. با این حال بهینهسازی یک اصطلاح بسیار گسترده است. فرآیند را میتوان به لحاظ هزینهها، زمان، منابع مورد استفاده و سایر عوامل بهینه کرد. با تجزیه و تحلیل فرآیند، نقص در سیستم را میتوان یافت و بهبود دارد. یک مثال از چنین پیشرفتی، استخدام افراد بیشتری است تا فعالیت خاصی، سریعتر انجام شود. مدلهای فرایندها نیز میتوانند با تغییر یک مدل فرآیند برای توصیف واقعی تر، فرایند واقعی را بهبود دهند[25].
مقاله [26] رویکرد جدید برای پیشبینی سیستمهای بیمهای ارائه میدهد. با استفاده از ترکیب روش یادگیری عمیق، به طور خاص شبکه عصبی بازگشتی و زنجیره مارکوف برای مسئله پیشبینی نتایج در یک فرآیند بیمه ای بکار گرفته شده است. همچنین روش پیشنهادی با دادههای حقیقی سازمان تامین اجتماعی شبیهسازی شده است. استفاده از روش ارائهشده، میزان استفاده از منابع حافظهای را نسبت به روش مارکوف تا حدی افزایش داده؛ ولی میزان زمان استفاده از CPU نسبت به دو روش مارکوف و شبکه عصبی بازگشتی، کاهش چشمگیری داشته و مضاعف بر آن، میزان دقت و کارایی نیز در روش ارائهشده ارتقاء داده شده است.
از دستاوردهای مدل های پیشپردازش بیانشده، میتوان کاهش تعداد ویژگی و نرمالسازی دادهها در شرایط مدلهای ارائهشده (تعداد پایین ویژگی و توزیع متوازن) را عنوان کرد ولیکن با توجه به ویژگیهای فراوان، توزیع نامتوازن و نرخ پایین تخصیص در دادههای ناهمگن سازمان تامین اجتماعی موجب بروز افزایش خطای محاسباتی میگردد که مدل پیش پردازش ارائهشده در این مقاله، در جهت رفع چالشهای مذکور و اخذ نتایج همراه با بهبود دقت و کارایی هم زمان با کنترل محدودیت های بیانشده در زمان کاهش ویژگیها خواهد بود.
3- تشریح مساله
در این بخش، تشریح هدف پژوهش و تجزیه و تحلیل دادههای سازمان تامین اجتماعی برای مدل پیش بینی فرآیندهای کسب و کاری ارائه شده است. دادههای بیمه های اجتماعی میتواند به دو جزء تقسیم شود که در شکل 1 نشان داده شده است.
[1] Memory-Augmented Neural Networks
شکل 1: مثالی از مجموعه دادههای بیمههای اجتماعی
(کد ID شناسه بیمه شده، H مقدار سابقه بیمه پردازی به روز، R علت مراجعه و LR وضعیت ازکارافتادگی میباشد.)
ویژگی های کسب و کار نیمه ساخت یافته در طول زمان ثابت بوده و خدمات مربوطه بابت درخواستهایی که در طول زمان چرخه عمر بیمه شده ثبت میشود و در صورت احراز شرایط، اعطا میگردد.
در این مقاله به بررسی این چالش، انتخاب ویژگیهای موثر و مناسب در پیشبینی مربوطه میپردازیم که یک روش پیشپردازش برای به دست آوردن دادههای با کیفیت بالا را ارائه میدهد. این روش شامل موارد زیر است:
· کاهش تعداد ویژگیهای داده
· نرمالسازی دادهها
بخش 3-1 منبع داده، نحوه بدست آوردن و تقسیم بندی دادهها را توضیح میدهد. در بخش 3-2 یک تجزیه و تحلیل داده با محوریت دادههای با کیفیت پایین، مقادیر گمشده و نویز ارائه میشود.
3-1. توضیحات دادههای سازمان تامین اجتماعی
با توجه به گستردگی دادهها و جهت دریافت پاسخ پیش بینی بصورت بهینه، تعداد تصادفی 846 داده از بیمهشدگان سازمان تامین اجتماعی که در سال 1398 هجری شمسی درخواست ازکارافتادگی دادهاند و جهت تشخیص به کمیسیون پزشکی مربوطه معرفی شدهاند از معاونت درمان سازمان مربوطه اخذ گردیده است. این دادهها که نمونهای از آن در شکل 2 نشان داده شده، شامل دادههای رشته ای و عددی به شرح ذیل میباشد:
• دادههای رشتهای: وضعیت ازکارافتادگی، علت مراجعه، جنسیت، نوع بیمه و نتایج کمیسیون های قبلی
• دادههای عددی: ردیف، شناسه بیمه شده، کد جنسیت، سن، سابقه بیمه پردازی به روز، تاریخ شروع طول درمان و تاریخ اتمام طول درمان
شکل2: نمونهای از مجموعه دادههای خام
3-2. تجزیه و تحلیل دادهها
دادههای موجود در مجموعه داده پژوهش شامل اطلاعات عمومی افراد بیمهشده شامل شناسه، جنسیت، کد جنسیت و سن میباشد و اطلاعات مربوط به سوابق بیمهشده، مشخصات بیماری و دیگر دادههای تخصصی وابسته به سازمان تامین اجتماعی بوده و نهایتا یک ستون نتیجه کمیسیون پزشکی و تعیین تکلیف ازکارافتادگی متقاضیان که صرفا به صورت صفر یا یک بوده و هدف نهایی پیش بینی نتایج میباشد.
نکته قابل ملاحظه در این بخش، انتخاب حداقل ویژگیهای مهم و اثرگذار از ویژگیهای متعدد در دادههای نیمهساختیافته سازمان تامین اجتماعی میباشد که هم زمان با کنترل هزینههای محاسباتی، امکان پیشبینی با دقت بالاتر را نیز فراهم نماید.
4- روش پیشنهادی
· دادههای ناموجود (Missing Data)
· دادههای پرت (Outliers)
· نرمالسازی دادهها (Normalization)
در روش پیشنهادی، 2 مرحله را پیش رو خواهیم داشت:
· کاهش تعداد ویژگیهای داده
· نرمالسازی دادهها
4-1. کاهش تعداد ویژگیهای داده
کاهش بعد عمودی در این روش دارای دو قسمت اساسی است که از هم مستقل بوده و همزمان در نرم افزار weka قابل پیادهسازی میباشند:
· روش جستجو1: روش جستجو مشخص میکند چه تعداد داده بهعنوان زیرمجموعه یک ویژگی شناخته شود. همچنین در روش جستجو، نوع جستجوی یک عامل در بین زیرمجموعههای ایجاد شده نیز مشخص میگردد.
· مقایسهگر2: نوع مقایسه و پیدا کردن شباهتها و تفاوتهای میان مقادیر صفتها توسط مقایسهگر مشخص میگردد. برای مثال، یک مقایسهگر ممکن است، تعداد تکرار را بهعنوان شباهت در نظر بگیرد، یا مقایسهگر دیگر، فواصل بین دادههای یک صفت را بهعنوان عامل اصلی شباهت میان مقادیر، محسوب نماید.
· در روش پیشنهادی برای بخش جستجو از الگوریتم BESTFIRST و برای بخش مقایسه ویژگی از الگوریتم CFSSUBSETEVAL استفاده خواهیم کرد.
· الگوریتم BESTFIRST جزء الگوریتمهای جستجوی مبتنی بر درخت3 است. جهت کاهش تعداد ویژگیهای دادهها که باعث افزایش سرعت نهایی میشود، الگوریتم 1 به شرح زیر بیان میشود.
(شروع الگوریتم1): این الگوریتم در روش پیشنهادی، هر زیرمجموعهای از دادهها را بهعنوان یک گره از درخت در نظر میگیرد. گرهای که کمترین هزینه را داشته باشد، بسط داده میشود.
· این کار با در نظر گرفتن همه ویژگیها بهعنوان زیرمجموعه بهینه آغاز میگردد و پس از تقسیم و رسیدن به زیرمجموعهای که دارای یک یا چند ویژگی است پایان مییابد. این عمل میتواند در جهت عکس نیز انجام گیرد یعنی با خالی کردن گره حاوی زیرمجموعه بهینه، هر ویژگی بهعنوان یک زیرمجموعه در نظر گرفته شده و هزینه آن محاسبه شود، سپس ترکیبهای 2تایی از صفات مورد بررسی قرار گرفته و پس از آن ترکیبهای 3 تایی و ... تا زمانی این عمل ادامه پیدا خواهد کرد که به مجموعه کل صفات برسیم. درنهایت از بین زیرمجموعههای انتخابشده، زیرمجموعهای که داری کمترین هزینه باشد بهعنوان مجموعه بهینه انتخاب خواهد شد. (پایان الگوریتم1)
در ادامه بحث کاهش تعداد ویژگی دادهها، برای پیدا کردن شباهتها و تفاوتهای میان مقادیر صفتها از کل دادهها، الگوریتم دو به صورت زیر بیان میشود.
(شروع الگوریتم2): الگوریتم CFSSUBSETEVAL به مقادیری که دارای کمترین درجه همبستگی با سایر مقادیر درگیر در پژوهش هستند، کمترین ارزش را اعطا میکند. در حالت کلی این الگوریتم با جستجو در میان ویژگیها، ویژگیهایی را که دارای بیشترین مقادیر داده تکراری هستند را شناسایی نموده و به آنها ارزش کمتری میبخشد. هر مقدار تکراری، از ارزش محاسباتی یک ویژگی میکاهد. این الگوریتم به همراه الگوریتم BESTFIRST به کار گرفته میشود و میتواند برای هر مقدار تکراری یک واحد به هزینه یک گره اضافه نماید، در نهایت هزینه هر گره با توجه به هزینه هر عضو از زیرمجموعه ویژگیهای آن گره و تعداد اعضای آن گره محاسبه خواهد شد. (پایان الگوریتم2)
اگر بخواهیم نحوه عمل این دو الگوریتم با هم را مورد بررسی قرار دهیم میتوانیم بگوییم که CFSSUBSETEVAL مسئول ارزشدهی هر ویژگی است و BESTFIRST بهترین زیر مجموعه از ویژگی ها را با توجه به ارزش اعطاشده، انتخاب میکند و حاصل کار این دو الگوریتم، انتخاب بهینه از تعداد ویژگیهای اصلی و کلیدی دادهها (علت مراجعه، کد جنسیت، سابقه بیمه پردازی و نتایج کمیسیونهای قبلی از شکل 4 و با اجرای بخش 4-1 و 4-2 از روش پیشنهادی) میباشد.
اگر شکل 3 را به ترتیب ویژگیهای ارزشگذاریشده توسط CFSSUBSETEVAL با این قاعده که ارزش مورد نظر با توجه به تعداد دادههای یکتا در هر ویژگی تعیینشده و یال آن ویژگی نشاندهنده میزان ارزش آن ویژگی است، میتوان با استفاده از روش BESTFIRST به شرح زیر به، با ارزشترین زیر مجموعه از ویژگیها دستیافت.
شکل3: مجموعهای از ویژگیهای مورد بررسی با استفاده از CFSSUBSETEVAL و BESTFIRST
ابتدا از گره با میزان s شروع نموده و درخت مورد بررسی را با یالی که دارای بیشترین ارزش یعنی 6 است، ادامه میدهیم، تا به B برسیم. اگر B یک برگ باشد که الگوریتم پایان پیدا میکند، در غیر این صورت دوباره یالی با بیشترین ارزش انتخاب میگردد. این کار تا زمانی که به یک گره برگ برسیم ادامه پیدا میکند. در این مثال مسیر B به G نیز دارای ارزش 14 است. در نهایت مسیر پیمودهشده S به G به عنوان کاندید با ارزشترین مسیر و ویژگیهای S,B,G به عنوان با ارزشترین ویژگیها انتخاب میگردند.
هرچند میتوان دید که بهترین مجموعه از ویژگیهای S,C,H,I,L با ارزشترین مجموعه ویژگی است، اما این روش میتواند در زمان اندک و با پیچیدگی نسبتا پایین بهترین نتایج را رقم بزند که نمونهای از دادههای پیشپردازششده در شکل 4 نشان داده شده است.
منطقاً نیز این محاسبه قابل دفاع است چرا که ویژگیهایی با مقادیر تکراری قاعدتاً در نتیجهگیری کلی تأثیرگذار نخواهند بود. برای مثال وقتی همه نمونههای یک مجموعه داده از نظر ویژگی نوع وسیله نقلیه، وسیله نقلیه سبک هستند، نمیتوان تأثیری را برای ویژگی نوع وسیله نقلیه در نتیجهگیری کلی در نظر گرفت.
4-2. نرمالسازی دادهها
دادههای موجود در مجموعه دادهها مورد استفاده دارای سه نوع مقدار به شرح زیر است:
· عددی
· رشتهای
· مقادیر منطقی شامل دو مقدار 0 و 1
استفاده از این مقادیر در رابطه محاسبات عددی مورد استفاده در این پژوهش عملاً غیرممکن است. نخستین عملی که برای ایجاد یک داده قابل استفاده باید انجام داد تبدیل تمامی مقادیر موجود به مقادیر عددی است.
برای تبدیل دادههای رشتهای به عددی از رابطه زیر بهره میبریم:
(1) =
که در آن Xi مقدار عددی که قرار است جایگزین مقدار رشتهای شود، ti تعداد تکرار آن رشته در مجموعه دادهها و Tall تعداد کل دادههای موجود برای آن ویژگی است. بر این اساس مقدار Xi همواره عددی بین 0 تا 1 خواهد بود.
بعد از تبدیل همه رشتهها (وضعیت از کارافتادگی، علت مراجعه، جنسیت، نوع بیمه و نتایج کمیسیونهای قبلی از شکل 2) به عدد برای از بین بردن تأثیر دادههای خیلی بزرگ در محاسبات باید فواصل بازههای عددی به میزان ثابتی برای همه ویژگیها تبدیل گردد. به همین دلیل از رابطه 3-12 استفاده خواهد شد.
این رابطه دادهها را در بازهای بین 0 و 1 نگاشت میکند. که در آن Xi مقدار عددی نرمال شده، Di مقدار اصلی داده در دیتاست است. Min و Max به ترتیب بیشترین و کمترین داده موجود برای آن ویژگی در دیتاست میباشند.
شکل 4: نمونهای از مجموعه دادهها پس از پیشپردازش
مهمترین فاکتور برای مقایسه دو سیستم پیشبینی (مدلهای شبیهسازی با استفاده از روشهای هوش مصنوعی مطرحشده در [26])، میزان کارایی4 (Pr)یک سیستم پیشبینی است. کارایی یک سیستم پیشبینی تحت تأثیر دو عامل است. هزینه اجرا و دقت. این دو متغیر خود دارای بخشهای متعددی هستند اما در این پژوهش آنها را به صورت زیر محدود نمودهایم:
ü هزینه اجرا 5((Ci: که خود شامل:
o هزینه دستیابی به منابع 6(Cs) از جمله:
§ هزینه دستیابی به منابع داده7 (Csd)
§ هزینه دستیابی به منابع پردازشی 8(Csp)
o هزینه اجرای روش 9(Cr): که شامل موارد زیر است:
§ هزینههای زمانی 10(Crt)
§ هزینه پردازشی11 (Crp)
§ هزینه حافظه12 (Crm)
ü دقت13 (Ac): در واقع دقت را میزان تطابق دنیای واقعی با مقدار حاصل شده در پیشبینی در نظر خواهیم گرفت.
برای به دست آوردن رابطهای خطی میان متغیرهای تأثیرگذار بر کارایی روش پیشبینی باید به بررسی تکتک هر یک از متغیرها پرداخت، اما به صورت کلی میتوان در یک رابطه ساده اظهار کرد که کارایی یک روش پیشبینی با میزان دقت رابطه مستقیم و با میزان هزینه رابطه عکس دارد. این مسئله را میتوان در رابطه 3-1 مشاهده نمود.
رابطه 3-1
برای تبدیل این رابطه به یک رابطه تساوی با قابلیت تخمین درست، نیازمند ضرایبی هستیم که بتواند شرحی درست از میزان تأثیرگذاری هریک از متغیرهای مورد بررسی را ارائه دهد. این ضرایب را به ترتیب w1 و w2 مینامیم. بنابراین رابطه 3-1 به رابطه 3-2 تبدیل میگردد:
رابطه 3- 2
مقدار w1 و w2 وابسته به نوع مسئله پیشبینی است و باید از تاریخچه روش مورد بررسی و سنجش میزان همبستگی میان دو متغیر Ac و Ci با متغیر Pr به دست آید.
با بررسی جزئی Ci میتوان یک رابطه تناسب بین اجزای سازندهی آن یافت. بدیهی است که رابطه میان Cs و Cr با Ci یک رابطه مستقیم است. پس به این ترتیب میتوان گفت:
رابطه 3-3 )
همینطور در مورد Cs و Cr نیز میتوان روابط 3-4 و 3-5 را بیان نمود.
رابطه 3-4 )
رابطه 3-5 )
با همان منطق ذکر شده برای w1 و w2 میتوان روابطِ 3-3، 3-4، 3-5 را به روابط تساوی تبدیل نمود. به این ترتیب خواهیم داشت:
رابطه 3-6
رابطه 3-7
رابطه 3-8
دقت اما مقولهای است که با بررسی میزان تطابق یک پیشبینی با میزان رخداد آن در واقعیت سنجیده خواهد شد. اگر یک پدیده مانند X دارای n ویژگی قابل سنجش باشد، آن پدیده به صورت مجموعهای از مقادیر قابل سنجشاش به صورت زیر تعریف خواهد شد.
رابطه3-9
به ترتیب مقادیر xi میزان ویژگی iام برای پدیده X است. میزان دقت پیشبینی پدیده مورد نظر با استفاده از رابطه زیر سنجیده خواهد شد.
رابطه 3-10
در این رابطه fi نشان دهنده میزان پیشبینی برای ویژگی iام پدیده X خواهد بود. بدیهی است هدف نهایی این پژوهش افزایش مقدار است.
5- یافته های پژوهش
با تعداد تصادفی 846 داده از بیمه شدگان سازمان تامین اجتماعی که در سال 1398 درخواست ازکارافتادگی دادهاند و جهت تشخیص به کمیسیون پزشکی مربوطه معرفی شدهاند و انتخاب نام ستونها به(reason, sex , sex_r , age , type, history , exp_s , exp_f , last_result , id , id_num , state ) که اکثر مقادیر به صورت رشتهای بوده و تبدیل دادههای رشتهای به عددی در حالیکه تغییری در دادههای عددی نداشته باشیم با یک مجموعه داده کاملا عددی مواجه خواهیم شد.
تعداد یازده ستون ویژگی که شامل اطلاعات عمومی افراد بیمه شده و هفت ستون از اطلاعات مربوط به سوابق بیمهشده و مشخصات بیماری، با استفاده از نرم افزار Weka و الگوریتمهای Cfssubseteval و Bestfirst تبدیل یافته و نهایتا به چهار ویژگی history , sex_r , reason و Last_result در ستون های 3، 5، 8 و 11 کاهش یافته و پس از نرمالسازی به بازه نگاشت میگردند.
پس از اجرای شبیهسازی روش ارائهشده در بخش 4 و مطرحشده در [26] با نرم افزار متلب و مقایسه آن با دو نمونه از روشهای معتبر علمی [5] و [19] با دادههای تعریف شده، میزان زمان مصرفی هریک از روشهای مورد مطالعه در شکل 5 نشان داده شده است.
[1] Search method
[2] Attribute evaluator
[3] Tree– Search
[4] Performance
[5] Implementation cost
[6] Cost of access to resources
[7] Cost of acquiring data sources
[8] Cost of access to processing resources
[9] Cost of running
[10] Time costs
[11] Processing costs
[12] Memory cost
[13] Accuracy
شکل 5: میزان زمان مصرفی در 3 روش مورد مقایسه
میزان استفاده از منابع حافظهای در روش پیشنهادی مقاله حاضر و مقایسه آن با دو نمونه از روش های مذکور [26] با همان دادههای سازمان تامین اجتماعی در شکل 6 به نمایش گذاشته شده است.
شکل 6: میزان استفاده از منابع حافظهای (RAM)
پس از اجرای شبیه سازی روش پیشنهادی ارائه شده در بخش 4 و مقایسه آن با دو نمونه از روشهای فوق با دادههای تعریف شده، میزان زمان استفاده از CPU هر یک از روشهای مورد مطالعه در شکل 7 نشان داده شده است.
شکل 7: زمان استفاده از CPU
میزان دقت کسب شده از روش پیشنهادی مقاله و مقایسه آن با دو نمونه از روش های صدرالذکر و با دادههای سازمان تامین اجتماعی پس از اجرای شبیه سازی در شکل 8 به نمایش گذاشته شده است. استفاده از روش پیشنهادی پیش پردازش دادهها، بیش از 37 درصد از ویژگیها را کاهش داده که در حجم زیاد دادهها در علم داده کاوی از اهمیت فوق العادهای برخوردار بوده است. ضمنا با بررسی شکلهای 5، 6 و7 به این نتیجه میرسیم که روش پیشنهادی باکمی افزایش منابع حافظهای، کاهش زیادی در میزان زمان استفاده از CPU نسبت به دو روش مورد مقایسه و همچنین افزایش دقت و کارایی طبق شکل 8 که از نقاط قوت میباشد، داشته است.
شکل 8: میزان دقت در روشهای مورد مطالعه
5-1. چارچوب پیشنهادی معماری سازمانی
با توجه به نتایج بدست آمده از روش ارائهشده پیشپردازش و استفاده در مدلهای پیشبینی و اخذ نتایج با دقت بالاتر به همراه کاهش منابع هزینهای در بخش دادههای از کارافتادگی، می توان واحدهای اجرایی سازمان تامین اجتماعی را از نتایج این پژوهش برخوردار نموده تا در بررسی ویژگیهای موثر در فرآیند ار کارافتادگی بکارگرفته شده و همچنین از مدل ارائه شده در سایر فرآیندهای سازمان مذکور (در بخش بیمهای و درمان) و بهره برداری مدیران سطح میانی از نتایج این تحقیق استفاده نمود.
استفاده از نتایج پیشپردازش ارائه شده در این مقاله، طبق شکلهای 5 تا 8، دستاورد جدیدی در مدلهای پیشبینی فرآیندهای کسب و کار بیمههای اجتماعی و در جهت رفع چالشهای موجود شامل ویژگیهای فراوان، دادههای ناهمگن، توزیع نامتوازن و نرخ پایین تخصیص دادهها ارائه میدهد.
در این روش پیشپردازش، برای بخش جستجو از الگوریتم BESTFIRST و برای بخش مقایسه ویژگی از الگوریتم CFSSUBSETEVAL استفادهشده و با در نظر گرفتن همه ویژگی ها به عنوان زیرمجموعه بهینه آغاز میگردد. در این پیش پردازش، مقادیر رشتهای به عددی تبدیلشده و همچنین تعداد ویژگی کاهشیافته و نهایتا دادههای باقیمانده به روش نرمال سازی به بازه [0,1] نگاشت شده است.
برای نشان دادن عملکرد هر روش، مقایسه آن با روشهای قبلی، امری متداول بوده بنابراین نتایج حاصل از این تحقیق، با دو روش معتبر [5]و[19] مقایسه گردیده است. استفاده از روش ارائه شده، میزان 37 درصد از ویژگیها را کاهش داده که در تعداد بالای دادهها در علم داده کاوی از اهمیت بالایی برخوردار بوده و در عین حال با افزایش نسبی منابع حافظه ای، کاهش چشمگیری در میزان زمان استفاده از CPU نسبت به روشهای مورد مقایسه و همچنین افزایش میزان دقت و کارایی داشته است.
موارد قابل استفاده از نتایج این پژوهش در موارد کاربردی با دادههای مختلف و با محدودیت نتایج صفر یا یک میباشد. با توجه به اینکه مقوله پیشبینی در امر سیاست مانند انتخاب رییس جمهور از میان کاندیداتورهای مختلف، در امر اقتصاد مانند پیشبینی رشد اقتصادی و در امر درمان مانند پیش بینی بهبودی یا فوت بیماران مبتلا به کووید 19 و با علائم مختلف، بسیار مهم بوده و دارای پیامدهای گرانبهایی میتواند باشد لذا این مقاله با افزایش دقت همراه با کاهش نسبی منابع مصرفی، سهم اندکی در پیشبینی مسائل روزمره و حیاتی دنیای امروز خواهد داشت.
برای تحقیقات آینده میتوان ایجاد مدلی که بتواند عمل پیشپردازش را به روی دادههای با نتایجی حتی غیر از صفر و یک نیز انجام دهد، پیشنهاد کرد. همچنین میتوان بر روی روشهایی که ویژگیهای بیشتری را پوشش دهد، کار کرده و نتایج را مقایسه نموده و بهره برداری از مدل ارائهشده در دادههای مختلف سازمان تامین اجتماعی و کسب نتایج کاربردی پیشنهاد میگردد.
سپاسگزاري
ما از حمایت مالی و معنوی واحد آموزش و پژوهش اداره کل منابع انسانی سازمان تامین اجتماعی تشکر میکنیم.
مراجع
[1] A. Khan, H. Le, K. Do, T. Tran, A. Ghose, H. Dam, R. Sindhgatta. Memory-augmented neural networks for predictive process analytics: arXiv preprint arXiv: 1802. 00938 (2018).
[2] A. E. Márquez-Chamorro, M. Resinas, A. Ruiz-Corts.Predictive monitoring of business processes: a survey. IEEE Transactions on Services Computing 99:1-1 (2017).
[3] L. Lin, L. Wen, J. Wang. Mm-pred: A deep predictive model for multi-attribute event sequence. In Proceedings of the 2019 SIAM international conference on data mining: Society for Industrial and Applied Mathematics. 118-126 (2019).
[4] J.-P. Briot, G. Hadjeres, F. Pachet. Deep learning techniques for music generation-a survey. arXiv preprint arXiv: 1709.0162. (2019)
[5] J. Evermann, J.-R. Rehse, P. Fettke. A deep learning approach for predicting process behavior at runtime: in International Conference on Business Process Management, Springer 327-338 (2016).
[6] Y. LeCun, Y. Bengio, G. Hinton. Deep learning: Nature 521: 436–444 (2015).
[7] T. A. Gibson, J. A. Henderson, J. Wiles. Predicting temporal sequences using an event-based spiking neural network incorporating learnable delays 3213-3220 (2014).
[8] F. Daniel, K. Barkaoui, S. Dustdar,eds. Process Mining Manifesto: in Business Process Management Workshops. IEEE Task Force on Process Mining. vol. 99 of Lecture Notes in Business Information Processing, Springer-Verlag, Berlin 169-194 (2012).
[9] J. Kumar, A. K. Singh. Workload prediction in cloud using arti_cial neural network and adaptive di_erential evolution. Future Generation Computer Systems 81: 41-52 (2018).
[10] N. Tax, I. Verenich, M. La Rosa, M. Dumas. Predictive business process monitoring with lstm neural networks: In International Conference on Advanced Information Systems Engineering, 477–492 (2017).
[11] W. M. P. van der Aalst, M.H. Schonenberg, M. Song. Time prediction based on process mining. Inf. Syst 36(2): 450–475 (2011).
[12] X. Jiang, S. Pan, G. Long, F. Xiong, J. Jiang, C. Zhang. Cost-sensitive parallel learning framework for insurance intelligence operation. Transactions on Industrial Electronics 1–11 (2018).
[13] M.A. Jassim, S.N. Abdulwahid. Data Mining preparation: Process, Techniques and Major Issues in Data Analysis, IOP Conf. Ser.: Mater. Sci. Eng. 1090 012053 (2021).
[14] A.K. Dubey, A. Kumar, R . Agrawal. An efficient ACO‑PSO‑based framework for data classification and preprocessing in big data, Evolutionary Intelligence, part of Springer Nature 2020 https://doi. org/10. 1007/s12065-020-00477-7 (2020)
[15] S. García, S. Ramírez-Gallego, J. Luengo, J.M. Benítez, F.,Herrera. Big data preprocessing: methods and prospects, Big Data Analytics, DOI 10.1186/s41044-016-0014-0 (2016).
[16] J. A. Cortés-Ibáñez, S. González, J. J. Valle-Alonso, J. Luengo, S. García, F. Herrera. Preprocessing methodology for time series: an industrial world application case study. Information Sciences, 514, 385-401 (2020).
[17] H.woo, J. kim, W. Lee. Validation of Text Data Preprocessing Using a Neural Network Model: Mathematical Problems in Engineering. ) 2020).
[18] G. report.Critical Capabilities for Composite Content Management Applications (2010).
[19] G. T. Lakshmanan, D. Shamsi, Y. N. Doganata, M. Unuvar, R. Khalaf. A markov predictionmodel for data-driven semi-structured business processes: Knowledge and Information Systems 42: 97-126 (2015).
[20] W.V. Aalst, A. Adriansyah, A.K. Medeiros, F. Arcieri, T. Baier, T. Blickle, J. Chandra Bose, P.Van Den Brand, R. Brandtjen, J. Buijs. Process mining manifesto: In International Conference on Business Process Management 169–194 (2011).
[21] J. Schmidhuber. Deep learning in neural networks: An overview. Neural Networks 61: 85–117 (2015).
[22] N. Tax, I. Verenich, M. La Rosa, M. Dumas. Predictive business process monitoring with lstm neural networks: in International Conference on Advanced Information Systems Engineering. Springer 477-492 (2017).
[23] N. Navarin, B. Vincenzi, M. Polato, A. Sperduti. Lstm networks for data-aware remaining time prediction of business process instances: arXiv preprint arXiv: 1711.03822 (2017).
[24] J. Evermann, J. Rehse, P. Fettke. Predicting process behaviour using deep learning: Decision Support Systems. (2017).
[25] P.H. Klees, M. leoni A. W. Veenstra. The Application of Comparative Process Mining in Logistics.Student theses are made available in the TU/e repository upon obtaining the required degree. (2017).
[26] M. Fadaei Pellehshahi, S. Kordrostami, A.H. Refahi Sheikhani, M. Faridi Masouleh. Predicting business processes of the social insurance using recurrent neural network and Markov chain: Journal of Modelling in Management, Vol. ahead-of- print No. ahead- of- print. (2021).
Providing a Model for Preprocessing the Organizational Data in Order to Predict Insurance Business Processes
Abstract In this paper, a new data preprocessing method for predicting business processes is presented, using recursive neural networks, Markov chains and recursive deep learning. The aim of this study is to obtain high quality data and extract the information of the most important variables involved in the disability process of the Social Security Organization (SSO). For this purpose, the proposed method includes reducing the number of features and normalizing the data compared to the initial features. The method is implemented for real data of the Social Security Organization and is applied in the form of predictive method. The results show that the proposed method increases the amount of memory usage, but the amount of CPU usage time becomes significantly lower than the methods compared. In addition, the presented method significantly increases the accuracy and efficiency.
Keywords: Preprocessing, Prediction, Social Insurance Business, Recurrent Neural Network, Data Mining.
|