A Model for predicting the need for orthopedics surgery by using data mining techniques
Subject Areas : FuturologySeyed Sina Fatemi Razavi 1 * , Seyed Abdollah Amin Mousavi 2
1 - Software Developer in Torfeh Negar Company
2 - Assistant Professor of Islamic Azad University, Science and Research Branch of Tehran
Keywords: data mining, Surgical treatment, Orthopedics,
Abstract :
By expanding the use of computers in various aspects of people's lives, a huge amount of data is generated. Mostly this data contains valuable information. Data mining can enable us to extract required information and benefit from them. Data mining enables us to identify hidden patterns in data sets and use them for prediction. One of the areas that is faced with the massive production of data is the area of treatment. This study will focus in particular on orthopedics. This research is looking for using technology and data mining techniques from existing data in hospital's database to reach valuable information and predict possibility of breaks which require orthopedics surgery. This may support doctors to make their decisions easier, faster and more accurately in serving patients. This research is conducted by using the CRISP methodology. The result of this research shows that the combination of the CHAID algorithm and the Boosting cumulative amplified neural network can provide the desired accuracy in prediction of the need for orthopedics surgery.
_||_
مدلی برای پیشبینی نیاز به جراحی ارتوپدی با استفاده از تکنیکهای دادهکاوی
چکیده:
با گسترش استفاده از رایانه در جنبه های مختلف زندگی افراد، حجم بسیار زیادی از داده ها تولید می شود که در بسیاری از اوقات این داده ها شامل اطلاعات ارزشمندی هستند. برای استخراج این اطلاعات و بهره بردن از آنها می توان از علم
داده کاوی1 بهره برد. با استفاده از داده کاوی می توان، الگوهای پنهان موجود در داده ها را کشف نمود و برای پیش بینی موارد جدید مورد استفاده قرار داد. از جمله حوزه هایی که با تولید حجم انبوه داده ها روبرو می باشد، حوزه ی درمان است. در این پژوهش به طور خاص در زمینه ی ارتوپدی تمرکز خواهد شد. این تحقیق به دنبال این است که با استفاده از تکنولوژی و تکنیکهای داده کاوی بتواند از داده موجود در دیتابیس بیمارستان به اطلاعات ارزشمندی دست یابد و از طریق آن اطلاعات بتواند احتمال شکستگی و همچنین نیازمند بودن بیمار به جراحی را پیش بینی کند و تصمیم گیری را برای پزشکان ساده تر و سریع تر کند. بدین صورت می توان با سرعت و دقت بالاتری نسبت به روش های موجود به تفکیک بیماران و ارائه ی خدمات به آن ها پرداخت. این پژوهش بر مبنای متدولوژی CRISP بنا نهاده شده است و نتایج حاصل از تحقیق بیانگر این امر است که استفاده ی تلفیقی از الگوریتم های CHAID و شبکه ی عصبی2 تقویت شده با روش تجمعی3 Boosting، می تواند دقت مطلوبی در پیش بینی نیاز به جراحی در بیماران ارتوپدی را ارائه دهد.
کلمات کلیدی: داده کاوی، ارتوپدی، درمان جراحی
1- مقدمه
امروزه با گسترش استفاده از رایانه در حوزه های مختلف به خصوص حوزه ی سلامت، شاهد تولید حجم انبوهی از داده ها
می باشیم که در بسیاری از اوقات شامل اطلاعات ارزشمندی هستند که می توانند راهگشای بسیاری از مشکلات فعلی در
حوزه ی درمان باشند. برای استخراج اطلاعات مفید و موثر از داده ها و کشف الگوهای موجود در آن ها نیاز به فرآیندهایی تحت عنوان داده کاوی می باشیم. داده کاوي یکی از تکنیک هاي پرکاربرد می باشد که پردازش خود را روي داده هاي انبوه انجام
می دهد. همان طور که گفته شد با توجه به فراوانی داده هاي پزشکی و بیماري ها، این موضوع می تواند بستر مناسبی براي به کارگیري تکنیک هاي مختلف داده کاوي باشد. در این پژوهش سعی می شود با بهره گیری از روش های داده کاوی، داده های بخش ارتوپدي را مورد بررسی قرار داد.
يكي از خدمات تخصصي كه در بخش اورژانس به بيماران ارائه مي شود خدمات مرتبط با ارتوپدي است. ارتوپدي به طور عام شامل تمام معضلات، مشكلات، حوادث و اتفاقاتي است كه در اثر حادثه يا به صورت مادرزادي يا در اثر تغيير شكل هاي تدريجي اندام ها اعم از فوقاني، تحتاني، ستون فقرات و لگن به وجود مي آيد و همين عمق و گستردگي آن را نشان مي دهد. بطور كلي ارتوپدي به دو دسته تقسيم می شود: ارتوپدي در زمينه آسيب هاي حادثه اي خارجي كه با تصادفات و ضربه ها ايجاد مي شود و ارتوپدي در زمينه ناهنجاري ها و آسيب هاي غيرحادثه اي كه مي تواند مادرزادي يا اكتسابي باشد. در ارتوپدي دو دسته آسيب ممكن است اتفاق بيفتد: يكي آسيب هايي كه به استخوان ها مي رسد و به آن شكستگي گفته مي شود؛ دسته ديگر هم آسيبهايي هستند كه به بافت هاي نرم وارد شده و به پارگي عضله و شريان ها منجر مي شود كه با توجه به اهميت و حاد بودن اين آسيبها بيمار جهت دريافت خدمات ارتوپدي به اورژانس يا مركز فوريت هاي پزشكي انتقال داده مي شود.
2- مروری بر پیشینه تحقیق:
در رابطه با داده کاوی در عرصه پزشکی تحقیقات گسترده ای صورت گرفته است. جدول 1 تحقیقات مرتبط با کاهش ابعاد و جدول 2 تحقیقات مرتبط با روش های دسته بندی4 و جدول 3 تحقیقات مرتبط با روش های خوشه بندی5 و جدول 4
روش های مرتبط با روش های قواعد انجمنی6 را نشان می دهند.
جدول 1: تحقیقات مرتبط با کاهش ابعاد
ردیف | عنوان پژوهش | نام پژوهشگر |
1 | استخراج دانش از داده هاي بيماران ديابتي با استفاده از درخت تصمیم C5.0 | عامري و همکاران (1392) |
2 | تشخیص بیماری هپاتیت با ترکیب روشهای داده کاوی | کاظمی و همکاران (1392) |
3 | شناسایی مدل ها، پیش بینی بیماری های عروق کرونر با استفاده از شبکه های عصبی و انتخاب متغیر بر اساس طبقه بندی و درخت رگرسیون | محمودی و همکاران (1392) |
جدول 2: تحقیقات مرتبط با روش های دسته بندی
ردیف | عنوان پژوهش | نام پژوهشگر |
1 | پیش بینی داده کاوی برای تشخیص پزشکی: بررسی کلی از پیش بینی بیماری های قلبی | (Soni et al, 2011) |
2 | استفاده از یک شبکه عصبی مصنوعی در پیش بینی بیماری قلبی | (Khalid et al, 2013) |
3 | تشخیص بیماری سرطان ریه با استفاده از منطق فازی نوری | (Malathi et al, 2013) |
4 | بررسی تجربی کاربرد تکنیک های داده کاوی در مراقبت های بهداشتی | (Kaur et al, 2006) |
5 | داده کاوي داده هاي پزشکی و بیماري ها | (موسوی، 1393) |
6 | تجزیه و تحلیل تطبیقی الگوریتم های طبقه بندی تصمیم گیری درخت | (Priyama et al, 2013) |
7 | بررسی مقایسه ای روش های طبقه بندی داده کاوی در پیش بینی بیماری قلبی عروقی | (Kumari et al, 2011) |
8 | مقایسه هفت الگوریتم برای پیش بینی بقای سرطان پستان | (Endo et al, 2008) |
9 | مقایسه و تجزیه و تحلیل الگوریتم های طبقه بندی درخت تصمیم گیری | (Anyanwu, et al, 2009) |
جدول 3: تحقیقات مرتبط با روش های خوشه بندی
ردیف | عنوان پژوهش | نام پژوهشگر |
1 | توسعه انبار داده های پزشکی بالینی مرسوم چینی برای کشف دانش پزشکی و حمایت از تصمیم گیری. | (Zhou et al, 2010) |
2 | ارائه راه حلی برای تشخیص بیماری به کمک تکنیک های داده کاوی | کلاهی و رافع (1392) |
3 | تشخیص تومورهای مغزی با استفاده از الگوریتم خوشه بندی فازی و هوش ازدحامی | مهرآفرید و اکبرپورسکه (1397) |
4 | بهبود قطعه بندی تصاویر تومور مغزی با استفاده از ترکیب خوشه بندی فازی و الگوریتمPSO | قویدل و همکاران (1397) |
5 | انتخاب خوشه بندی ترکیبی بر پایه یک اندازه گیری جدید بر روی داده های پزشکی | باقریان وهمکاران (1396) |
جدول 4: تحقیقات مرتبط با روش های کشف قواعد انجمنی
ردیف | عنوان پژوهش | نام پژوهشگر |
1 | کشف قوانین انجمنی در داده های پزشکی | (DODDI et al, 2001) |
2 | استفاده از الگوریتم بیز ساده و قوانین انجمنی جهت کشف روابط پنهان بین پارامترهای خطرزای بیماری سل | فراهانی و ربیعی (1396) |
3 | قوانین انجمنی داده کاوی در سیستم پیش بینی بیماری قلبی با استفاده از الگوریتم | جواهریان (1395) |
3- روش پژوهش
در این تحقیق مدل پیشنهادی بر اساس CRISP ارائه می شود که شامل 5 فاز است با توجه به متدلوژی CRISP ابتدا به درک هدف انجام کار و شناخت از بیمارستان و شناخت مفاهیم ارتوپدی می پردازیم. فاز دوم فاز شناخت داده ها و آماده سازی آنهاست که در این مرحله به بررسی رابطه بین فیلد ها، شناسایی داده های خاص و حذف رکوردهای ناقص و دسته بندی اطلاعات در گروه های مفید می پردازیم مرحله بعد مرحله مدل سازی است، روش هاي داده كاوي بسياري براي مدل سازي وجود دارد. در اين فاز با استفاده از تكنيك هاي مختلف داده كاوي به پيدا كردن مدل و الگوي بهينه مي پردازيم. مدل سازی را با استفاده از نرم افزار IBM SPSS Modeler انجام می دهیم. پس از مدلسازي به ارزيابي نتايج حاصل از مدلسازي می پردازیم. نتايج ارزيابي باعث بهبود مدل مي شود و مدل را قابل استفاده مي نمايد.
مجموعه داده ی مورد استفاده در این پژوهش اطلاعات حدود 310 بیمار می باشد و از بیمارستان اختر جمع آوری شده است که متشکل از هفت ویژگی می باشد. شش مورد از آن ها، ویژگی های بیومکانیکی مربوط با بیماران ارتوپدی می باشد. این ویژگیهای بیومکانیکی با توجه به شکل و جهت گیری لگن و ستوان فقرات کمری مشخص می گردند. این ویژگی به صورت زیر میباشند:
· ویژگی برخورد لگنی7 : به عنوان زاویه ی بین خط عمود بر صفحه ی ساکرال8 (نام یکی از استخوانهای تشکیل دهنده لگن خاصره است) در نقطه ی میانی خود و خط ارتباط دهنده ی این نقطه به محور اسکلت ران می باشد.
· شیب لگن9 : شیب لگن، جهت لگن در ارتباط با استخوان ران و بقیه بدن است.
· زاویه لوردوز کمری10 : لوردوز یا کاوپشتی، اصطلاحی پزشکی است که انحنا به داخل در بخشی از ستون مهرههای بدن را بیان می کند. به بیان دیگر، کاوپشتی، افزایش نابهنجار گودی کمر در ستون مهرهها می باشد.
· شیب ساکرالی11 : به عنوان زاویه ای بین صفحه ی ساکرال و یک خط افقی تعریف شده است.
· شعاع لگن 12
· درجه اسپوندیلولیستازی13: اسپوندیلولیستازی یا لغزش مهره، در پزشکی، به رانده شدن یک مهره به طرف جلو بر روی مهره زیرین، گفته می شود.
با توجه به ویژگی های بیان شده، وضعیت بیمار را می توان به دسته های عادی و غیرعادی طبقه ی نمود. حالت غیرعادی
می تواند شامل موارد زیر باشد:
فتق دیسک14 : عارضهای است که به علت ضربه یا بلندکردن جسم سنگین یا گاهی خود به خود در ستون فقرات اتفاق میافتد و طی آن، آزاد شدن بخش مرکزی دیسک یا هسته دیسک از قسمت محیطی آن، باعث فشار بر روی ریشههای عصبی و ایجاد علائم بالینی میگردد.
اسپوندیلولیستزیس: بیمار دارای مشکل لغزش مهره.
با توجه به ویژگی های بیان شده، می توان با اعمال روش های داده کاوی بر روی شش ویژگی ورودی، به وضعیت عادی یا غیرعادی بیمار پی برد. در حالت غیرعادی نیز می توان بررسی نمود که مشکل بیمار، کدامیک از دو مورد فتق دیسک یا لغزش مهره می باشد.
4- یافته های پژوهش:
4-1- نمای کلی داده ها
در اين مرحله، مواردي همچون شناخت نقش، نوع و جزييات کاربردي داده مورد بررسي قرار مي گيرد. شکل 1 نمایی از
داده های مورد استفاده را نشان می دهد. داده های مورد استفاده در این پژوهش در قالب دو مجموعه داده ارائه شده است. در یکی از مجموعه داده ها که به صورت دو کلاسه می باشد، صرفا افراد عادی (با برچسب NO) و غیرعادی (با برچسب AB) از هم تفکیک شده اند. در مجموعه داده دوم که به صورت سه کلاسه می باشد، علاوه بر تفکیک افراد عادی از غیرعادی، موارد غیرعادی نیز بر اساس نوع بیماری به دو گروه فتق دیسک (با برچسب DH) یا لغزش مهره (با برچسب SL) تقسیم شده اند.
شکل 1: نمایی از داده های مورد استفاده
نحوه ی توزیع کلاس های عادی و غیرعادی در شکل 2 نشان داده شده است. همانطور که مشاهده می شود، بیشتر افراد ثبت شده در مجموعه داده ی مورد بررسی دارای مشکلات فتق دیسک یا لغزش مهره می باشند.
شکل 2 : نحوه ی توزیع کلاس های عادی و غیرعادی
شکل 3، نحوه ی توزیع کلاس های عادی و غیرعادی با در نظر گرفتن هر دو حالت کلاس غیرعادی یعنی فتق دیسک یا لغزش مهره را نشان می دهد.
شکل 3 : نحوه ی توزیع کلاس های عادی و غیرعادی
4-2- پیش پردازش15
توضیحات گسترده ای پیرامون پیش پردازش و آماده سازی داده ها در منابع مرتبط با داده کاوی ارائه شده است. با بررسی مجموعه داده ی این تحقیق، می توان دریافت که بسیاری از این فعالیت ها برای این داده ها ضرورت ندارند. به عناون مثال از آنجایی که در مجموعه داده مورد نظر، شاهد مقادیر گم شده نیستیم، بنابراین نیازی به فعالیت های مرتبط با حذف مقادیر گم شده، نمی باشد.
با توجه به اینکه همه ی ویژگی های این مجموعه داده به غیر از ویژگی کلاس، از نوع عددی می باشد، مهم ترین فعالیتی که باید صورت داد، استاندارد سازی مقادیر می باشد. برای استاندارد سازی مقادیر راهکارهای متعددی وجود دارد که در این پژوهش از روش نمره استاندارد16 استفاده می شود.
برای اعمال این روش باید قدم های زیر برای هر مقدار از هر ویژگی انجام شود:
1. محاسبه ی میانگین و انحراف معیار ویژگی
2. کم کردن مقدار مورد نظر از میانگین
3. تقسیم کردن حاصل بدست آمده از مرحله ی 2 بر انحراف معیار
بخشی از نتیجه ی حاصل از محاسبه ی نمره استاندارد در شکل 4 نشان داده شده است.
شکل 4 : محاسبه ی نمره استاندارد
4-3- مدل سازی
در این بخش پژوهش، به ساخت مدل های داده کاوی بر روی مجموعه داده مورد نظر پرداخته می شود. هدف از این بخش تعیین دقت روش های مختلف برای پیش بینی نیاز به جراحی بیماران می باشد.
برای مقایسه کردن روش های مختلف داده کاوی از راهکار ارزیابی متقابل K-fold 17 استفاده خواهد شد. در راهکار ارزیابی متقابل، در طول فرآیند آموزش، داده های آموزش به K بخش تقسیم می شوند و هر بار از یکی از بخش ها برای ارزیابی و از سایر بخش ها برای آموزش استفاده می شود.
با توجه به اینکه بسیاری از الگوریتم های محیط Spss Modeler فاقد امکان داخلی ارزیابی متقابل می باشند، نیاز به پیادهسازی دستی این روش می باشد. شکل 5 پیاده سازی روش ارزیابی متقابل (5-Fold) بر روی روش C5 را نشان میدهد.
شکل 5 : پیاده سازی روش ارزیابی متقابل (5-Fold)
برای اطمینان از دقت هر یک از روش ها، فرآیند تقسیم داده ها به داده های آموزش و ارزیابی به صورت تصادفی صورت
می گیرد. میانگین 10 بار اجرای روش ارزیابی متقابل بر روی داده های دوکلاسه به عنوان نتیجه در جدول 5 قید شده است. برای اطمینان از کیفیت روش ها، تمام محاسبات بر روی داده های ارزیابی (تست) صورت گرفته است.
جدول 5 : نتایج حاصل از اجرای ارزیابی متقابل برای حالت دو کلاسه
ردیف | روش مورد استفاده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | C5 | 0.89 | 0.923 | 0.866 |
2 | CHAID | 0.849 | 0.878 | 0.838 |
3 | C&R Tree | 0.856 | 0.871 | 0.833 |
4 | Neural Net | 0.874 | 0.893 | 0.856 |
5 | SVM | 0.814 | 0.844 | 0.788 |
6 | KNN | 0.843 | 0.879 | 0.803 |
روش های C5 و Neural Net بر روی داده های دو کلاسه، نتایج نسبتا بهتری ارائه می دهند. میانگین 10 بار اجرای روش ارزیابی متقابل بر روی داده های سه کلاسه به عنوان نتیجه در جدول 6 قید شده است.
جدول 6 : نتایج حاصل از اجرای ارزیابی متقابل برای حالت سه کلاسه
ردیف | روش مورد استفاده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | C5 | 0.874 | 0.913 | 0.851 |
2 | CHAID | 0.823 | 0.856 | 0.801 |
3 | C&R Tree | 0.835 | 0.875 | 0.794 |
4 | Neural Net | 0.882 | 0.903 | 0.841 |
5 | SVM | 0.801 | 0.842 | 0.781 |
6 | KNN | 0.823 | 0.849 | 0.791 |
برای داده های سه کلاسه نیز روش های C5 و Neural Net، نتایج نسبتا بهتری ارائه می دهند.
4-4- تاثیر روش های تجمعی بر بهبود دقت
با بهره گیری از روش های تجمعی می توان دسته بندها را تقویت نمود. در محیط Spss Modeler برای برخی از الگوریتمها، روش های تجمعی Bagging و Boosting لحاظ شده است. در این بخش از این روش ها بر روی مدل های C5 و شبکهی عصبی که در آزمایش قبلی نتایج مناسب تری نسبت به سایر راهکارها داشتند، استفاده می شود.
جدول 7 نتایج حاصل از اعمال روش های تجمعی را بر روی مدل های C5 و شبکه ی عصبی با در نظر گرفتن داده های دو کلاسه، نشان می دهد. همان طور که ملاحضه می شود، روش شبکه ی عصبی به همراه Boosting نتیجه ی مطلوب تری را ارائه می دهد. دقت شود که برای روش C5 در محیط نرم افزار Spss Modeler، پیاده سازی روش Bagging لحاظ نشده است.
جدول 7 : تاثیر روش های تجمعی (داده های دو کلاسه)
ردیف | روش مورد استفاده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | C5 (Boosting) | 0.923 | 0.952 | 0.901 |
2 | Neural Net(Bagging) | 0.905 | 0.929 | 0.88 |
3 | Neural Net(Boosting) | 0.963 | 0.979 | 0.942 |
جدول 8 نتایج حاصل از اعمال روش های تجمعی را بر روی مدل های C5 و شبکه ی عصبی با در نظر گرفتن داده های سه کلاسه، نشان می دهد. همان طور که ملاحضه می شود مشابه جدول 7، روش شبکه ی عصبی به همراه Boosting
نتیجه ی مطلوب تری را ارائه می دهد.
جدول 8: تاثیر روش های تجمعی (داده های سه کلاسه)
ردیف | روش مورد استفاده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | C5 (Boosting) | 0.956 | 0.977 | 0.929 |
2 | Neural Net(Bagging) | 0.904 | 0.927 | 0.885 |
3 | Neural Net(Boosting) | 0.967 | 0.981 | 0.951 |
با توجه به نتایج جداول 7 و 8، می توان مشاهده کرد که روش شبکه ی عصبی بهبود داده شده با Boosting، نتایج مطلوبتری ارائه می دهد. در ادامه سعی می شود که تاثیر ساختار شبکه ی عصبی بر کیفیت نتیجه ی بدست آمده را بررسی نمود.
4-5- بهبود ساختار روش شبکه ی عصبی
شبکه های عصبی در محیط Spss Modeler به شبکه های Multi Layer Perceptron (MLP) و
Radial Basis Function (RBF) محدود می شوند. ساختار پیش فرض شبکه عصبی در محیط Spss Modeler، مبتنی بر یک لایه ی پنهان می باشد که بهترین تعداد نورون برای آن توسط نرم افزار محاسبه می شود. همچنین امکان افزایش تعداد لایه های پنهان حداکثر به دو مورد می باشد (برای شبکه ی عصبی RBF، تنها می توان یک لایه ی پنهان در نظر گرفت). بنابراین، برای بررسی سایر ساختارهای شبکه ی عصبی، تمرکز را بر روی روش MLP، با تعداد دو لایه خواهیم گذاشت و سعی می شود که تعداد مطلوب نورون در هر لایه شناسایی شود. این فرآیند با تست ساختارهای مختلف شبکه ی عصبی صورت خواهد گرفت. جدول 9 نتایج حاصل از بررسی ساختارهای مختلف شبکه ی عصبی بر روی داده های دو کلاسه را نشان می دهد. دقت شود که در تمام حالات، روش تجمعی Boosting لحاظ شده است.
جدول 9 : نتایج حاصل از بررسی ساختارهای مختلف شبکه ی عصبی بر روی داده های دو کلاسه
ردیف | ساختار شبکه | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | MLP (Default Structure) | 0.963 | 0.979 | 0.942 |
2 | RBF(Default Structure) | 0.855 | 0.883 | 0.819 |
3 | MLP(1N, 1N) | 0.856 | 0.884 | 0.836 |
4 | MLP(5N, 10N) | 0.969 | 0.984 | 0.952 |
5 | MLP(10N, 10N) | 0.962 | 0.983 | 0.956 |
6 | MLP(10N, 5N) | 0.963 | 0.978 | 0.957 |
جدول 10 نتایج حاصل از بررسی ساختارهای مختلف شبکه ی عصبی بر روی داده های سه کلاسه را نشان می دهد.
جدول 10 : نتایج حاصل از بررسی ساختارهای مختلف شبکه ی عصبی بر روی داده های سه کلاسه
ردیف | ساختار شبکه | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | MLP (Default Structure) | 0.967 | 0.981 | 0.951 |
2 | RBF(Default Structure) | 0.848 | 0.869 | 0.83 |
3 | MLP(1N, 1N) | 0.885 | 0.913 | 0.851 |
4 | MLP(5N, 10N) | 0.971 | 0.987 | 0.954 |
5 | MLP(10N, 10N) | 0.969 | 0.98 | 0.96 |
6 | MLP(10N, 5N) | 0.966 | 0.984 | 0.936 |
همان طور که در جداول 9 و 10 مشاهده می شود، روش شبکه ی عصبی متشکل از دو لایه پنهان که در لایه ی اول 5 نورون و در لایه دوم 10 نورون قرار داشته باشد، میانگین نتایج بهتری ارائه می دهد.
4-6- تلفیق مدل های مختلف
برای بهبود عملکرد روش های داده کاوی، می توان اقدام به تلفیق این روش ها نمود. در این پژوهش برای تلفیق روش های مختلف از ایده ی Stacking بهره برده شده است. در این ایده، ابتدا یکی از روش ها بر روی داده ها اعمال می شود و نتایج حاصل از اجرای روش، به مجموعه داده ی اصلی اضافه می شود. به طور معمول این نتایج شامل برچسب پیش بینی شده توسط روش می باشد. در ادامه، مجموعه داده ی جدید، تحویل روش اصلی می شود تا هم زمان از داده های اصلی و همین طور برچسب پیش بینی شده توسط روش اول، بهره ببرد.
نتایج حاصل از تلفیق برخی از روش ها بر روی شبکه ی عصبی MLP با دو لایه ی پنهان که لایه ی اول 5 نورون و لایه ی دوم 10 نورون را دارا می باشد، در جدول 11 قید شده است. نتایج این جدول، مربوط به داده های دو کلاسه است. همان طور که مشاهده می شود، تلفیق روش های شبکه ی عصبی و روش CHAID، بهترین نتیجه را ارائه می دهد. دقت شود که برای تمام روش های قید شده در جدول 11و جدول 12، از روش تجمعی Boosting بهره برده شده است.
جدول 11 : نتایج روش های ترکیبی بر روی داده های دوکلاسه
ردیف | مدل های استفاده شده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | NeuralNet+ C5 | 0.985 | 0.996 | 0.978 |
2 | NeuralNet+ CHAID | 0.997 | 1.00 | 0.993 |
3 | NeuralNet+ C&R Tree | 0.986 | 1.00 | 0.942 |
جدول 12، مشابه جدول 11 طراحی شده است، با این تفاوت که از داده های سه کلاسه برای آموزش و ارزیابی روش استفاده شده است. در این جدول نیز همان طور که مشاهده می شود، تلفیق روش های شبکه ی عصبی و روش CHAID، بهترین نتیجه را ارائه می دهد
جدول 12 : نتایج روش های ترکیبی بر روی داده های سه کلاسه
ردیف | مدل های استفاده شده | میانگین نتایج | بهترین نتیجه | بدترین نتیجه |
1 | NeuralNet+ C5 | 0.99 | 0.997 | 0.983 |
2 | NeuralNet+ CHAID | 0.998 | 1.00 | 0.996 |
3 | NeuralNet+ C&R Tree | 0.995 | 0.997 | 0.993 |
جمع بندی:
همان طور که بیان شد، روش مبتنی بر شبکه ی عصبی MLP با دو لایه ی پنهان که لایه ی اول 5 نورون و لایه ی دوم 10 نورون را دارا می باشد، که به کمک روش تجمعی Boosting تقویت شده، از سایر روش ها، عملکرد بهتری داشته است. تلفیق روش مذکور با روش درخت تصمیم CHAID، بهترین راه حل تلفیقی ارائه شده در این پژوهش می باشد که دقت نزدیک به 100 را ارائه می دهد.
بنابراین، بهترین روش با توجه به نتایج حاصل در این پژوهش به صورت زیر قابل بیان است:
1. دریافت داده های ورودی.
2. تبدیل ویژگی ها (اعمال تغییرات برای تغییر نوع ویژگی از اسمی به عددی و برعکس، بسته به نیاز) و محاسبه ی
نمره ی استاندارد برای ویژگی های عددی
3. اعمال الگوریتم CHIAD بر روی داده ها
4. اعمال فرآیند تجمعی Boosting بر روی شبکه ی عصبی MLP با دو لایه ی پنهان که لایه ی اول 5 نورون و لایه ی دوم 10 نورون دارد، با در نظر گرفتن داده های آموزش
5. اعمال مدل به دست آمده در مرحله ی 6، بر روی داده های تست.
در پایان می توان گفت کارایی روش ها و الگوریتم های داده کاوی، تا حد زیادی به مجموعه داده های مورد بررسی وابسته میباشند. به نحوی که برخی از الگوریتم ها، بر روی برخی از داده ها نتایج خوبی ارائه می دهند و بر روی داده های متفاوت، نتایج حاصل، شاید چندان مناسب نباشند. از این رو، پژوهشگران می توانند، از بهترین راهکارهای ارائه شده در این تحقیق، بر روی مجموعه داده های متفاوت در حوزه ی درمان بیماران ارتوپدی استفاده کنند و دقت حاصل از آن را مورد ارزیابی قرار دهند. مورد دیگری که از آن می توان به عنوان افق های آتی این پژوهش به آن اشاره کرد، بهره گیری از امکانات برنامه نویسی خارج از محیط Spss Modeler، به منظور بررسی دقیق تر ساختارهای متفاوت شبکه ی عصبی بر روی مجموعه داده ی مورد نظر می باشد. برای این منظور می توان از روش های تکاملی نظیر الگوریتم ژنتیک، برای تعیین ساختار مناسب شبکه ی عصبی بهره برد که متاسفانه این امکانات در محیط نرم افزار فراهم نشده است.
یادداشت ها
1- Data Mining
2- Neural Network
3- Ensemble method
4- Classification
5- Clustering
6- Association Rule
7- Pelvic incidence
8- Sacral plate
9- Pelvic tilt
10- Lumbar lordosis angle
11- Sacral slope
12- Pelvic radius
13- Grade of spondylolisthesis
14- Disk Hernia
15- Preprocessing
16- Z Score
17- K-Fold Cross Validation
فهرست منابع
1- اشقلی فراهانی, مونا، ربیعی، محمد (۱۳۹۶). استفاده از الگوریتم بیز ساده و قوانین انجمنی جهت کشف روابط پنهان بین پارامترهای خطرزای بیماری سل، دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات، تهران، دانشگاه مجلسی
2- باقریان, زهره، اکبری، ابراهیم، موتمنی، همایون (۱۳۹۶). انتخاب خوشه بندی ترکیبی بر پایه یک اندازه گیری جدید بر روی داده های پزشکی، دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات، تهران، دانشگاه مجلسی
3- جواهریان, محمد میثاق، (۱۳۹۵). قوانین انجمنی داده کاوی در سیستم پیش بینی بیماری قلبی با استفاده از الگوریتم، دومین کنفرانس بین المللی یافته های نوین پژوهشی در مهندسی برق و علوم کامپیوتر، رامسر، موسسه آموزش عالی غیرانتفاعی کسری رامسر
4- عامري حکیمه، عليزاده، سميه، برزگري، اكبر (1392). استخراج دانش از داده هاي بيماران ديابتي با استفاده از روش درخت تصمیمC5.0 . مجله مدیریت سلامت (53)16
5- قویدل, سهیلا، جعفری، احسان، پدیداران مقدم، فرهنگ ، (۱۳۹۷). بهبود قطعه بندی تصاویر تومور مغزی با استفاده از ترکیب خوشه بندی فازی و الگوریتمPSO، چهارمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات، بابل، موسسه علمی تحقیقاتی کومه علم آوران دانش
6- موسوی، فاطمه (1393). "داده کاوي داده هاي پزشکی و بیماري ها"، پایان نامه کارشناسی ارشد. رشتۀ مهندسی کامپیوتر - گرایش نرم افزار. دانشکدة مهندسی برق و کامپیوتر. دانشگاه تبریز.
7- مهرآفرید, سمیرا ، اکبرپورسکه، محمد ، (۱۳۹۷)، تشخیص تومورهای مغزی با استفاده از الگوریتم خوشه بندی فازی و هوش ازدحامی، فصلنامه پژوهش های کاربردی در فنی و مهندسی 2 (8)
8- Anyanwu, M. N., & Shiva, S. G. (2009). Comparative analysis of serial decision tree classification algorithms. International Journal of Computer Science and Security, 3(3), 230-240.
9- Babu, M. S. P., Swetha, R., Ramana, B. V., & Murty, N. V. R. (2013). A web-based soya bean expert system using bagging algorithm with C4. 5 decision trees. International Journal of Agriculture Innovations and Research, 1(4), 91-96.
10- DODDI, S, MARATHE, A, RAVIOE, S.S, TORNEY, D.S (2001), “Discovery of association rules in medical data”, med. Inform , vol. 26, no. 1. 25± 33
11- Endo A, Shibata T, & Tanaka H. (2008). Comparison of seven algorithms to predict breast cancer survival. Biomed Soft Comput Hum Sci; 13: 11-6.
12- Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
13- Kazemi A, Yousof zadeh A, & Azimi P. (2014). Detect of Hepatitis by combining data mmmg methods. The first national conference application of intelligent systems in science and technology.
14- Kaur, H, Wasan, S.K (2006), “Empirical Study on Applications of Data Mining Techniques in Healthcare”, Journal of Computer Science 2 (2): 194-200
15- Khalid, A. M, Siraj, F (2013), "Utilization of an Artificial Neural Network in the Prediction of Heart Disease," International Journal of Bio-Science and Bio-Technology, vol. 5, pp. 159-166.
16- Kolahi S, & Rafe W. (2014). Presentation a solution to diagnosis using data mining techniques. The first national conference electrical and computer southern Iran.
17- Kumari, M, Godara, S (2011), “Comparative Study of Data Mining Classification Methods in Cardiovascular Disease Prediction”, International Journal of Computer Sci ence and Technology, Vol. 2, Iss ue 2
18- Mahmoodi A, Asgarimoghadam R, Moazam M, & Saeghian S. (2014). Identify models predict coronary artery disease using Neural networks and variable selection based on classification and regression tree. J Shahrekord Med Sci Uni; 15:22-7. (Persian)
19- Malathi, A., & Santra, A. K. (2013). Diagnosis of lung cancer disease using neuro-fuzzy logic. CARE Journal of applied research, 1(1), 6-9.
20- Maldonado, M., Dean, J., Czika, W., & Haller, S. (2014). Leveraging ensemble models in SAS® Enterprise Miner™. In Proceedings of the SAS Global Forum 2014 Conference.
21- Priyama, A., Abhijeeta, R. G., Ratheeb, A., & Srivastavab, S. (2013). Comparative analysis of decision tree classification algorithms. International Journal of Current Engineering and Technology, 3(2), 334-337.
22- Saito, T., & Rehmsmeier, M. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3), e0118432.
23- Soni, J, Ansari, U, Sharma, D, Soni, S (2011), “Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction”, International Journal of Computer Applications (0975 – 8887), Volume 17– No.8
24- Zhou, X., Chen, S., Liu, B., Zhang, R., Wang, Y., Li, P. & Yan, X. (2010). Development of traditional Chinese medicine clinical data warehouse for medical knowledge discovery and decision support. Artificial Intelligence in medicine, 48(2-3), 139-152.
A Model for predicting the need for orthopedics surgery by using data mining techniques
Seyed Sina Fatemi Razavi
Dr. Seyed Abdollah Amin Mousavi
Abstract:
By expanding the use of computers in various aspects of people's lives, a huge amount of data is generated. Mostly this data contains valuable information. Data mining can enable us to extract required information and benefit from them. Data mining enables us to identify hidden patterns in data sets and use them for prediction. One of the areas that is faced with the massive production of data is the area of treatment. This study will focus in particular on orthopedics. This research is looking for using technology and data mining techniques from existing data in hospital's database to reach valuable information and predict possibility of breaks which require orthopedics surgery. This may support doctors to make their decisions easier, faster and more accurately in serving patients. This research is conducted by using the CRISP methodology. The result of this research shows that the combination of the CHAID algorithm and the Boosting cumulative amplified neural network can provide the desired accuracy in prediction of the need for orthopedics surgery.
Keywords: Data mining, Orthopedics, Surgical treatment