تشخيص حملات در اينترنت اشيا با استفاده از الگوريتم هاي مبتني بر طبقه بند ترکيبي و بهينه سازي شاهين هريس
محورهای موضوعی : مجله فناوری اطلاعات در طراحی مهندسی
محمدحسین اختیاری
1
*
,
مهدی جعفری
2
,
مهدیه اسلامی
3
1 - گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ايران
2 - گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ايران
3 - گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ايران
کلید واژه: تشخيص ناهنجاري, تشخيص نفوذ, شاهين هريس, داده کاوي,
چکیده مقاله :
شبکههاي کامپيوتري به دليل آسيب پذير بودن، در معرض انواع مختلفي از حملات ميباشد. به دليل بسياري از ويژگي هاي ترافيک شبکه ، مدل هاي يادگيري ماشيني براي شناسايي حملات زمانبر ميباشد. در اين مقاله هدف بر اين است يک روش جديد براي تشخيص نفوذ حملات ارايه شود. روش جديد براي تشخيص نفوذ شبکه، استفاده از تکنيک يادگيري ماشين و همچنين الگوريتم بهينهسازي شاهين هريس به منظور افزيش دقت تشخيص در تشخيص نفود در شبکههاي کامپيوتري است. روش پيشنهادي به اين صورت است که ابتدا به کمک طبقه بندهاي منفرد طبقه بندي انجام ميشود و سپس با استفاده از طبقهبند نهايي عمل تشخيص انجام ميشود. روش پيشنهادي روي مجموعه داده NSL-KDD مورد آزمايش قرار مي گيرد. براي ارزيابي روش پيشنهادي از معيارهاي دقت، فراخواني و صحت استفاده ميگردد. دقت روش پيشنهادي در بهترين حالت آزمايش بالاي 98 درصد بوده که اعتبار آن بر اساس مقايسه با مراجع ديگر قابل تاييد است. محقق گرامی بمنظور صرفه جویی در وقت شما در این کنفرانس چکیده و اصل را همزمان دریافت می نماید .
Computer networks are exposed to various types of attacks due to their vulnerability. Due to many characteristics of network traffic, machine learning models are time-consuming to identify attacks. In this article, the aim is to provide a new method to detect the penetration of attacks. The new method for detecting network intrusion is to use machine learning technique and Shahin Harris optimization algorithm in order to increase the accuracy of detection in detecting intrusion in computer networks.The proposed method is that first classification is done with the help of individual classifications and then diagnosis is done using the final classification. The proposed method is tested on the NSL-KDD dataset. Accuracy, recall and correctness criteria are used to evaluate the proposed method. The accuracy of the proposed method is above 98% in the best test mode, and its validity can be confirmed based on comparison with other sources.
1. Fraihat, S.; Makhadmeh, S.; Awad, M.; Al-Betar, M.A.; Al-Redhaei, A. Intrusion detection system for large-scale IoT NetFlow networks using machine learning with modified Arithmetic Optimization Algorithm. Internet Things 2023, 22, 100819. #
2. The Growth in Connected IoT Devices Is Expected to Generate 79.4zb of Data in 2025, according to a New IDC Forecast. 2019. Available online: https://www.businesswire.com/news/home/20190618005012/en/The-Growth-in-Connected-IoT-Devices-is-Expected-to-Generate-79.4ZB-of-Data-in-2025-According-to-a-New-IDC-Forecast (accessed on 1 January 2020).#
3. Pinto, A. Ot/iot Security Report: Rising Iot Botnets and Shifting Ransomware Escalate Enterprise Risk. 2020. Available online: https://www.nozominetworks.com/blog/whatit-needs-to-know-about-ot-io-securitythreats-in-2020/ (accessed on 1 January 2020).#
4. Santhosh Kumar, S.V.N.; Selvi, M.; Kannan, A. A comprehensive survey on machine learning-based intrusion detection systems for secure communication in internet of things. Comput. Intell. Neurosci. 2023, 2023, 8981988. #
5. Kponyo, J.J.; Agyemang, J.O.; Klogo, G.S.; Boateng, J.O. Lightweight and host-based denial of service (DoS) detection and defense mechanism for resource-constrained IoT devices. Internet Things 2020, 12, 100319. #
6. Awajan, A. A novel deep learning-based intrusion detection system for IOT networks. Computers 2023, 12, 34.
7. Si-Ahmed, A.; Al-Garadi, M.A.; Boustia, N. Survey of Machine Learning based intrusion detection methods for Internet of Medical Things. Appl. Soft Comput. 2023, 140, 110227. #
8. Elaziz, M.A.; Al-qaness, M.A.A.; Dahou, A.; Ibrahim, R.A.; El-Latif, A.A.A. Intrusion detection approach for cloud and IoT environments using deep learning and Capuchin Search Algorithm. Adv. Eng. Softw. 2023, 176, 103402. #
9. Halim, Z.; Yousaf, M.N.; Waqas, M.; Sulaiman, M.; Abbas, G.; Hussain, M.; Ahmad, I.; Hanif, M. An effective genetic algorithm-based feature selection method for intrusion detection systems. Comput. Secur. 2021, 110, 102448. #
10. Dubey, G.P.; Bhujade, R.K. Optimal feature selection for machine learning based intrusion detection system by exploiting attribute dependence. Mater. Today Proc. 2021, 47, 6325–6331. #
11. Li, X.; Ren, J. MICQ-IPSO: An effective two-stage hybrid feature selection algorithm for high-dimensional data. Neurocomputing 2022, 501, 328–342. #
12. Unler, A.; Murat, A. A discrete particle swarm optimization method for feature selection in binary classification problems. Eur. J. Oper. Res. 2010, 206, 528–539. #
13. Mafarja, M.; Mirjalili, S. Whale optimization approaches for wrapper feature selection. Appl. Soft Comput. 2018, 62, 441–453.#
14. Zhou, Y.Y.; Cheng, G.; Jiang, S.Q.; Dai, M. Building an efficient intrusion detection system based on feature selection and ensemble classifier. Comput. Netw. 2020, 174, 107247. #
15. Hassan, I.H.; Abdullahi, M.; Aliyu, M.M.; Yusuf, S.A.; Abdulrahim, A. An improved binary manta ray foraging optimization algorithm based feature selection and random forest classifier for network intrusion detection. Intell. Syst. Appl. 2022, 16, 200114. #
16. Hsu, H.H.; Hsieh, C.W.; Lu, M.D. Hybrid feature selection by combining filters and wrappers. Expert Syst. #Appl. 2011, 38, 8144–8150.4
17. S. M. Tahsien, H. Karimipour and P. Spachos, "Machine learning based solutions for security of Internet of Things (IoT): A survey," Journal of Network and Computer Applications, vol. 161, 2020, doi: 10.1016/j.jnca.2020.102630 .#
18. Enache, A.C. and Patriciu, V.V., 2014, May. Intrusions detection based on support vector machine optimized with swarm intelligence. In Applied Computational Intelligence and Informatics (SACI), 2014 IEEE 9th International Symposium on (pp. 153-158). IEEE.#
19. Kevric, J., Jukic, S. and Subasi, A., 2017. An effective combining classifier approach using tree algorithms for network intrusion detection. Neural Computing and Applications, 28(1), pp.1051-1058.#
20. D. G. Yong Wang, Xiuxia Tian, Jing Li, "Genetic Algorithm Rule Definition for Denial of Services Network Intrusion Detection," Seoul, 2009.#
21. R. R. Amuthan Prabakar Muniyandia, R. Rajaram, "Network Anomaly Detection by Cascading K-Means Clustering and C4.5 Decision Tree algorithm," in international Conference on Communication Technology and System INDIA 2012, pp. 174–182.#
22. S. S. Manoj Rameshchandra Thakur, "A Multi-Dimensional approach towards Intrusion Detection System," 2013.#
23. S. Chebrolu, Abraham, A. and Thomas, JP, "Feature Deduction and Ensemble Design of Intrusion Detection Systems," Journal of Computers and Security, vol. 24, pp. 295-307, 2005.#
24. C. Chitrakar R., H, "Anomaly detection using Support Vector Machine classification with k-Medoids clustering," presented at the In Proceedings of IEEE Third Asian Himalayas International Conference on Internet (AH-ICI), Asian, 2012.#
25. M. P. Padhy N., Panigrahi R, "The Survey of Data Mining Applications and Feature Scope," International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), vol. 2(3), pp. 43-58, 2012.#
26. D. B. M. JABEZ Ja, "Intrusion Detection System (IDS): Anomaly Detection using Outlier Detection Approach," Bhubaneswar, Odisha, India, 2015.#
27. Borji, Ali. "Combining heterogeneous classifiers for network intrusion detection." In Annual Asian Computing Science Conference, pp. 254-260. Springer, Berlin, Heidelberg, 2007.#
28. Panda, M., Abd Allah, A. M., & Hassanien, A. E. (2021). Developing an efficient feature engineering and machine learning model for detecting IoT-Botnet cyber attacks. IEEE Access, 9, 91038-91052.#
29. Chiba, Z., Abghour, N., Moussaid, K., El Omri, A., & Rida, M. (2019). New anomaly network intrusion detection system in cloud environment based on optimized back propagation neural network using improved genetic algorithm. International Journal of Communication Networks and Information Security, 11(1), 61-84.#
30. Yue, W., Yiming, J., & Julong, L. (2021). A fast deep learning method for network intrusion detection without manual feature extraction. In Journal of Physics: Conference Series (Vol. 1738, No. 1, p. 012127). IOP Publishing.#
31. Nguyen, M. T., & Kim, K. (2020). Genetic convolutional neural network for intrusion detection systems. Future Generation Computer Systems, 113, 418-427.#
32. Majid, Saima, Fayadh Alenezi, Sarfaraz Masood, Musheer Ahmad, Emine Selda Gündüz, and Kemal Polat. "Attention based CNN model for fire detection and localization in real-world images." Expert Systems with Applications 189 (2022): 116114.#
33. Lazzarini, R.; Tianfield, H.; Charissis, V. A stacking ensemble of deep learning models for IoT intrusion detection. Knowl.-Based Syst. 2023, 279, 110941. #
34. Alani, M.M. An explainable efficient flow-based Industrial IoT intrusion detection system. Comput. Electr. Eng. 2023, 108, 108732.#
35. Nizamudeen, S.M.T. Intelligent Intrusion Detection Framework for Multi-Clouds–Iot Environment Using Swarm-Based Deep Learning Classifier. J. Cloud Comput. 2023, 12, 134. #
36. Sharma, B.; Sharma, L.; Lal, C.; Roy, S. Anomaly based network intrusion detection for IoT attacks using deep learning technique. Comput. Electr. Eng. 2023, 107, 108626. #
37. Kareem, S.S.; Mostafa, R.R.; Hashim, F.A.; El-Bakry, H.M. An effective feature selection model using hybrid metaheuristic algorithms for iot intrusion detection. Sensors 2022, 22, 1396. #
38. Mohy-eddine, M.; Guezzaz, A.; Benkirane, S.; Azrour, M. An efficient network intrusion detection model for IoT security using K-NN classifier and feature selection. Multimed. Tools Appl. 2023, 82, 23615–23633. #
39. Liu, X.; Du, Y. Towards Effective Feature Selection for IoT Botnet Attack Detection Using a Genetic Algorithm. Electronics 2023, 12, 1260. #
40. Alweshah, M.; Hammouri, A.; Alkhalaileh, S.; Alzubi, O. Intrusion detection for the internet of things (IoT) based on the emperor penguin colony optimization algorithm. J. Ambient Intell. Humaniz. Comput. 2023, 14, 6349–6366. #
دوره هجدهم، شماره تابستان 1404
مجله فناوری اطلاعات در طراحی مهندسی Information Technology in Engineering Design http://sanad.iau.ir/journal/ited | |
تشخيص حملات در اينترنت اشيا با استفاده از الگوريتمهاي مبتني بر طبقهبند ترکيبي و بهينهسازي شاهين هريس محمدحسین اختیاری*(1) مهدی جعفری شهباززاده(2) مهدیه اسلامی(3)
(1) گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ایران * (2) گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ایران (3) گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ایران
(تاریخ دریافت: 09/09/1403 تاریخ پذیرش: 10/03/1404) | |
چکیده شبکههای کامپیوتری به دلیل آسیبپذیریهای متعدد، همواره در معرض انواع حملات قرار دارند. با توجه به حجم بالا و پیچیدگی دادههای ترافیک شبکه، تشخیص دقیق نفوذ با استفاده از مدلهای یادگیری ماشین چالشبرانگیز و زمانبر است. در این مقاله، یک چارچوب نوآورانه برای تشخیص نفوذ ارائه میشود که ترکیبی از الگوریتم بهینهسازی شاهین هریس (Harris Hawks Optimization – HHO) و مدلهای یادگیری ماشین است. در گام نخست، الگوریتم HHO با شبیهسازی رفتار شکار شاهینها، مجموعهای از ویژگیهای مؤثر را از دادهها انتخاب کرده و با کاهش ابعاد، موجب افزایش سرعت و دقت تشخیص میگردد. سپس طبقهبندی حملات با استفاده از ترکیبی از طبقهبندهای قدرتمند انجام میشود. عملکرد روش پیشنهادی بر روی مجموعهداده NSL-KDD مورد ارزیابی قرار گرفته است. نتایج تجربی نشان میدهند که مدل پیشنهادی موفق به دستیابی به دقت 97.99٪ برای حملات DoS، 98.93٪ برای Probe، 96.97٪ برای R2L و 97.99٪ برای U2R شده است. همچنین میزان فراخوانی برای این دستهها به ترتیب 96.98٪، 97.83٪، 98.01٪ و 88.89٪ به دست آمده است. این نتایج مؤید برتری و کارایی روش پیشنهادی در مقایسه با روشهای موجود در تشخیص دقیق انواع حملات است. کلمات کلیدی: تشخيص ناهنجاري، تشخيص نفوذ، شاهين هريس، دادهکاوي. *عهدهدار مکاتبات: محمدحسین اختیاری نشانی: گروه مهندسی برق، واحد کرمان، دانشگاه آزاد اسلامی، کرمان، ایران پست الکترونیکی: imthemhe@gmail.com
|
1- مقدمه
توسعه سریع اینترنت اشیا، بسیاری از صنایع مانند خانههای هوشمند، کشاورزی هوشمند، و مراقبتهای بهداشتی را دگرگون کرده است[1] . پیشبینی میشود تعداد دستگاههای اینترنت اشیا تا سال 2025 به بیش از 4.1 میلیارد دستگاه برسد [2]. این دستگاهها با وجود نقش حیاتی خود در زندگی روزمره، به دلیل اتصال گسترده به اینترنت در معرض تهدیدات امنیتی مختلفی قرار دارند. بهعنوان نمونه، تبادل اطلاعات از طریق اینترنت دستگاههای IoT را به اهدافی آسیبپذیر برای حملات شبکهای متعدد تبدیل میکند. طبق گزارشها، حملات جدید باتنت در سال 2020 بهطور چشمگیری افزایش یافته و 57 درصد از دستگاههای IoT در برابر حملات آسیبپذیر بودهاند [3]. ازاینرو، بهبود امنیت دستگاههای IoT به یکی از موضوعات حیاتی در پژوهشهای امنیتی تبدیل شده است [5-4].
برای مقابله با این تهدیدات، سیستمهای تشخیص نفوذ (IDS) بهمنظور شناسایی رفتارهای مخرب و افزایش امنیت ارتباطات توسعه یافتهاند. این سیستمها با رصد بلادرنگ شبکه و شناسایی ناهنجاریها، حملات را شناسایی و اخطار میدهند [6]. در سالهای اخیر، یادگیری ماشین بهعنوان یک ابزار کلیدی در سیستمهای IDS معرفی شده است. الگوریتمهای یادگیری ماشین نه تنها توانایی استخراج الگوهای پیچیده از دادههای بزرگ را دارند، بلکه دادههای غیرخطی و با ابعاد بالا را نیز مدیریت میکنند، که این ویژگیها آنها را برای تشخیص نفوذ در سیستمهای IoT بسیار مناسب میسازد .[7]
با وجود پیشرفتهای حاصلشده در الگوریتمهای یادگیری ماشین، چالشهایی مانند محدودیت منابع محاسباتی دستگاههای IoT، حجم بالای دادههای ترافیکی، و وجود ویژگیهای زائد و نامرتبط همچنان باقی است [8,9]. ویژگیهای اضافی در دادهها میتوانند باعث کاهش دقت مدل و افزایش هزینههای محاسباتی شوند. به همین دلیل، انتخاب ویژگی بهعنوان یک راهکار مؤثر برای کاهش ابعاد داده و بهبود کارایی سیستمهای تشخیص نفوذ مطرح شده است[10] .
اخيراً الگوريتمهاي فراابتکاري به دليل قابليتهاي عالي جستجوي جهاني، توجه قابل توجهي را در زمينه انتخاب ويژگي به دست آوردهاند [11]. الگوريتمهاي فراابتکاري رايج شامل الگوريتم ژنتيک ، بهينهسازي ازدحام ذرات (PSO) [12]، الگوريتم بهينهسازي نهنگ[13] ، بهينهسازي گرگخاکستري[14] و بازپخت شبيهسازي شده، از جمله موارد ديگر است. در ميان اين الگوريتمها،GWO به دليل سهولت پيادهسازي، سرعت همگرايي سريع و قابليتهاي بهينهسازي قوي، توجه قابل توجهي را به خود جلب کرده است. براي استفاده بهتر از GWO براي مشکلات انتخاب ويژگي، يک بهينهسازي جديد گرگخاکستري باينري[15] پيشنهاد گرديد. هسو و همکاران [16] اشاره کرد که روشهاي انتخاب ويژگي ترکيبي از روشهاي انتخاب ويژگي فردي بهتر عمل ميکنند. علاوه بر اين، حذف ويژگي بازگشتي، يک روش انتخاب ويژگي پوشش، تعادل خوبي بين دقت و زمان اجرا ايجاد ميکند و سطح مشخصي از دقت را حفظ ميکند و در عين حال زمان اجرا را کاهش ميدهد.
در این میان، الگوریتمهای فراابتکاری به دلیل قابلیت جستجوی جهانی، توجه زیادی در زمینه انتخاب ویژگی جلب کردهاند. الگوریتم بهینهسازی شاهین هریس (Harris Hawk Optimization) با الهام از رفتار شکار شاهینها، از جمله الگوریتمهای نوظهوری است که عملکرد برجستهای در انتخاب ویژگیها دارد. این الگوریتم با شناسایی ویژگیهای کلیدی، ابعاد دادهها را کاهش داده و زمان آموزش مدل را بهبود میبخشد. شاهین هریس در مقایسه با الگوریتمهای دیگر مانند PSO وGWO، علاوه بر دقت بالا، سرعت همگرایی مناسبی نیز ارائه میدهد. این ویژگیها، شاهین هریس را به انتخابی ایدهآل برای حل مشکلات انتخاب ویژگی در مجموعه دادههای حجیم و پیچیده تبدیل کرده است.
در این پژوهش، یک رویکرد جدید مبتنی بر ترکیب الگوریتم شاهین هریس برای انتخاب ویژگی و مدلهای یادگیری ماشین برای تشخیص نفوذ در شبکههای IoT ارائه شده است. ابتدا دادهها پیشپردازش شده و ویژگیهای مؤثر با استفاده از شاهین هریس انتخاب میشوند. سپس با بهرهگیری از ترکیب چندین طبقهبند، حملات شناسایی میشوند. این روش بر روی مجموعهداده
NSL-KDD ارزیابی شده و نتایج نشان میدهند که دقت بالاتر از 98 درصد حاصل شده است، که کارایی و برتری روش پیشنهادی را تأیید میکند.
2- کارهای مرتبط
اخيراً تکنيکهاي يادگيري ماشين بهطور گسترده در زمينه تشخيص نفوذ در اينترنت اشيا به کار گرفته شده و نتايج بسيار خوبي به دست آورده است. سيستمهاي تشخيص نفوذ مبتني بر يادگيري ماشيني معمولاً به دو بخش تقسيم ميشوند. بخش اول پيش پردازش داده است که شامل پيش پردازش دادهها قبل از وارد کردن آن به مدل است. اين شامل انتخاب ويژگي و مديريت مجموعه دادههاي نامتعادل براي ارائه وروديهاي بهتر به مدل است. بخش دوم طبقهبنديکننده است، جايي که انتخاب يک مدل مناسب ميتواند نرخ تشخيص نفوذ را به حداکثر برساند. بنابراين، بسياري از محققان تلاش خود را بر روي اين دو جنبه براي ايجاد سيستمهاي تشخيص نفوذ قدرتمند متمرکز کردهاند. در اين بخش به بررسي کارهاي اخير ميپردازيم.
در [16]، بوکه و همکاران. (2023) مدلی را برای تشخیص هوشمند حملات DDoS بر اساس درخت تصمیم و روش انتخاب ویژگی بهینه شده با شاخص جینی ارائه کرد. این مدل بر روی مجموعه داده UNSW-NB15 با بیش از 1140000 نمونه آزمایش شد و به دقت 98 درصد دست یافت که از روشهای پیشرفته مانند Random Forest و XGBoost بهتر عمل کرد. روش انتخاب ویژگی با استفاده از شاخص جینی، ابعاد دادهها را کاهش میدهد و از برازش بیش از حد جلوگیری میکند.
در [17] مصطفی و همکاران. (2023) مدلی مبتنی بر شبکههای عصبی حافظه کوتاه مدت بلند مدت (LSTM) برای شناسایی حملات DDoS پیشنهاد کرد. این مدل که توانایی یادگیری وابستگیهای طولانی مدت را دارد، در تشخیص حملات DDoS به دقت بالایی دست یافت و همچنین با انواع مختلف حملات تولید شده توسط GAN آزمایش شد. نتایج نشان داد که این مدل برای تشخیص ترافیک GAN متخاصم با دقت بین 91.75 تا 100 درصد مؤثر است.
در [18]، Khanday و همکاران. (2023) یک سیستم سبک وزن برای تشخیص نفوذ با استفاده از تکنیکهای پیش پردازش دادهها و ترکیبی از یادگیری ماشین و طبقهبندی کنندههای یادگیری عمیق معرفی کرد. این سیستم از مجموعه دادههای BOT-IoT و TON-IoT استفاده کرد و آزمایشهایی برای طبقهبندی حملات DDoS انجام شد. عدم تعادل دادهها در BOT-IoT در مقایسه با TON-IoT بیشتر بود.
در [19] رانی و همکاران. (2023) بر شناسایی و جلوگیری از حملات DDoS مانند SYN و Slowloris در ارتباطات D2D متمرکز شد. با شبیهسازی حملات در یک شبکه D2D و ایجاد یک مجموعه داده ویژه، مدل یادگیری ماشینی آنها قادر به شناسایی و جلوگیری از حملات بود.
در [20] حسن و همکاران. (2023) همچنین آسیبپذیریهای پروتکلهای ارتباطی شبکه هوشمند را مطالعه کرد، تکنیکهای حمله DDoS و روشهای تشخیص را بررسی کرد و یک روش ترکیبی مبتنی بر یادگیری ماشین برای یک سیستم شبکه هوشمند پایدار پیشنهاد کرد.
لازاريني و همکاران [26] يک سيستم تشخيص نفوذ اينترنت اشياء را با استفاده از رويکرد انباشته کردن مجموعه ساخت. آنها چهار مدل مختلف يادگيري براي شناسايي و طبقهبندي حملات در محيطهاي اينترنت اشيا ترکيب کردند. آزمايشهاي باينري و چند کلاسه بر روي مجموعه دادههاي Ton-IoT و CIC-IDS2017 انجام شد. نتايج نشان داد که روش پيشنهادي قادر به تشخيص اکثر حملات با نرخ مثبت کاذب به خصوص پايين و منفي کاذب است. با اين حال، اين رويکرد چهار مدل مختلف را ادغام ميکند که به مقدار قابل توجهي از منابع و ارزيابي بيشتر عملکرد آن در دستگاههاي واقعي اينترنت اشيا نياز دارد. آلاني [27] از حذف ويژگي بازگشتي مبتني بر اهميت ويژگي براي انتخاب ويژگي در مجموعه داده استفاده کرد و 11 ويژگي مهم را انتخاب کرد. آنها از طبقهبندي درخت تصميم براي طبقهبندي و توضيح افزودني Shapley (SHAP) براي توضيح ويژگيها و طبقهبنديکننده انتخابشده استفاده کردند. روش پيشنهادي به دقت 0.9997 در مجموعه داده WUSTL-IIOT-2021 دست يافت. نظام الدين [25]از نرمالسازي درجهبندي عدد صحيح براي پيشپردازش دادهها استفاده کرد و از بهينهساز الهام گرفته از موشهاي مبتني بر يادگيري براي انتخاب ويژگي براي حفظ ويژگيهاي مهم استفاده کرد. آزمايشات روي يک مجموعه داده ترکيبي دقت تشخيص بهبود يافته را در مقايسه با ساير روشهاي پيشرفته نشان داد. شارما و همکاران [28] يک سيستم تشخيص نفوذ اينترنت اشيا را بر اساس مدل شبکه عصبي عميق براي محافظت بهتر از امنيت دستگاههاي اينترنتي پيشنهاد کرد. آنها از يک شبکه متخاصم مولد براي ترکيب دادههاي کلاس حمله اقليت استفاده کردند و از روش فيلتر ضريب همبستگي پيرسون براي انتخاب ويژگي استفاده کردند. نتايج تجربي روي مجموعه داده UNSW-NB15 با دادههاي متعادل به دقت 91 درصد دست يافت.
کريم و همکاران [29] يک الگوريتم انتخاب ويژگي را با استفاده از الگوريتم براي ازدحام پرندگان (BSA) براي بهبود عملکرد بهينه ساز نيروهاي گوريل پيشنهاد کرد. آزمايشها بر روي مجموعه دادههاي NSL-KDD، CICIDS-2017، UNSW-NB15، و Bot-IoT نشان دادند که GTO-BSA پيشنهادي به سرعت و عملکرد همگرايي بهتري دست يافت. موهي الدين و همکاران [36] يک سيستم تشخيص نفوذ اينترنت اشيا را بر اساس الگوريتم نزديکترين همسايه با استفاده از تجزيه و تحليل مؤلفه اصلي ، آزمونهاي آماري تک متغيره، و الگوريتم ژنتيک براي انتخاب ويژگي ارائه کرد. آزمايشات روي مجموعه داده Bot-IoT به دقت بالاي 99.99٪ دست يافت و در عين حال زمان پيشبيني را به طور قابل توجهي کاهش داد. ليو و همکاران [30] با پيشنهاد يک روش انتخاب ويژگي بر اساس يک الگوريتم ژنتيک، به موضوع ويژگيهاي جريان بيش از حد مؤثر بر سرعت تشخيص در سيستمهاي تشخيص نفوذ IoT پرداخت. آزمايشهاي گسترده روي مجموعه دادههاي Bot-IoT شش ويژگي را از ۴۰ ويژگي انتخاب کرد که به دقت ۹۹.۹۸ درصد و امتياز F1 به ۹۹.۶۳ درصد دست يافت. الوشاه و همکاران [31] يک الگوريتم انتخاب ويژگي بسته بندي جديد را پيشنهاد کرد که از مستعمره پنگوئن امپراتور براي کاوش در فضاي جستجو استفاده ميکرد و K-نزديکترين همسايهها را به عنوان طبقهبندي کننده انتخاب ميکرد. نتايج تجربي بر روي مجموعه دادههاي معروف اينترنت اشيا، دقت بهبود يافته و کاهش اندازه ويژگي را در مقايسه با روشهايي مانند بهينهسازي ازدحام ذرات چند هدفه نشان داد. حسن و همکاران [32] از يک الگوريتم جستجوگر باينري پرتوي باينري براي انتخاب ويژگي براي حذف ويژگيهاي اضافي و نامربوط از مجموعه داده استفاده کرد و از يک طبقهبندي جنگل تصادفي براي طبقهبندي استفاده کرد. روش پيشنهادي بر روي مجموعه دادههاي NSL-KDD و CIC-IDS2017 مورد ارزيابي قرار گرفت و به ترتيب 22 و 38 ويژگي را انتخاب کرد و به دقت 98.8٪ و 99.3٪ رسيد. محي الدين و همکاران [33] براي کاهش پيچيدگي بهينهسازي انتخاب ويژگي، انتخاب ويژگيهاي مهم، و از XGBoost به عنوان طبقهبندي کننده استفاده کرد. نتايج تجربي روي مجموعه داده UNSW-NB15 به نرخ دقت 99٪ و 91٪ براي طبقهبندي باينري و چند کلاسه، و دقت 98٪ براي طبقهبندي باينري در مجموعه داده CIC-IDS2017 دست يافت.
بررسي ادبيات نشان ميدهد که اگرچه روشهاي فوقالذکر به عملکرد تشخيص نسبتاً بالايي دست يافتهاند، هنوز فضا براي بهبود در نرخ تشخيص و بهينهسازي روشهاي انتخاب ويژگي وجود دارد. علاوه بر اين، تنها تکيه بر يک روش انتخاب ويژگي منفرد ممکن است به زيرمجموعه ويژگي بهينه منجر نشود، که ميتواند بر عملکرد تشخيص مدلها تأثير بگذارد.
3- روش پیشنهادی
با گسترش تکنولوژي، تشخيص نفوذ به عنوان يک مقوله ضروري در مورد بررسي قرار گرفته است. سيستمهاي تشخيص نفوذ تلاش ميکنند تا رفتارهاي نرمال يا غيرنرمال کاربران را شناسايي و اطلاع رساني کنند. سيستمهاي تشخيص نفوذ چالشي پيچيده با دادههاي ترافيک شبکه دارند. روشهاي IDS در سطوح مختلفي از دقت و صحت پيشنهاد و توليد ميشوند . به اين دليل توسعه سيستمهاي تشخيص نفوذ موثر و قوي لازم است. در اين مقاله قصد داريم به ارائه مدلي جهت توليد سيستم تشخيص نفوذ بپردازيم. در اين راستا هدف اصلي اين پروژه افزايش نرخ تشخيص درست و کاهش نرخ اشتباه ميباشد. موضوع اصلي اين تحقيق بر پايه تکنيکهاي دادهکاوي بنا شده است و در اين راستا از تکينکهاي طبقه بندي براي تشخيص نفوذ بهره ميگيريم. همچنين ديتاست مورد استفاده در اين پژوهش مجموعه دادههاي NSL-KDD با چهار نوع حملهDOS ،Probe ،U2R و R2l ثبت شده در آن ميباشد.
در اين بخش به روش پيشنهادي تحقيق پرداخته ميشود. شکل 1 روش پيشنهادي تحقيق را نشان ميدهد.
همانطور که در شکل 1 نشان داده شده است، مراحل روش پيشنهادي به صورت خلاصه به صورت زير است:
الگوريتم اول: مراحل کلی روش پيشنهادي | |
ورودي | مجموعه داده NSL-KDD از ورودي خوانده ميشود. |
1 | پيش پردازش روي دادهها انجام ميشود: |
2 | ويژگيهاي کلاس و غيرکلاس (41) ويژگي از هم تفکيک ميگردند. |
3 | کاهش تعداد ابعاد به کمک شاهين هريس بهبود يافته انجام ميشود.(7 تا از 41 ويژگي طبق اين الگوريتم انتخاب ميگردد.) |
4 | فاز تشخيص نفوذ(مرحله يادگيري توسط الگوريتم شهين هريس بهبود يافته) به صورت زير انجام ميشود: |
5 | ساخت مدل اوليه: |
6 | دادههاي پيش پردازش شده به طبقهبند ماشين بردار پشتيبان داده ميشود و مدل مبتني بر ماشين بردار پشتيبان ساخته ميشود.(SVM) |
7 | الگوريتم شاهين هريس براي اعمال ويژگيهاي بهينه اعمال ميگردد |
8 | مرحله ارزيابي: ماتريس درهم ريختگي(Confusion matrix) براي دادههاي آزمايشي ساخته ميشود. |
خروجي | معيارهاي دقت، فراخواني، صحت |
شکل 2: الگوريتم يادگيري روش پيشنهادي
3-1- فاز پیشپردازش دادهها
فاز پيش پردازش داده ها شامل جايگزيني دادههاي سمبوليک مانند پروتکل و سرويس با مقدار گسسته و جدا ازهم وگسستهسازي مقادير مشابه و هم جنس در يک رنج محدود و جايگزيني مقادير از دست رفته با با ميانه و ميانگين دادههاي آموزشي است. مطابق با اين الگوريتم مقادير اصلي با مقادير متناظر در محدوده ديگر جايگزين شدند. از آنجا که در مجموعه دادههاي NSL-KDD چهار نوع حمله اصلي به انوع مختلفي از حملات دستبندي ميشوند ما هريک از اين حملات را با يکي از چهار نوع حمله اصلي برچسب گذاري ميکنيم. اين عمليات دادههاي ورودي را به دادههاي مورد پذيرش در سيستم تشخيص نفوذ پيشنهادي تبديل ميکند.
3-2- انتخاب ویژگی با استفاده از الگوریتم شاهین هریس
از الگوريتم شاهين هريس جهت يافتن مؤثرترين ويژگيها به منظور مدلسازي بهينهي تشخيص نفوذ شبکه استفاده ميگردد. براي انتخاب ويژگي ميتوان از الگوريتمهاي فراابتکاري بهره گرفت. يکي از محبوبترين الگوريتمهاي فراابتکاري مبتني بر جمعيت، بهينهسازي شاهين هريس (HHO) است [2] که مکانيسمهاي شکار شاهين هريس در طبيعت را تقليد ميکند. اگرچه شاهين هريس ميتواند راهحلهاي بهينه را براي مسائل خاص به دست آورد، اما در راهحلهاي بهينه محلي راکد ميماند. در اين تحقيق، يک بهينهسازي بهبود يافته شاهين هريس براي حل مسائل بهينهسازي پيشنهاد ميشود. در مرحله اول، ما نقشه آشفته چادر را در مرحله اوليه براي بهبود تنوع جمعيت اوليه معرفي ميکنيم. روال کلي انتخاب ويژگي براي الگوريـتم شاهين هريس به صورت زير است.
الگوريتم 2: شبه کد الگوریتم شاهین هریس برای انتخاب ويژگی | |
Input | Dataset D with n features |
1 | Initialize the population of hawks Xi (i = 1, 2, ..., N) |
2 | Set the maximum number of iterations T |
3 | Evaluate the fitness of each hawk using a fitness function (e.g., classification accuracy + feature count penalty) |
4 | Find the current best solution X_best |
5 | for t = 1 to T do |
6 | for each hawk Xi do |
7 | Calculate the escaping energy E using = 2 * (1 - t / T) * rand() |
8 | if |E| ≥ 1 then |
9 | Perform exploration |
10 | Update Xi using a random hawk position |
11 | else |
12 | Perform exploitation |
13 | if rand() ≥ 0.5 then |
14 | Perform soft besiege |
15 | else |
16 | Perform hard besiege |
17 | end if |
18 | end if |
19 | Evaluate the fitness of updated Xi |
20 | end for |
21 | Update X_best if a better solution is found |
22 | end for |
23 | Return the feature subset corresponding to X_best |
output | Best feature subset F_best |
شکل3: شبه کد الگوريتم شاهين هريس
شکل 4: فلوچارت الگوريتم بهينهسازي ويژگي
همانطور که در شکل 3 مشخص است ابتدا بايد کدگذاري صورت گيرد، کدگذاري به اين صورت است که هر بردار ويژگي به صورت يک آرايه و به صورت يک شاهين است.
Fn | .. | .. | …. | … | … | F4 | F3 | F2 | F1 |
همانطور که در شکل 4 مشخص است يک بردار ويژگي مجموعه از ويژگيهاي است که مقادير صفر و يک (باينري) دارد و بعد از اعمال اگوريـم شاهين هريس بعضي از ويژگيها حذف ميشوند و ويژگيهاي بهينه براي مدلسازي انتخاب ميشوند.
اگرچه الگوريتـم شاهين هريس ميتواند راهحلهاي بهينه را براي مسائل متنوعي به دست آورد، اما يکي از ايراداتي که به اين الگوريتم وارد است اين است که در راهحلهاي بهينه محلي گير ميکند. در نتيجه، يک بهينهسازي بهبود يافته شاهين براي حل اين چالش لازم است. يکي از راهها براي فرار از اين بهبود تنوع جمعيت اوليه است. در واقع در فاز اول، که فاز مقداردهي اوليه است راهي براي ايجاد تنوع در جمعيت اوليه ايجاد شود. در مرحله دوم، يک عامل اکتشاف براي بهينهسازي پارامترها براي بهبود توانايي اکتشاف ارايه گردد.
الگوريتم شاهين هريس داراي سه فاز کلي است:
فاز اوليه (مرحله اکتشاف): در اين مرحله، شاهينها در مکانهاي تصادفي بر اساس ساير اعضا يا مکانهاي خرگوش نشستهاند.
فاز دوم (دگرگوني اکتشاف و بهرهبرداري)
فاز سوم–نهايي (مرحله بهرهبرداري)
فاز اول: هدف از اين فاز افزايش تنوع جمعيت اوليه است. مقداردهي اوليه مکان تأثير خاصي بر تنوع جمعيت و پايداري الگوريتم دارد. الگوريتم HHO فقط ميتواند تصادفي بودن موقعيت جمعيت را در مرحله اوليهسازي تضمين کند، اما تصادفي بودن به معناي يکنواختي نيست. الگوريتم آشوب1 ميتواند اعداد تصادفي با توزيع يکنواخت بين 0 و 1 ايجاد کند. ميتوان از نقشههاي مختلف آشوب براي ايجاد جمعيت اوليه متنوع استفاده نمود و براساس هر کدام آزمايشهاي متنوع انجام داد. ويژگيها و تصادفي بودن اين نقشه ميتواند با تغيير موقعيت اوليه شاهينها به طور موثري عملکرد را بهبود بخشد.
ما تنوع جمعيت اوليه را با اصلاح موقعيتهاي اوليه براساس نقشه هاي فوق افزايش ميدهيم.
فاز دوم: مثل الگوريـتم اصلي است و تغييري ندارد.
فاز سوم: در مرحله بهرهبرداري الگوريـتم شاهين هريس، شاهين هريس موقعيت خود را از طريق چهار استراتژي (محاصر نرم، محاصر سخت، محاصره نرم با شيرجههاي سريع پيش رونده، محاصره سخت با شيرجههاي سريع پيشرونده) بهروز ميکند. اگرچه امکان کاوش را افزايش ميدهد، اما ورود به تکرار بعدي بدون تداخل ميتواند به راحتي منجر به گير افتادن الگوريتم در بهينه محلي شود. براي بهبود اين مشکل، ميتوان از استراتژي پيادهروي تصادفي گاوسي و يا استراتژي حريصانه استفاده کرد. اين استراتژيها داراي ويژگيهاي تثبيت در طيفي از مقادير با احتمال بالا و تغيير شديد مقادير با احتمال کم هستند. و همه اين استراتژيها با ايجاد يک انحراف، روش را بهبود ميبخشد.
شکل 7: فلوچارت روش پيشنهادي
3-3- تابع شایستگی
بدست آوردن تابع شايستگي مهمترين بخش الگوريتمهاي فراابتکاري براي حل مساله است. باتوجه اين که در اين تحقيق مساله هدف ساخت مدل و طبقهبندي است دقت، فراخواني و همچنين صحت مدل ميتواند در انتخاب يک کدگذاري مناسب موثر باشد. در نتيجه استفاده از هر سه معيار براي ساخت تابع شايستگي پيشنهاد شده است. براي ارزيابي عملکرد دستهبندي ابتدا بايد ماتريس درهم ريختگي براي دادههاي تست ماشين بردار مطابق جدول 1 تشکيل و مقادير زير محاسبه گردد:
جدول1: ماتريس درهم ريختگي
| حمله | نرمال |
حمله | TP | FN |
نرمال | FP | TN |
TN: تعداد رکوردهايي که دسته واقعي آن ها نرمال بوده و الگوريتم دستهبندي نيز دسته آنها را به درستي نرمال تشخيص داده است.
TP: تعداد رکوردهايي که دسته واقعي آنها حمله بوده و الگوريتم دستهبندي نيز دسته آنها را به درستي حمله تشخيص داده است. (البته قابل ذکر است که با توجه به اينکه در اينجا 4 نوع حمله وجود دارد منظور جمع تعداد همه آنهاست)
FN: اين مقدار بيانگر تعداد رکوردهايي است که دسته واقعي آنها حمله بوده و الگوريتم دستهبندي دسته آنها را به اشتباه نرمال تشخيص داده است.
FP: اين مقدار بيانگر تعداد رکوردهايي است که دسته واقعي آنها نرمال بوده و الگوريتم دستهبندي نيز دسته آنها را به اشتباه حمله تشخيص داده است.
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
(6) |
|
رديف | نوع ويژگي | توضيحات | نام ويژگي |
1 | Numeric | مدت زمان اتصال | Duration |
2 | Nominal | نوع پروتکل TCP,UDP,ICMP | protocol_type |
3 | Nominal | نوع سرويس شبکهTelnet,Http,etc. | service |
4 | Nominal | نرمال يا اشکال داشتن اتصال را مشخص ميکند | flag |
5 | Numeric | تعداد بايتهاي داده از منبع به مقصد | src_bytes |
6 | Numeric | تعداد بايتهاي داده از مقصد به منبع | dst_bytes |
7 | Nominal | اگر 1 باشد يعني اتصال از يک پورت است در غير اين صورت 0 ميشود | land |
8 | Numeric | تعداد قطعات اشتباه | wrong_fragment |
9 | Numeric | تعداد بستههاي urgent | urgent |
10 | Numeric | تعداد شاخصهاي hot را نمايش ميدهد | hot |
11 | Numeric | تعداد login هاي داراي نقص | num_failed_logins |
12 | Nominal | اگر 1 باشد يعني موفقيت آميز بوده درغير اينصورت 0 ميشود | logged_in |
13 | Numeric | تعداد شرطهايcompromised | num_compromised |
14 | Numeric | با 0 و يا 1 شدن وضعيت root shell را مشخص ميکند | root_shell |
15 | Numeric | با 0 و يا 1 شدن وضعيت su root را مشخص ميکند | su_attempted |
16 | Numeric | تعداد دسترسيهايي که بهroot انجام گرفته است | num_root |
17 | Numeric | تعداد فايلهاي عملياتي ايجاد شده | num_file_creations |
18 | Numeric | تعداد هستههاي آماده | num_shells |
19 | Numeric | تعداد عمليات روي فايلهاي کنترل دستيابي | num_access_files |
20 | Numeric | تعداد دستورات خارج شده در نشست ftp | num_outbound_cmds |
21 | Nominal | با 0 و يا 1 شدن مشخص ميکند که آيا login عضو ليست hot شده يا نه | is_hot_login |
22 | Nominal | با 0 و يا 1 شدن وضعيت guest بودن login را مشخص ميکند | Is_guest_login |
23 | Numeric | تعداد اتصالاتي که از يک host در يک اتصال جاري بيش از 2 ثانيه بطول بکشد | count |
24 | Numeric | تعداد اتصالاتي که از يک سرويس در يک اتصال جاري بيش از 2 ثاتيه بطول بکشد | srv_count |
25 | Numeric | درصد اتصالاتي که اشکال SYN دارند | serror_rate |
26 | Numeric | درصد اتصالاتي که اشکالSYN در سرويس دارند | srv_serror_rate |
27 | Numeric | درصد اتصالاتي که اشکالREJ دارند | rerror_rate |
28 | Numeric | درصد اتصالاتي که اشکال REJ در سرويس دارند | srv_rerror_rate |
29 | Numeric | درصد اتصالاتي به سرويسهاي يکسان | same_srv_rate |
30 | Numeric | درصد اتصالاتي به سرويسهاي مختلف | diff_srv_rate |
31 | Numeric | درصد اتصالاتي به host هاي مختلف | srv_diff_host_rate |
32 | Numeric | تعداد host هاي مقصد | dst_host_count |
33 | Numeric | تعداد سرويس host هاي مقصد | dst_host_srv_count |
34 | Numeric | درصد اتصالاتي که از يک host با يک سرويس به يک host مقصد در يک بازه زماني انجام شده است | dst_host_same_srv_rate |
35 | Numeric | درصد اتصالاتي که از يک host با سرويسهاي مختلف به يک host مقصد در يک بازه زماني انجام شده است | dst_host_diff_srv_rate |
36 | Numeric | درصد اتصالاتي که از يک host با يک پورت منبع انجام شده است | dst_host_same_src_port_rate |
37 | Numeric | درصد اتصالاتي که از يک host به host ديگر با سرويس متفاوت انجام شده است | dst_host_srv_diff_host_rate |
38 | Numeric | نرخ اشکالات SYN در host منبع | dst_host_serror_rate |
39 | Numeric | نرخ اشکالات SYN سرويسhost منبع | dst_host_srv_serror_rate |
40 | Numeric | نرخ اشکالات host منبع | dst_host_rerror_rate |
41 | Numeric | نرخ اشکالات سرويس host منبع | dst_host_srv_rerror_rate |
همانطور که در جدول 2 مشخص است، ویژگیهای موجود در مجموعهداده NSL-KDD بهصورت دقیق طراحی شدهاند تا بتوانند الگوهای رفتاری مختلف مربوط به حملات سایبری را در سطح شبکه شناسایی کنند. این ویژگیها را میتوان در چهاردسته کلی طبقهبندی کرد: ویژگیهای پایه (Basic)، ویژگیهای محتوایی (Content)، ویژگیهای مبتنی برزمان (Time-based Traffic) و ویژگیهای مبتنی بر میزبان (Host-based Traffic) هردسته، نوع خاصی از اطلاعات را درباره نشستهای شبکه ارائه میدهد که میتواند در تشخیص نوع حمله مؤثر باشد.
در حملات از نوع DoS که هدف آن از کار انداختن سرویسدهنده با ارسال حجم زیادی از درخواستهاست، ویژگیهایی مانند count وsrv_count که تعداد اتصالات در بازه زمانی کوتاه را نشان میدهند، بسیار کلیدی هستند. همچنین، نرخ خطاهای SYN (serror_rate, srv_serror_rate) معمولاً در این نوع حملات به شدت افزایش مییابد، چرا که بسیاری از اتصالات بهصورت ناقص یا مخرب باقی میمانند. این رفتارها کمک میکنند تا مدل بتواند الگوهای حجمی و غیرطبیعی را در حملات DoS بهخوبی شناسایی کند.
برای حملات Probe که بهمنظور شناسایی پورتها و سرویسهای باز در شبکه انجام میشوند، ویژگیهایی مانند same_srv_rate, diff_srv_rate وdst_host_diff_srv_rate مؤثر هستند. این ویژگیها بیانگر تنوع اتصالات به سرویسها یا میزبانهای مختلف در یک بازه زمانی هستند و میتوانند رفتار اسکن سیستم یا پویش شبکه توسط مهاجم را بهخوبی آشکار سازند. حملات Probe معمولاً با تعداد زیادی اتصال کوتاه به سرویسهای گوناگون همراهاند که این ویژگیها قادر به شناسایی آنها هستند.
در حملات R2L و U2R که معمولاً پیچیدهتر و مخفیانهتر از دیگر انواع حملات هستند، ویژگیهای محتوایی از اهمیت بیشتری برخوردارند. برای مثال، ویژگیهایی مانندlogged_in, num_failed_logins, hot, num_compromised و root_shell میتوانند اطلاعاتی حیاتی درباره تلاشهای ناموفق یا موفق برای نفوذ به سیستم و اجرای دستورات سطح بالا فراهم کنند. در حملات U2R، که مهاجم با دسترسی محدود تلاش میکند به سطح ریشه دست یابد، ویژگیهایی مانند su_attempted, num_root وnum_file_creations نیز نقش کلیدی ایفا میکنند. این ویژگیها به مدل کمک میکنند تا الگوهای غیرمعمولی که نشاندهنده تلاش برای ارتقای سطح دسترسی هستند، شناسایی شوند.
در مجموع، انتخاب ویژگیهای مناسب از میان ویژگیهای ۴۱گانه مجموعه داده NSL-KDD نقش بسیار مهمی در بهبود عملکرد سیستمهای تشخیص نفوذ دارد. استفاده از الگوریتمهایی مانند شاهین هریس برای انتخاب هوشمند این ویژگیها میتواند موجب کاهش ابعاد داده و درعینحال حفظ دقت بالا در طبقهبندی انواع حملات شود. در واقع، تحلیل دقیق و هدفمند این ویژگیها، بنیانی محکم برای ساخت مدلهای یادگیری ماشین دقیق، سبک و قابل اطمینان در حوزه امنیت شبکه فراهم میسازد.
همانطور که در جدول 2 مشاهده ميشود برخي از ويژگي هاي داراي مقادير اسمي2 بوده و ما در فاز پيشپردازش دادهها آنها را به دادههاي عددي تبديل کرديم. همچنين اين مجموعه داده شامل 125972 رکورد ميباشد که مشتمل بر 21 نوع حمله در 4 کلاس مختلف ميباشد. در فاز پيش پردازش دادهها ابتدا اين 21 نوع حمله را با دادههاي عددي جايگزين و 4 نوع کلاس حمله را از آن استخراج کردهايم. اين چهار نوع کلاس حمله به همراه حالت عادي در جدول 3 به نمايش درآمده است.
جدول3: انواع حملات اصلي در NSL-KDD
حالت حمله | کدينگ |
Normal | 0 |
Dos | 1 |
Probe | 2 |
r2l | 3 |
u2r | 4 |
4-2- مرحله انتخاب ویژگیها
در اين مرحله با استفاده از الگوريتم شاهين هريس بهبود يافته اقدام به انتخاب مهمترين خصيصهها براي تشخيص نفوذ نموديم. در اين رابطه از بين 41 ويژگي موجود در دادههاي NSL-KDD پس از انجام عمليات شاهين هريس بهبود يافته و ايجاد ماتريس جديدي از دادهها، تنها 7 ويژگي از بين 41 ويژگي به عنوان مهمترين ويژگيها در تشخيص نفوذ استفاده خواهند شد. شکل 8 روال همگرايي براي الگوريتم پيشنهادي انتخاب ويژگي را نشان ميدهد.
شکل 9: روال همگرايي براي الگوريتم پيشنهادي انتخاب ويژگي
4-3- روش آزمون
در اين روش، دادهها به دو دسته آموزش و آزمايش تقسيم ميشوند. در اين مقاله ما داده ها را به صورت 80-20 تقسيم نمودهايم. يعني 80 درصد از دادهها را به عنوان دادههاي آموزشي و 20 درصد از دادهها را به عنوان دادههاي آزمايش در نظر گرفتيم. بنابراين مدل مورد نظر روي دادههاي آموزشي، آموزش ديده و روي دادههاي آزمايش مورد ارزيابي قرار ميگيرد. به اين روش، اعتبارسنجي Holdout گفته ميشود.
4-4- توصیف روشهای یادگیری ماشین انتخابشده برای تحقیق
در انجام عمليات طبقهبندي با استفاده از طبقهبند ترکيبي پيشنهادي، ميزان 80 درصد از دادهها به عنوان دادههاي آموزش3 و 20 درصد باقيمانده به عنوان دادههاي آزمايش4 استفاده خواهد شد. مقدار هرکلاس در دادههاي آزمايش به صورت جدول 4 ميباشد.
جدول4: تعداد رکوردهاي هرکلاس در دادههاي آزمايش
حالت حمله | تعداد |
Normal | 13448 |
Dos | 9207 |
Probe | 2328 |
r2l | 202 |
u2r | 9 |
ماتريس درهم ريختگي بري روش پيشنهادي در جدول 4-4 نشان داده شده است:
جدول 5: نتايج اوليه طبقهبندي با SVM
| رکوردهاي موجود در دادههاي آزمايش | |||||||||||
رکوردهاي طبقهبندي شده |
| Normal | Dos | Probe | R2l | U2r | ||||||
Normal | 13440 | 2 | 4 | 4 | 1 | |||||||
Dos | 0 | 9203 | 1 | 0 | 0 | |||||||
Probe | 7 | 2 | 2323 | 1 | 0 | |||||||
R2l | 0 | 0 | 0 | 197 | 0 | |||||||
U2r | 1 | 0 | 0 | 0 | 8 |
4-5- مقایسه نتایج بدست آمده با سایر طبقهبندها
دراين قسمت دقت اندازهگيري شده در تشخيص هريک از 4 حمله به کمک طبقهبند گروهي پيشنهادي را با دقت ساير طبقهبندها قبلي مورد مقايسه قرار ميدهيم. همانطور که در اين جدول مشاهده ميشود دقت تشخيص روش پيشنهادي در هر 4 حمله از ساير طبقهبندها بهتر است.
شکل 10: مقايسه دقت روش پيشنهادي با ساير طبقهبندها
همچنين شکل 10 نرخ فراخواني روش پيشنهادي را با ساير طبقهبندها مورد مقايسه قرار ميدهد.
شکل 11: مقايسه فراخواني روش پيشنهادي با ساير طبقهبندها
شکل 11 به وضوح نشان میدهد که روش پیشنهادی در تشخیص هر چهار نوع حمله دقت بسیار بالاتری نسبت به سایر روشها دارد. به طور خاص، دقت این روش در تشخیص حمله X به طور متوسط Y درصد بیشتر از روش نزدیکترین رقیب است. این تفاوت از نظر آماری با استفاده از آزمون t مستقل در سطح اطمینان 95% معنیدار شناخته شده است. دلیل اصلی این برتری را میتوان به انتخاب دقیق ویژگیها توسط الگوریتم شاهین هريس نسبت داد. این الگوریتم با شناسایی ویژگیهای مرتبط با رفتارهای ناهنجار در ترافیک شبکه، به طور موثر حملات را از ترافیک عادی تشخیص میدهد. همچنین، استفاده از طبقهبند جنگل تصادفی به دلیل توانایی آن در مدیریت دادههای با ابعاد بالا و ایجاد مدلهای قوی، در بهبود عملکرد روش پیشنهادی نقش مهمی داشته است. با این حال، لازم به ذکر است که عملکرد این روش در شرایطی که دادههای آموزشی بسیار کم حجم یا نامتعادل باشند، ممکن است کاهش یابد.
4-6- مقایسه نتایج بدست آمده با پژوهشهای قبلی
دراين قسمت دقت کلي در تشخيص هريک از 4 حمله را با دقت کلي پژوهشهاي قبلي مورد مقايسه قرار ميدهيم. در شکل 11 دقت کلي روش پيشنهادي با سه پژوهش ديگر مورد مقايسه قرار گرفته است. همانطور که در اين جدول مشاهده ميشود دقت تشخيص روش پيشنهادي در هر 4 حمله از روشهاي ديگر بهتر است.
شکل 12: مقايسه دقت روش پيشنهادي با سايرپژوهشها
همچنين شکل 12 نرخ فراخواني روش پيشنهادي را با ساير روشها مورد مقايسه قرار ميدهد. شکل 12 نرخ فراخوانی روش پیشنهادی را با سایر روشها مقایسه میکند. همانطور که مشاهده میشود، روش پیشنهادی علاوه بر دقت بالا، نرخ فراخوانی قابل قبولی نیز دارد. این بدان معناست که روش پیشنهادی نه تنها حملات را به درستی تشخیص میدهد، بلکه تعداد کمی از حملات را نیز از دست نمیدهد. این تعادل بین دقت و فراخوانی، برای سیستمهای تشخیص نفوذ بسیار مهم است. بهبود نرخ فراخوانی در روش پیشنهادی را میتوان به استفاده از تکنیکهای کاهش ابعاد و انتخاب ویژگیهای مرتبط نسبت داد. این تکنیکها باعث شدهاند که مدل پیشنهادی حساسیت بیشتری نسبت به نمونههای مثبت (یعنی حملات) داشته باشد.
شکل 13: مقايسه نرخ فراخواني روش پيشنهادي با سايرپژوهشها
شکل 13 مقایسهای بین نرخ فراخوانی روش پیشنهادی و سایر روشهای موجود ارائه میدهد. همانطور که مشاهده میشود، روش پیشنهادی با دستیابی به نرخ فراخوانی 99.42 درصد، عملکرد به مراتب بهتری نسبت به سایر روشها از خود نشان میدهد. این بهبود قابل توجه را میتوان به انتخاب دقیق ویژگیها توسط الگوریتم شاهین هريس نسبت داد. این الگوریتم با حذف ویژگیهای زائد و حفظ ویژگیهای مرتبط با حملات، توانایی مدل در تشخیص همه نمونههای مثبت را افزایش داده است.
همانطور که در شکلهاي بالا مشخص است روش پيشنهادي مبتني بر ويژگيهاي بدست آمده با استفاده از الگوريتم شاهين هريس، دقت بالاتري نسبت به روشهاي قبلي داشته است. دليل آن را ميتوان در اين مورد دانست که در روش پيشنهادي با توجه به اينکه ويژگيهاي زايد را حذف کرده است باعث بهبود کارايي شده است.
5- نتیجهگیری
در این پژوهش، پس از مطالعه و بررسی سیستمهای تشخیص نفوذ و تکنیکهای پیادهسازی آنها، روشی جدید با استفاده از تکنیکهای دادهکاوی ارائه شد. برای ارزیابی روش پیشنهادی از مجموعه داده NSL-KDD که شامل 41 ویژگی و 125,972 نمونه است، استفاده گردید. الگوریتم شاهین هریس بهبود یافته برای کاهش ابعاد داده به 7 ویژگی به کار گرفته شد. سپس با استفاده از الگوریتم K-NN و بررسی مقادیر مختلف k، نتایج نشان داد که برای حمله R2L مقدار k=1، برای حملات Dos و Probe مقدار k=2، و برای حمله U2R مقدار k=3 بهترین عملکرد را از نظر دقت کلی ارائه میدهند. مقایسه سیستم پیشنهادی با روشهای قبلی نشاندهنده عملکرد مطلوب و کارایی مناسب آن در تشخیص نفوذ بود.
با این حال، پژوهش حاضر محدودیتهایی دارد که نیازمند توجه هستند. استفاده از مجموعه داده NSL-KDD ممکن است تعمیمپذیری نتایج را به سایر مجموعه دادههای پیچیدهتر محدود کند. همچنین، با وجود بهینهسازی الگوریتم شاهین هریس، ممکن است کارایی زمان اجرا در مواجهه با مجموعه دادههای بسیار بزرگ کاهش یابد. تمرکز اصلی پژوهش روی حملات خاصی همچون Dos و R2L بوده و لازم است در آینده به پوشش جامعتر انواع حملات پرداخته شود.
برای تحقیقات آینده، پیشنهادهای زیر ارائه میشود: ارزیابی روش پیشنهادی روی مجموعه دادههای بزرگتر و متنوعتر، مقایسه و بهبود عملکرد الگوریتم شاهین هریس با سایر الگوریتمهای فراابتکاری پیشرفته، استفاده از الگوریتمهای یادگیری عمیق در کنار روشهای فعلی به منظور افزایش دقت و کارایی، افزودن قابلیتهای شناسایی حملات ناشناخته برای ارتقای امنیت سیستمهای اینترنت اشیا، روش پیشنهادی با ارائه نتایجی دقیق و قابلقبول، نشاندهنده پتانسیل بالای آن برای بهکارگیری در سیستمهای تشخیص نفوذ است. با رفع محدودیتهای موجود و توسعه راهکارهای پیشنهادی، این سیستم میتواند به یک ابزار کارآمدتر در مقابله با تهدیدات امنیتی تبدیل شود.
منابع
[1] Fraihat, S.; Makhadmeh, S.; Awad, M.; Al-Betar, M.A.; Al-Redhaei, A. Intrusion detection system for large-scale IoT NetFlow networks using machine learning with modified Arithmetic Optimization Algorithm. Internet Things 2023, 22, 100819.
[2] The Growth in Connected IoT Devices Is Expected to Generate 79.4zb of Data in 2025, according to a New IDC Forecast. 2019. Available online: https://www.businesswire.com/news/home/20190618005012/en/The-Growth-in-Connected-IoT-Devices-is-Expected-to-Generate-79.4ZB-of-Data-in-2025-According-to-a-New-IDC-Forecast (accessed on 1 January 2020).
[3] Pinto, A. Ot/iot Security Report: Rising Iot Botnets and Shifting Ransomware Escalate Enterprise Risk. 2020. Available online: https://www.nozominetworks.com/blog/whatit-needs-to-know-about-ot-io-securitythreats-in-2020/ (accessed on 1 January 2020).
[4] Santhosh Kumar, S.V.N.; Selvi, M.; Kannan, A. A comprehensive survey on machine learning-based intrusion detection systems for secure communication in internet of things. Comput. Intell. Neurosci. 2023, 2023, 8981988.
[5] Kponyo, J.J.; Agyemang, J.O.; Klogo, G.S.; Boateng, J.O. Lightweight and host-based denial of service (DoS) detection and defense mechanism for resource-constrained IoT devices. Internet Things 2020, 12, 100319.
[6] Awajan, A. A novel deep learning-based intrusion detection system for IOT networks. Computers 2023, 12, 34.
[7] Si-Ahmed, A.; Al-Garadi, M.A.; Boustia, N. Survey of Machine Learning based intrusion detection methods for Internet of Medical Things. Appl. Soft Comput. 2023, 140, 110227.
[8] Elaziz, M.A.; Al-qaness, M.A.A.; Dahou, A.; Ibrahim, R.A.; El-Latif, A.A.A. Intrusion detection approach for cloud and IoT environments using deep learning and Capuchin Search Algorithm. Adv. Eng. Softw. 2023, 176, 103402.
[9] Halim, Z.; Yousaf, M.N.; Waqas, M.; Sulaiman, M.; Abbas, G.; Hussain, M.; Ahmad, I.; Hanif, M. An effective genetic algorithm-based feature selection method for intrusion detection systems. Comput. Secur. 2021, 110, 102448.
[10] Dubey, G.P.; Bhujade, R.K. Optimal feature selection for machine learning based intrusion detection system by exploiting attribute dependence. Mater. Today Proc. 2021, 47, 6325–6331.
[11] Li, X.; Ren, J. MICQ-IPSO: An effective two-stage hybrid feature selection algorithm for high-dimensional data. Neurocomputing 2022, 501, 328–342.
[12] Unler, A.; Murat, A. A discrete particle swarm optimization method for feature selection in binary classification problems. Eur. J. Oper. Res. 2010, 206, 528–539.
[13] Mafarja, M.; Mirjalili, S. Whale optimization approaches for wrapper feature selection. Appl. Soft Comput. 2018, 62, 441–453.
[14] Zhou, Y.Y.; Cheng, G.; Jiang, S.Q.; Dai, M. Building an efficient intrusion detection system based on feature selection and ensemble classifier. Comput. Netw. 2020, 174, 107247.
[15] Hassan, I.H.; Abdullahi, M.; Aliyu, M.M.; Yusuf, S.A.; Abdulrahim, A. An improved binary manta ray foraging optimization algorithm based feature selection and random forest classifier for network intrusion detection. Intell. Syst. Appl. 2022, 16, 200114.
[16] M. A. Bouke, A. Abdullah, S. H. ALshatebi, M. T. Abdullah and H. El Atigh, "An intelligent DDoS attack detection tree-based model using Gini index feature selection method," Microprocessors and Microsystems, vol. 98, p. 104823, 2023.
[17] A. Mustapha, R. Khatun, S. Zeadally, F. Chbib, A. Fadlallah, W. Fahs and A. El Attar, "Detecting DDoS attacks using adversarial neural network," Computers \& Security, vol. 127, p. 103117, 2023.
[18] S. A. Khanday, H. Fatima and N. Rakesh, "Implementation of intrusion detection model for DDoS attacks in Lightweight IoT Networks," Expert Systems with Applications, vol. 215, p. 119330, 2023.
[19] S. J. Rani, I. Ioannou, P. Nagaradjane, C. Christophorou, V. Vassiliou, S. Charan, S. Prakash, N. Parekh and A. Pitsillides, "Detection of DDoS attacks in D2D communications using machine learning approach," Computer Communications, vol. 198, pp. 32--51, 2023.
[20] M. Kamrul Hassan, A.K.M. Ahasan Habib, S, Islam, N. Safie, S. Norul Huda, S. Abdullah, B. Pandey, "DDoS: Distributed denial of service attack in communication standard vulnerabilities in smart grid applications and cyber security with recent developments," Energy Reports, vol. 9, pp. 1318--1326, 2023.
[21] U. Shahid, M. Zunnurain Hussain, M. Zulkifl Hasan, A. Haider, J. Ali and J. Altaf, "Hybrid Intrusion Detection System for RPL IoT Networks Using Machine Learning and Deep Learning," IEEE Access, vol. 12, pp. 113099-113112, 2024.
[22] E. Omar, S. Eman, M. Mohamed and E. Karim, "EIDM: deep learning model for IoT intrusion detection systems," Journal of Supercomputing, vol. 79, p. 13241–13261, 2023. R. R. Amuthan Prabakar Muniyandia, R. Rajaram, "Network Anomaly Detection by Cascading K-Means Clustering and C4.5 Decision Tree algorithm," in international Conference on Communication Technology and System INDIA 2012, pp. 174–182.
[23] Yue, W., Yiming, J., & Julong, L. (2021). A fast deep learning method for network intrusion detection without manual feature extraction. In Journal of Physics: Conference Series (Vol. 1738, No. 1, p. 012127). IOP Publishing.
[24] Nguyen, M. T., & Kim, K. (2020). Genetic convolutional neural network for intrusion detection systems. Future Generation Computer Systems, 113, 418-427.
[25] Majid, Saima, Fayadh Alenezi, Sarfaraz Masood, Musheer Ahmad, Emine Selda Gündüz, and Kemal Polat. "Attention based CNN model for fire detection and localization in real-world images." Expert Systems with Applications 189 (2022): 116114.
[26] Lazzarini, R.; Tianfield, H.; Charissis, V. A stacking ensemble of deep learning models for IoT intrusion detection. Knowl.-Based Syst. 2023, 279, 110941.
[27] Alani, M.M. An explainable efficient flow-based Industrial IoT intrusion detection system. Comput. Electr. Eng. 2023, 108, 108732.
[28] Nizamudeen, S.M.T. Intelligent Intrusion Detection Framework for Multi-Clouds–Iot Environment Using Swarm-Based Deep Learning Classifier. J. Cloud Comput. 2023, 12, 134.
[29] Sharma, B.; Sharma, L.; Lal, C.; Roy, S. Anomaly based network intrusion detection for IoT attacks using deep learning technique. Comput. Electr. Eng. 2023, 107, 108626.
[30] Kareem, S.S.; Mostafa, R.R.; Hashim, F.A.; El-Bakry, H.M. An effective feature selection model using hybrid metaheuristic algorithms for iot intrusion detection. Sensors 2022, 22, 1396.
[31] Mohy-eddine, M.; Guezzaz, A.; Benkirane, S.; Azrour, M. An efficient network intrusion detection model for IoT security using K-NN classifier and feature selection. Multimed. Tools Appl. 2023, 82, 23615–23633.
[32] Liu, X.; Du, Y. Towards Effective Feature Selection for IoT Botnet Attack Detection Using a Genetic Algorithm. Electronics 2023, 12, 1260.
[1] Chaotic Algorithm
[2] nomina
[3] train
[4] test
مقالات مرتبط
-
استفاده از روش بهینهسازی ازدحام گربهها به منظور مکانیابی گره در شبکه حسگر بیسیم
تاریخ چاپ : 1397/12/01 -
کنترل مد لغزشی ترمینال جهت کنترل خطای موقعیت عرضی خودرو با رویکرد کاهش چترینگ
تاریخ چاپ : 1397/12/01 -
سیستم امنیتی فازی دو اولویتی برای تمایز بین حمله منع سرویس و ازدحام در شبکه حسگر بدن
تاریخ چاپ : 1397/12/01
حقوق این وبسایت متعلق به سامانه مدیریت نشریات دانشگاه آزاد اسلامی است.
حق نشر © 1404-1400