Improved hybrid algorithm for detection of intrusion into computer networks
Subject Areas : New technologies in distributed systems and algorithmic computingSafanaz Heidari 1 , Firozeh Razavi 2 *
1 - 2Department od Computer, Miandoab Branch, Islamic Azad University, miandoab, Iran,
2 - Department of Information Technology Management, Raja University, Qazvin, Iran
Keywords: Intrusion detection system, Attack detection, Strong gradient boosting, Clustering techniques, Machine learning,
Abstract :
Identifying malicious networks has been a subject of study for decades, and since the volume of network traffic is increasing day by day, there is a need for a successful intrusion-detection system that can make the identification process easier during attacks. The aim behind this research was to take decisions more accurately via real time and faster processing. The purpose of this research was to detect intrusion into computer networks by combining K-means and XG-boost clustering algorithms. The proposed method was performed in two stages. In the first stage, the pre-processing was done by normalizing and digitizing the data set, as well as removing outliers based on two PCA methods and reducing the dimensions of the feature, then using the learner. The researchers used the k-means algorithm to find the optimal number of clusters, finally the Elbow method was utilized to find the optimum number of clusters. The second stage consisted of classifying malicious and normal network traffic from each other by combining K-means and XG-Boost algorithms on computing platforms. The experiments in this article were done using the NSLKDD data set and its implementation in the knime emulator platform; the final evaluation results revealed the superiority of the error detection rate, and the accuracy and correctness of the proposed algorithm compared over other similar methods.
[1] Khan, S., E. Sivaraman, and P.B. Honnavalli. Performance evaluation of advanced machine learning algorithms for network intrusion detection system. in Proceedings of International Conference on IoT Inclusive Life (ICIIL 2019), NITTTR Chandigarh, India. 2020. Springer. DOI: 10.1007/978-981-15-3020-3_6
[2] Zhao, X., Application of data mining technology in software intrusion detection and information processing. Wireless Communications and Mobile Computing, 2022. 2022 DOI:10.1155/2022/3829160.
[3] Zhu, Y., et al., Application of data mining technology in detecting network intrusion and security maintenance. Journal of Intelligent Systems, 2021. 30(1): p. 664-676. DOI:10.1155/2022/3829160
[4] Shahjee, D. and N. Ware, Integrated network and security operation center: A systematic analysis. IEEE Access, 2022. 10: p. 27881-27898.DOI: 10.1109/ACCESS.2022.3157738
[5] Yang, L. and A. Shami, IoT data analytics in dynamic environments: From an automated machine learning perspective. Engineering Applications of Artificial Intelligence, 2022. 116: p. 105366. https://doi.org/10.1016/j.engappai.2022.105366
[6] Khalil, R.A., et al., Deep learning in the industrial internet of things: Potentials, challenges, and emerging applications. IEEE Internet of Things Journal, 2021. 8(14): p. 11016-11040. DOI: 10.1109/JIOT.2021.3051414
[7] Yang, L. and A. Shami. A transfer learning and optimized CNN based intrusion detection system for Internet of Vehicles. in ICC 2022-IEEE International Conference on Communications. 2022. IEEE. DOI: https://doi.org/10.1109/ICC45855.2022.9838780
[8] Sangkatsanee, P., N. Wattanapongsakorn, and C. Charnsripinyo, Practical real-time intrusion detection using machine learning approaches. Computer Communications, 2011. 34(18): p. 2227-2235. DOI: 10.1016/j.comcom.2011.07.001
[9] Axelsson, S., The base-rate fallacy and the difficulty of intrusion detection. ACM Transactions on Information and System Security (TISSEC), 2000. 3(3): p. 186-205 DOI: 10.1145/319709.319710
[10] de Sá, A.G., A.C. Pereira, and G.L. Pappa, A customized classification algorithm for credit card fraud detection. Engineering Applications of Artificial Intelligence, 2018. 72: p. 21-29. https://doi.org/10.1016/j.engappai.2018.03.011
[11] Lee, W., S.J. Stolfo, and K.W. Mok. A data mining framework for building intrusion detection models. in Proceedings of the 1999 IEEE Symposium on Security and Privacy (Cat. No. 99CB36344). 1999. IEEE.DOI: 10.1109/SECPRI.1999.766909
[12]. J. Kazemitabar, R. Taheri, Gh. Kheradmandian. A Novel Technique for Improvement of Intrusion Detection via Combining Random Forrest and Genetic Algorithm,1398.3:p.287-296[in persian]
[13]. Namjouye Rad, A.A. and M. Dadgarpour, Detection of network penetration by data mining and using machine learning via SVM algorithm. Karafan Quarterly Scientific Journal, 2021. 17(4): p. 13-34.DOI: ,
[14]. Mohsen Rezaei1 (M.S.) - Nazanin Zahra Jafari1 (M.S.) - Hossein Ghaffarian2 Comparison of Data Mining Algorithms' Efficiency in Thyroid Disease Diagnosisp.., 2019, p.345-358. [in persian]
[15]. Sharifi, S. and Gheisari, S., design of anomaly-based detection system using support vector machine and grasshopper optimization algorithm in IOT. JOURNAL OF SOUTHERN COMMUNICATION ENGINEERING ISLAMIC AZAD UNIVERSITY BUSHEHR BRANCH. 2023.p.42-58[in persian]
[16]. Thaseen, I.S. and C.A. Kumar, Intrusion detection model using fusion of chi-square feature selection and multi class SVM. Journal of King Saud University-Computer and Information Sciences, 2017. 29(4): p. 462-472. https://doi.org/10.1016/j.jksuci.2015.12.004
[17]. Lin, W.-C., S.-W. Ke, and C.-F. Tsai, CANN: An intrusion detection system based on combining cluster centers and nearest neighbors. Knowledge-based systems, 2015. 78: p. 13-21. https://doi.org/10.1016/j.knosys.2015.01.009
[18]. Ponmalar, A. and V. Dhanakoti, An intrusion detection approach using ensemble support vector machine based chaos game optimization algorithm in big data platform. Applied Soft Computing, 2022. 116: p. 108295 https://doi.org/10.1016/j.asoc.2021.108295.
[19]. Pattawaro, A. and C. Polprasert. Anomaly-based network intrusion detection system through feature selection and hybrid machine learning technique. in 2018 16th International Conference on ICT and Knowledge Engineering (ICT&KE). 2018. IEEE. DOI: 10.1016/j.jocs.2017.04.009
[20]. Lv, H., X. Ji, and Y. Ding. A Mixed Intrusion Detection System utilizing K-means and Extreme Gradient Boosting. in Journal of Physics: Conference Series. 2023. IOP Publishing. DOI 10.1088/1742-6596/2517/1/012016
[21]. Lv, H., X. Ji, and Y. Ding. A Mixed Intrusion Detection System utilizing K-means and Extreme GradientBoosting. in Journal of Physics: Conference Series. 2023. IOP Publishing. DOI 10.1088/1742-6596/2517/1/012016
Journal of New Technologies in Distributed Systems and Algorithmic Computing
Islamic Azad University of Sabzevar
E-ISSN: 3115-705X
https://sanad.iau.ir/journal/ntds
Reaserch Article |
Improved Hybrid Algorithm for Detection of Intrusion into Computer Networks
Firuzeh Razavi1* | Safanaz Heydari2
1Department of Information Technology Management-Electronic Business, Faculty of Humanties, Raja University, Qazvin, Iran, F.razavi@raja.ac.ir
2Department of Management, Miandoab Branch, Islamic Azad University, Miandoab, Iran, Safanazheidari@gmail.com
Corresponding Author *Firuzeh Razavi, Assistant Professor, Department of Management, Miandoab Branch, Islamic Azad University, Miandoab, Iran,
|
Abstract
Main Subjects: Identifying Malicious Networks Received: 20 June 2024 Revised: 12 May 2025 Accepted: 16 May 2025
|
Keywords: Intrusion Detection System, Machine Learning, K-means Clustering، XGBoost Classifier, Cybersecurity.
پژوهشی |
الگوریتم بهبودیافته ترکیبی برای تشخیص نفوذ به شبکههای کامپیوتری
فیروزه رضوی*1| صفاناز حیدری2
1گروه مدیریت فناوری اطلاعات-کسب و کار الکترونیک، دانشکده علوم انسانی، دانشگاه رجاء، قزوین، ایران F.razavi@raja.ac.ir
2استادیار گروه مدیریت، واحد میاندوآب، دانشگاه آزاد اسلامی، میاندوآب، ایران Safanazheidari@gmail.com
نویسنده مسئول *فیروزه رضوی، استادیار گروه مدیریت فناوری اطلاعات، دانشگاه رجاء، قزوین، ایران F.razavi@raja.ac.ir
|
موضوع اصلی: تشخیص نفوذ به شبکههای کامپیوتری تاریخ دریافت: 31 خرداد 1403 تاریخ بازنگری: 22 اردیبهشت 1404 تاریخ پذیرش: 26 اردیبهشت 1404
|
کلیدواژهها: سیستم تشخیص نفوذ، یادگیری ماشین، خوشهبندی K-means ، طبقهبندی XGBoost ، حملات سایبری
1- مقدمه
تکنولوژی در چند دهه اخیر به طور تصاعدی تکاملیافته است. فناوری علاوه بر داشتن مزیت، تهدیدهای امنیتی نیز به همراه دارد. محافظت از شبکههای مدرن و اینترنت بهمنظور جلوگیری از نفوذ هکرها و حملات سایبری صورت میپذیرد. برای محافظت از شبکههای مدرن روشهای مختلف امنیت سایبری و سیستمهای حفاظتی مانند دیوارههای آتش 1 تکنیکهای احراز هویت، روشهای رمزنگاری و سیستمهای تشخیص نفوذ 2 بهمنظور پایش ترافیک شبکهها معرفی شدند[1]. موضوع تشخیص نفوذ امری مهم در شبکه بهحساب میآید اگرچه پیشرفتهای قابلتوجهی در این زمینه حاصل شده است؛ اما هنوز فرصتهای زیادی برای بهبود روشهای شناسایی و جلوگیری از حملات مبتنی بر شبکه وجود دارد.
شناسایی نفوذهای شبکههای مخرب برای دههها موضوع مطالعه بوده است. با اینحال، همانطور که دانشمندان داده میتوانند درک کنند، هنگامی که مقیاس یک مشکل بهترتیب بزرگی افزایش پیدا میکند، رویکردهای موجود اغلب دیگر موثر نیستند. مشکل به قدری متفاوت است که نیاز به راه حل جدیدی دارد و از آنجایی که حجم ترافیک شبکه روز به روز درحال افزایش است، حوزه تشخیص نفوذ مجبور به اختراع مجدد خود پیرامون تکنیکهای کلان داده شده است. یک سیستم تشخیص نفوذ شبکهها یا سایر سیستمها را برای رفتارهای مخرب یا غیرعادی نظارت میکند. با تکمیل فنآوریهای پیشگیرانه مانند دیوارهای آتش، احرازهویت قوی3 و حقامتیاز4 [8] سیستمهای تشخیص نفوذ به بخشی ضروری از مدیریت امنیت فناوری اطلاعات سازمانی تبدیل شدهاند[9]. این سیستمها بهطور معمول به دو دسته تحت عنوان سیستمهای مبتنی بر سوءاستفاده یا مبتنی بر ناهنجاری طبقهبندی میشوند[10]. تکنیکهای دادهکاوی به طور فزایندهای برای شناسایی حملات، ناهنجاریها یا نفوذها در یک محیط شبکه محافظت شده استفاده میشوند[11].
یک سیستم تشخیص نفوذ موفق ممکن است دادههای با ابعاد بالا را برای تصمیمگیری در زمان واقعی و سریع پردازش کند و نرخ هشدار نادرست را پایین و نرخ تشخیص را بالا نگه دارد ایجاد یک سیستم تشخیص نفوذ قابلاعتماد و مؤثر به دلیل نامتعادل بودن مجموعهدادهها، دادههای ابعادی بالا و ماهیت در حال تحول حملات سایبری، به یک کار چالشبرانگیز تبدیل میشود. یک سیستم تشخیص نفوذ شبکهها یا سایر سیستمها را برای رفتارهای مخرب یا غیرعادی نظارت میکند. با تکمیل فناوریهای پیشگیرانه مانند دیوارهای آتش، احراز هویت قوی و حق امتیاز، سیستمهای تشخیص نفوذ به بخشی ضروری از مدیریت امنیت فناوری اطلاعات سازمانی تبدیل شدهاند.
گرچه دادهکاوی و یادگیری ماشین بهصورت گسترده در مطالعات پیشین به کار رفتهاند، اما بیشتر پژوهشها بر مدلهای مبتنی بر سوءاستفاده یا تشخیص ناهنجاری متمرکز بودهاند و پژوهشهایی که به موضوع تشخیص نفوذ در زمان واقعی و آنلاین بپردازند، نسبتاً محدود هستند.
نوآوری اصلی این پژوهش در طراحی یک سیستم تشخیص نفوذ ترکیبی مبتنی بر الگوریتمهای K-means و XGBoost نهفته است که با بهرهمندی از تکنیکهای پیشپردازش پیشرفته و بهینهسازی دقیق، عملکردی برتر نسبت به روشهای موجود ارائه میدهد. در این رویکرد، ابتدا از الگوریتم K-means برای خوشهبندی دادههای شبکهای به گروههای همگن استفاده میشود که این فرایند با سازماندهی دادهها و کاهش پیچیدگی ساختاری آنها، بستری مناسب برای طبقهبندی دقیقتر فراهم میآورد. بهمنظور ارتقای کارایی، تحلیل مؤلفههای اصلی (PCA) بهعنوان یک تکنیک پیشپردازش به کار گرفته شده است تا با کاهش ابعاد دادهها و حذف نویز، کیفیت ورودیها برای مرحله طبقهبندی بهبود یابد. در گام بعدی، الگوریتم تقویت گرادیان شدید (XGBoost) برای طبقهبندی نهایی مورداستفاده قرار میگیرد. این الگوریتم، با توانایی برجسته در مدلسازی روابط غیرخطی، مدیریت دادههای نامتوازن، و کنترل بیش برازش از طریق منظمسازی پیشرفته، دقت و نرخ تشخیص حملات را به طور قابلتوجهی ارتقا میدهد. تنظیم دقیق فراپارامترهای XGBoost نظیر نرخ یادگیری، عمق درختان، و تعداد تکرارها با استفاده از روشهای بهینهسازی، یکی از جنبههای کلیدی این پژوهش است که به بهبود عملکرد مدل کمک شایانی کرده است. دادهها برای طبقهبند و تنظیم دقیق فراپارامترهای مدل ترکیبی بهمنظور ارتقای عملکرد نهایی سیستم تشخیص نفوذ است.
در ادامه در بخش دوم پیشینه تحقیق بیان شده و در بخش سوم ارائه راهکار پیشنهادی به طور کامل توضیح داده شده و در بخش چهارم نحوه پیادهسازی و ارزیابی مدل پیشنهادی ارائه شده است. در نهایت در بخش پنجم، جمعبندی تحقیق بیان شده است.
2- پیشینه تحقیق
افزایش حجم ترافیک شبکه و پیچیدگی حملات سایبری، توسعه سیستمهای تشخیص نفوذ IDS بادقت بالا، نرخ هشدار کاذب پایین و قابلیت پردازش بلادرنگ را به یک ضرورت تبدیل کرده است. در سالهای اخیر، پژوهشهای متعددی با استفاده از تکنیکهای دادهکاوی و یادگیری ماشین برای بهبود عملکرد سیستمهای تشخیص نفوذ انجام شده است. این مطالعات بر روشهای نظارت شده، غیرنظارتشده و ترکیبی متمرکز بودهاند، اما همچنان چالشهایی مانند مدیریت دادههای حجیم، کاهش نرخ هشدار کاذب و تعمیمپذیری به محیطهای واقعی باقیمانده است. در این بخش، مطالعات مرتبط با روشهای تشخیص نفوذ مبتنی بر یادگیری ماشین، بهویژه روشهای ترکیبی که از خوشهبندی و طبقهبندی استفاده میکنند، بررسی میشوند تا زمینهای برای روش پیشنهادی این پژوهش فراهم شود.
لی و همکاران [12] فرآیندکاوی را برای طراحی سیستمهای تشخیص نفوذ مبتنی بر میزبان بررسی کردند. آنها سیستمی پیشنهاد کردند که مراحل پیشپردازش، تشخیص ناهنجاری و شناسایی سوءاستفاده را بهصورت موازی انجام میداد و نتایج را ترکیب میکرد. این روش کارایی سیستمهای دادهمحور را بهبود بخشید، اما در افزایش دقت و کاهش نرخ هشدار کاذب با محدودیتهایی مواجه بود. این مطالعه بر اهمیت پیشپردازش دادهها و ترکیب روشهای مختلف برای بهبود عملکرد IDS تأکید دارد، که الهامبخش روش پیشنهادی این پژوهش در استفاده از پیشپردازش پیشرفته است.
ژانگ و همکاران [13] یک سیستم تشخیص نفوذ مبتنی بر انتخاب ویژگی و مدیریت هشدار توسعه دادند که با استفاده از نرمافزار Weka و الگوریتمهای مختلف طبقهبندی، سرعت و دقت بالاتری نسبت به روشهای مبتنی بر خوشهبندی نشان داد. این پژوهش با پیشنهاد پنج نمونه داده بهینه و استفاده از چندین الگوریتم طبقهبندی، به بهبود عملکرد IDS کمک کرد. با این حال، تمرکز این روش بر مدیریت هشدار بود و کمتر به ترکیب الگوریتمهای پیشرفته مانند روشهای تقویتی پرداخت. این خلأ یکی از انگیزههای اصلی پژوهش حاضر برای ترکیب خوشهبندی و طبقهبندی تقویتی است.
یین و همکاران [14] یک رویکرد یادگیری عمیق مبتنی بر شبکههای عصبی بازگشتی و رمزگذار خودکار طولانی-کوتاهمدت (LSTM) پیشنهاد کردند که به مدل AE-LSTM معروف است. این مدل با استفاده از مجموعه داده NSL-KDD به دقت 89درصد، نرخ تشخیص 88 درصد و نرخ هشدار کاذب 11درصد دستیافت. اگرچه این روش در استخراج ویژگیهای پیچیده موفق بود، اما پیچیدگی محاسباتی بالا و نرخ هشدار کاذب نسبتاً زیاد، کاربرد آن را در سناریوهای بلادرنگ محدود کرد. این مطالعه نشاندهنده پتانسیل یادگیری عمیق در IDS است، اما نیاز به روشهای سبکتر و دقیقتر را برجسته میکند که در روش پیشنهادی این پژوهش موردتوجه قرار گرفته است.
ژانگ و همکاران [15] یک سیستم تشخیص نفوذ ترکیبی مبتنی بر خوشهبندی K-means و طبقهبندی جنگل تصادفی (Random Forest) پیشنهاد کردند که به مدل K-Means-RF معروف است. این روش با استفاده از K-means برای ساختاردهی دادهها و جنگل تصادفی برای طبقهبندی، به دقت 92.89درصد، نرخ تشخیص 98.57درصد و نرخ هشدار کاذب 14.6درصد دست یافت. این مطالعه نشان داد که خوشهبندی میتواند پیچیدگی دادهها را کاهش دهد و عملکرد طبقهبندی را بهبود بخشد. با این حال، نرخ هشدار کاذب بالا نشاندهنده نیاز به طبقهبندهای قویتر است. روش پیشنهادی این پژوهش از K-means الهام گرفته، اما بهجای جنگل تصادفی از XGBoost استفاده میکند تا دقت و نرخ تشخیص را بهبود بخشد.
یین و همکاران [16] مدل RNN-IDS را بر پایه شبکههای عصبی بازگشتی توسعه دادند که با تمرکز بر استخراج ویژگیهای زمانی از ترافیک شبکه، بهدقت 82.49 درصد، نرخ تشخیص 80درصد و نرخ هشدار کاذب 12درصد دستیافت. این روش در مقایسه با سایر مدلها عملکرد ضعیفتری داشت، بهویژه در مدیریت دادههای پیچیده و نامتوازن. این مطالعه بر اهمیت استفاده از روشهای ترکیبی برای غلبه بر محدودیتهای مدلهای مبتنی بر یادگیری عمیق تأکید دارد که در طراحی روش پیشنهادی این پژوهش موردتوجه قرار گرفته است.
لین و همکاران [17] یک سیستم تشخیص نفوذ مبتنی بر یادگیری خودآموز با استفاده از رمزگذار خودکار پراکنده پیشنهاد کردند که به مدل DST-TL معروف است. این روش با دقت 84.60درصد، نرخ تشخیص 86درصد و نرخ هشدار کاذب 14درصد عملکرد متوسطی ارائه داد. این مطالعه نشان داد که روشهای خودآموز میتوانند مکمل روشهای نظارتشده باشند، اما برای دستیابی به دقت بالا نیاز به ترکیب با الگوریتمهای قویتر دارند. روش پیشنهادی این پژوهش با ترکیب K-means و XGBoost این محدودیت را برطرف میکند.
لی و همکاران [18] یک مدل ترکیبی مبتنی بر K-means و XGBoost برای تشخیص نفوذ پیشنهاد کردند. این روش با استفاده از خوشهبندی K-means برای کاهش پیچیدگی دادهها و طبقهبندی XGBoost برای شناسایی حملات، به دقت 99.85درصد، نرخ تشخیص 99.84درصد و نرخ هشدار کاذب 14.56درصد دست یافت. این مطالعه یکی از نزدیکترین رویکردها به روش پیشنهادی این پژوهش است، اما فاقد بهینهسازی پیشرفته فراپارامترها و پیشپردازش دادهها بود که در این پژوهش مورد توجه قرار گرفته است. روش پیشنهادی ما با تنظیم دقیق فراپارامترها و استفاده از تحلیل مؤلفههای اصلی (PCA) عملکرد بهتری ارائه میدهد.
چن و همکاران[19] الگوریتم XGBoost را معرفی کردند که به دلیل توانایی در مدیریت دادههای نامتوازن، مدلسازی روابط غیرخطی و کنترل بیش برازش (overfitting) از طریق منظمسازی، به طور گسترده در مسائل طبقهبندی، از جمله تشخیص نفوذ، استفاده شده است. مطالعات متعددی کاربرد XGBoost را در IDS بررسی کردهاند، اما استفاده مستقل آن معمولاً دقت کمتری نسبت به روشهای ترکیبی ارائه میدهد. این پژوهش از XGBoost بهعنوان طبقهبند اصلی پس از خوشهبندی k-means استفاده میکند تا دقت و نرخ تشخیص را به طور قابلتوجهی بهبود بخشد.
بررسی مطالعات پیشین نشان میدهد که روشهای ترکیبی مبتنی بر خوشهبندی مانند K-means و طبقهبندی مانند جنگل تصادفی یا XGBoost به دلیل توانایی در ساختاردهی دادهها و شناسایی دقیق الگوهای حملات، عملکرد بهتری نسبت به روشهای مستقل دارند. بااینحال اکثر پژوهشها بر استفاده ساده از این الگوریتمها متمرکز بودهاند و کمتر به بهینهسازی فراپارامترها، پیشپردازش پیشرفته مانند کاهش ابعاد با PCA و ترکیب هدفمند K-means و XGBoost پرداختهاند. این پژوهش باهدف رفع این خلأ، یک الگوریتم ترکیبی بهبودیافته مبتنی بر K-means و XGBoost ارائه میدهد که با استفاده از خوشهبندی برای آمادهسازی دادهها، کاهش ابعاد، و طبقهبندی قوی با XGBoost، دقت، نرخ تشخیص و کارایی سیستمهای تشخیص نفوذ را ارتقا میبخشد. مدلهای بررسیشده در این بخش AE-LSTM، K-Means-RF، RNN-IDS، DST-TL، و K-means–XGBoost بهعنوان معیارهای مقایسه با روش پیشنهادی در بخش نتایج استفاده خواهند شد.
3- روش پیشنهادی
فرایند کلی اجرای مدل پیشنهادی در شکل 1 نمایش داده شده است. همانطور که در این نمودار مشاهده میشود، ابتدا مجموعه داده NSL-KDD تحت مراحل مختلف پیشپردازش شامل حذف ویژگیهای بیاثر، کدگذاری One-Hot و نرمالسازی قرار میگیرد. پس از آمادهسازی دادهها، مجموعه داده به بخشهای آموزش و آزمون تقسیم شده و در ادامه مرحله کاهش ابعاد با استفاده از تحلیل مؤلفههای اصلی اعمال میگردد. این مرحله به کاهش ویژگیهای زائد و حفظ مؤلفههای اصلی مؤثر در دادهها کمک میکند. سپس دادهها به الگوریتم K-means وارد شده و بر اساس برچسبهای خوشهبندی، نمونهها به دو گروه Normal و Masers تقسیم میگردند. گروه اول بهمنظور مدلسازی ذخیره شده و گروه دوم به طبقهبند XGBoost وارد میشود تا فرآیند شناسایی حملات انجام پذیرد. این ساختار گامبهگام، بهینهسازی عملکرد مدل و افزایش دقت سیستم تشخیص نفوذ را به دنبال داشته است.
شکل 1: چارچوب سیستم تشخیص نفوذ مبتنی بر K-means – Xgboost
Figure 1: ramework of an intrusion detection system based on K-means and XGBoost
1-3 دادههای مورد استفاده
در این پژوهش از مجموعههای KDDTrain+ ،KDDTest+ و KDDTest-21 مجموعهدادههای NSL-KDD که در جدول 1 آمده، استفاده شده است. مجموعه +KDDTrain بهعنوان مجموعهداده برای آموزش شامل 125973 نمونه است که شامل 58630 مورد ترافیک حمله و 67343 نمونه ترافیک عادی است. مجموعه +KDDTest شامل 22544 نمونه است و برای تست از آن استفاده میشود بهعنوان زیرمجموعهای از مجموعه +KDDTest، مجموعه KDDTest-21 شامل کل 11850 نمونه است. اعتبارسنجی متقابل بر روی مجموعه +KDDTrain در آزمایشها انجام میشود.
جدول 1: ویژگیهای مجموعه داده NSL-KDD
Table 1: Features of the NSL-KDD Dataset
Num | Input Attribute | Num | Input Attribute | Num | Input Attribute |
1 | Duration | 16 | num_root | 31 | srv_diff_host_rate |
2 | Protocol_Type | 17 | num_file_creations | 32 | dst_host_count |
3 | Service | 18 | num_shells | 33 | dst_host_srv_count |
4 | Flag | 19 | num_access_files | 34 | dst_host_same_srv_rate |
5 | Src_Bytes | 20 | num_outbound_cmds | 35 | dst_host_diff_srv_rate |
6 | Dst_Bytes | 21 | is_host_login | 36 | dst_host_same_src_port_rate |
7 | Land | 22 | is_guest_login | 37 | dst_host_srv_diff_host_rate |
8 | wrong_fragment | 23 | Count | 38 | dst_host_serror_rate |
9 | Urgent | 24 | srv_count | 39 | dst_host_srv_serror_rate |
10 | Hot | 25 | serror_rate | 40 | dst_host_rerror_rate |
11 | num_failed_logins | 26 | srv_serror_rate | 41 | dst_host_srv_rerror_rate |
12 | logged_in | 27 | rerror_rate | - | - |
13 | num_compromise | 28 | srv_rerror_rate | - | - |
14 | root_shell | 29 | same_srv_rate | - | - |
15 | su_attempted | 30 | diff_srv_rate | - | - |
3-2 پیش پردازش داده
خوشهبندی بهعنوان یکی از روشهای یادگیری ماشین غیر نظارتی5 در حل مسائل دستهبندی و طبقهبندی مشاهدات، بسیار به کار میرود. این کار بهوسیله بررسی و محاسبه توابع فاصله بر اساس ویژگیهای مشاهدات، انجام شده و نقاط با کمترین میزان فاصله در یک گروه قرار میگیرند. مسئله مهمی که دراینرابطه به وجود میآید، نرمالسازی دادهها در خوشهبندی است؛ زیرا باید ویژگیها در محاسبه فاصله بدون مقیاس باشند تا بزرگی واحد اندازهگیری هر بُعد باعث اریبی مقدار تابع فاصله به سمت یک ویژگی نشود.[20] شیوههای مختلفی برای نرمالسازی وجود دارند که در مرحله آمادهسازی دادهها به کار میروند که در این تحقیق از روش نرمالسازی مقدار حداقل - حداکثر6 که معروفترین شیوه در نرمالسازی دادهها است[21] استفاده شده است. عملیات نرمالسازی قبل از بسیاری از الگوریتمهای دادهکاوی مانند شبکههای عصبی، ماشین بردار پشتیبان، KNN و K-means باید انجام بگیرد تا ابعادِ مختلف بهصورت عادلانه توسط الگوریتم بررسی شوند و تأثیر یکی بیشتر از بقیه نباشد.در مراحل پیشپردازش الگوریتم پیشنهادی فرایندهای زیر اجرا گردید.
1. حذف ستونهای اضافی: ستون "num_outbound_cmds" فقط حاوی یک مقدار منفرد یعنی صفر بود. بنابراین این ستون حذف شد زیرا هیچ مشارکتی نداشت.
2. Factorization و One Hot Encoding: ویژگیهایی مانند «نوع_پروتکل»، «سرویس» و «پرچم» ویژگیهای اسمی و نوع متن هستند؛ بنابراین آنها را فاکتورسازی کردیم تا آنها را به ویژگیهای عددی اسمی تبدیل کنیم و سپس One Hot Encoding را برای تبدیل بیشتر آنها به ویژگیهای باینری انجام گرفت.
3. مقیاسبندی ویژگیها: همه ویژگیها با تفریق میانگین و مقیاسبندی به واریانس واحد در مجموعه آموزشی مقیاس شدند. از همان میانگین و انحراف معیار دوباره برای مقیاس دادههای آزمون استفاده میشود.
4. یافتن تعداد خوشههای بهینه: با شروع از یک خوشه، به تعداد مناسبی از خوشهها، کارانجام شد تا ده خوشه ، مجموعه آموزشی با الگوریتم خوشهبندی K-means مطابقت دارد و در مجموع مربعها (WCSS) در مقابل تعداد خوشهها رسم میشود. سپس از روش Elbow برای یافتن تعداد بهینه خوشهها استفاده میشود[22].
5.کاهش ابعاد با استفاده از 7PCA : برای کاهش پیچیدگی محاسباتی و حذف ویژگیهای غیر مؤثر، از روش تحلیل مؤلفههای اصلی PCAاستفاده شد. این روش با تبدیل ویژگیها به مؤلفههای اصلی غیرهمبسته، باعث کاهش ابعاد و حفظ بیش از 95٪ واریانس دادهها گردید[23]. مرحله PCA پس از نرمالسازی دادهها و قبل از اجرای الگوریتم K-means انجام گرفت.
در ادامه، الگوریتم K-means تنها بهعنوان ابزاری برای تعیین تعداد خوشهها استفاده نشده، بلکه نقش اساسی در ساختاردهی دادهها و آمادهسازی آنها برای طبقهبند ایفا کرده است. در این پژوهش، K-means جهت گروهبندی دادههای پیش پردازششده NSL-KDD به خوشههایی با ساختار همگن بهکارگرفتهشده که این خوشهبندی موجب کاهش پراکندگی نمونهها و افزایش انسجام درون خوشهای شده است. در نتیجه، دادههای ورودی به الگوریتم طبقهبند XGBoost ساختاریافتهتر و معنادارتر گردیدهاند. این رویکرد مرحلهای، با تفکیک بهتر ساختار دادهها، منجر به بهبود چشمگیر در عملکرد طبقهبند شده است، بهگونهای که XGBoost توانسته بادقت بالاتری الگوهای مربوط به حملات سایبری را شناسایی کند؛ بنابراین، نقش الگوریتم K-means در این مدل، فراتر از صرف تعیین تعداد خوشهها بوده و بهعنوان یک گام حیاتی در بهبود اثربخشی فرایند طبقهبندی ایفای نقش نموده است.
3-3 الگوریتمهای استفاده شده (K-means - XGBoost)
برخی از رویههای مهم در روش k-means شامل انتخاب k نقطه بهعنوان مرکز خوشه، محاسبه جداسازی بین k مرکز خوشه و سایر نقاط نمونه به طور جداگانه، و در نهایت تخصیص هر نقطه به سمت نزدیکترین مرکز خوشه است. این رویهها تا زمانی که شرایط تعلیق از پیش تعیین شده برآورده شود ادامه مییابد و از فاصله اقلیدسی برای محاسبه تفکیک بین مرکز خوشه و نقطه نمونهبرداری استفاده میکند[24]. از فرمول 1 برای محاسبه فرمول تطبیق استفاده شد که y1 و y2 دونقطه را بر اساس n عنصر و نشان دهنده فاصله اقلیدسی بین
(
و
برای تقسیم داده های از پیشپردازش شده به داده توزیعشده انعطافپذیر8، استفاده میکنیم. K-means برای خوشهبندی هر RDD استفاده میشود[25] سپس تمام یافتههای نهایی جمعآوری میشوند. روش زیر استفاده از الگوریتم XGBoost برای طبقهبندی هر خوشه است.
3-3-2 الگوریتم افزایش گرادیان شدید9
XGBoost یکی از پیشرفتهترین روشهای Boosting است که برای مسائل دستهبندی بسیار مؤثر است، خصوصاً در مجموعهدادههایی با ویژگیهای زیاد و نامتوازن، مانند دادههای حملات سایبری. این الگوریتم با استفاده از تکنیک درخت تصمیم تقویتشده، خطای مدل را با هر تکرار کاهش میدهد و دارای قابلیت کنترل overfitting از طریق regularization است[26] و تکنیکی برای بهینهسازی تقویت درخت گرادیان با ساخت درختهای تصمیمگیری گامبهگام است و در بسیاری از کامپیوترها، این ظرفیت را دارد که محاسبات مربوطه را با سرعت بیشتری انجام دهد. الگوریتمی تقویتکننده بر اساس درخت CART است که برای حل مشکلات طبقهبندی، از این روش استفاده میشود. مقدار مربوط به گره برگ درخت CART یک امتیاز واقعی است، نه یک دسته مشخص که منجر به تحقق الگوریتم بهینهسازی کارآمد با فرض وجود K درخت CART، میشود پس در نتیجه طبقهبندی نهایی توسط همه آنها یکپارچه میشود. فرایند محاسبه در فرمول 1 نشاندادهشده است که نشاندهنده خروجی درخت k-ام است.
(1)
نمونههای عادی یا غیرعادی مجموعهدادهها از طریق XGBoost به دنبال خوشهبندی k-means در روشهای قبلی طبقهبندی میشوند. فرایند قضاوت طبقهبندی در روش XGBoost در فرمول 2 نشان داده شده است، که x و y مخفف یک رویداد طبقهبندی و دستهبندی مرتبط با آن هستند. نشاندهنده خروجی طبقهبندی شده است. تابع نمایندگی توسط
نشان داده میشود و H (X) نیز نتیجه طبقهبندی با استفاده از روش XGBoost را نمایش میدهد.
(2)
4- روش انجام پژوهش
این تحقیق با استفاده از نرمافزار شبیهساز knime که یکی از پلتفرمهای شبیهسازی قدرتمند در مباحث دادهکاوی است طراحی و پیادهسازی شده است. این نرمافزار به کاربران اجازه میدهد تا جریان دادهها را بهصورت بصری ایجاد کنند، برخی یا تمام مراحل تجزیهوتحلیل را بهصورت انتخابی اجرا کنند و نتایج و مدلها را با استفاده از ویجتها و نماهای تعاملی بررسی کنند. نایم به زبان جاوا و بر اساس اکلیپس نوشته شده است این ابزار قدرتمند تمامی روشهای دادهکاوی و الگوریتمهای یادگیری ماشین را در درون خود جایداده است و میتوان برای مباحث تشخیص نفوذ و دادهکاوی و تست و پیادهسازی انواع الگوریتمهای یادگیری ماشین از آن بهره برد. مراحل اجرا در شکلهای 2 تا 5 نمایشدادهشده است.
شکل 2: پیادهسازی بخشهایی از الگوریتم kmeans-Xgboost در محیط پلت فرم knime
Figure 2: Implementation of parts of the K-means + XGBoost algorithm within the KNIME platform
شکل 3: پیاده سازی الگوریتم XGboost در پلت فرم knime
Figure 3: Implementation of the XGBoost algorithm in the KNIME platform
شکل 4: محاسبه مقادیر missing value برای بدست آوردن مقدار آستانه
Figure 4: Calculation of missing-value ratios to determine a threshold.
شکل 5: تصاویر بخشهایی از الگوریتم پیشنهادی و پیادهسازی با روش PCA در محیط knime
Figure 5: Screenshots of parts of the proposed algorithm and its implementation using PCA in the KNIME environment
4-1- بهینهسازی فراپارامترهای مدل K-means-XGBoost
این بخش بهعنوان نوآوری تحقیق است که فراپارامترهای مدل پیشنهادی را برای دریافت بهترین نتایج تنظیم کردیم. همچنین پارامتر ویژگی_rate را برای انتخاب ویژگی بهینه کردیم، مانند تعداد خوشههای k که به طور مستقیم بهعنوان پارامتر ناهنجاری m مشخص میشود، نرخ یادگیری الگوریتم XGBoost ، را با eta بهعنوان ناهنجاری و es_train و es_test که با مجموعهدادههای آموزشی و مجموعهدادههای تست مطابقت دارد. جدول 2 فراپارامترهای جمعآوری شده از نتایج تجربی در مجموعه داده NSK-KDD را فهرست میکند.
جدول 2 : لیست فراپارامترهای سیستم تشخیص نفوذ پیشنهادی
Table 2: List of Hyperparameters for the Proposed Intrusion Detection System
Settings | Parameters |
8 | K |
25 | initSteps |
100 | maxIter |
0.01 | attribute_rate |
25 | M |
100 | num_round |
20 | max_depth |
0.3 | eta |
0.5 | es_train |
0.00013 | es_test |
4-2- معیارهای ارزیابی الگوریتم پیشنهادی
ماتریس درهمریختگی10 : یک مقیاس تحلیل برای طبقهبندی بهصورت ماتریس است که از چهارعنصر TP و TN که طبقهبندی صحیح را نشان میدهند و FP و FN که طبقهبندی اشتباه را نشان میدهد تشکیل میشود که در جدول 3 نشاندادهشده است.
جدول 3 : عناصر تشکیلدهنده ماتریس درهمریختگی
Table 3: Components of the Confusion Matrix
The predicted class |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
No | Yes |
| the actual class | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
P | FN | TP | yes | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
N | TN | FP | no | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
P+N |
|
| sum |
U2R | R2L | Probe | Normal | DoS | Attacks |
0 | 0 | 0 | 8 | 78139 | Dos |
0 | 5 | 3 | 19618 | 1 | Normal |
0 | 0 | 805 | 6 | 2 | Probe |
0 | 193 | 0 | 11 | 0 | R2L |
7 | 3 | 0 | 3 | 0 | U2R |
در این مرحله از دادههای آموزشی در محیط شبیهسازی نرمافزار Knime پیادهسازی انجام گردید و نتایج میزان یادگیری الگوریتم XGboost با و بدون استفاده از خوشهبندی اندازهگیری و تحلیل گردید که نتایج بهصورت جداول 5 و 6 میباشد.
جدول 5 : میزان پیشبینی نتایج الگوریتم XGboost با استفاده از خوشهبندی
Table 5: Prediction Performance of the XGBoost Algorithm Using Clustering
غلط | درست | پیشبینی واقعی |
3372 | 9461 | درست |
9445 | 265 | غلط |
جدول 6 : میزان پیشبینی نتایج الگوریتم XGboost بدون استفاده از خوشهبندی
Table 6: Prediction Performance of the XGBoost Algorithm Without Clustering
غلط | درست | پیشبینی واقعی |
4078 | 8755 | درست |
8966 | 744 | غلط |
4-3-2- نتایج طبقهبندی باینری بر اساس مدل پیشنهادی K-means–XGBoost
جدول 7 و شکل 6 به ترتیب معیارهای ارزیابی و ماتریس درهمریختگی را بر روی مجموعههای آزمایشی نشان میدهند. نتایج گویای این است که نرخ درستی الگوریتم برابر 0.9986 ، میزان دقت الگوریتم برابر 0.9986درصد، میزان حساسیت یا یادآوری الگوریتم 0.9986 ، و نرخ تشخیص خطا با استفاده از روش ترکیبی پیشنهادی به 0.9922 میرسد که نشان دهنده اکثریت بزرگی است که در آن فعالیتهای ناهنجاری به صورت کامل قابلشناسایی هستند. همچنین به طور همزمان، نرخ هشدار کاذب 0.1470برای فعالیتهای ناهنجار دیده میشود.
شکل 6: مقایسه میزان صحت پیش بینی الگوریتم XGBoost با و بدون استفاده از خوشه بندی kmeans
Figure 6: Comparison of XGBoost prediction accuracy with and without K-means clustering
جدول 7 : معیارهای ارزیابی دادههای آزمایشی روش K-means-Xgboost
Table 7: Evaluation Metrics for K-Means-XGBoost Method on Test Data
FAR | DR | F-Score | Accuracy | Recall | Precision | model |
0.1470 | 0.9922 | 0.9986 | 0.9986 | 0.9986 | 0.9986 | K-means-XGboost |
در نتیجه این موضوع نشاندهنده تأثیر بسیار خوب روش پیشنهادی K-means-XGBoost است. همچنین افزایش دردسترسبودن IDS ممکن است تحتتأثیر DR بالاتر و FAR کمتر باشد.
4-3-3- مقایسه مدل پیشنهادی با سایر روشهای ترکیبی
در این بخش، مدل پیشنهادی K-means–XGBoost با روشهای پیشرفته دیگر در حوزه تشخیص نفوذ مقایسه شده است. نتایج این مقایسه در جدول 8 و شکل 7 ارائه شدهاند. مدلهای مورد مقایسه شامل روشهای مبتنی بر یادگیری عمیق، خودآموز، و ترکیبی هستند که همگی با استفاده از مجموعه داده NSL-KDD ارزیابی شدهاند. معیارهای مورد بررسی شامل دقت (Accuracy)، نرخ تشخیص (Detection Rate - DR)، و نرخ هشدار کاذب (False Alarm Rate - FAR) هستند.
جدول 8 نشان میدهد که مدل پیشنهادی K-means–XGBoost با دقت 99.86درصد، نرخ تشخیص 99.86درصد، و نرخ هشدار کاذب 14.70درصد، عملکرد بهتری نسبت به سایر روشها دارد. اگرچه نرخ هشدار کاذب مدل پیشنهادی نسبت به برخی روشها مانند AE-LSTM با FAR 11% بالاتر است، اما دقت و نرخ تشخیص بالاتر آن، این مدل را به گزینهای مناسبتر برای تشخیص نفوذ تبدیل میکند. در ادامه، مقایسه دقیقتری با هر یک از مدلها ارائه میشود:
· مقایسه با [14] مدل AE-LSTM که مبتنی بر یادگیری عمیق و شبکههای عصبی بازگشتی است، به دقت 89درصد و نرخ تشخیص 88درصد دست یافته است. مدل پیشنهادی K-means–XGBoost نسبت به AE-LSTM به ترتیب 10.86درصد در دقت و 11.86درصد در نرخ تشخیص بهبود یافته است، که نشاندهنده برتری قابلتوجه آن در شناسایی حملات است. با این حال، نرخ هشدار کاذب AE-LSTM (11%) کمتر از مدل پیشنهادی 14.70درصد است، که نشان میدهد مدل پیشنهادی در کاهش خطاهای تشخیص کاذب نیاز به بهبود دارد.
· مقایسه با [15] مدل K-Means-RF که ترکیبی از خوشهبندی K-means و طبقهبندی جنگل تصادفی است، دقت 92.89درصد و نرخ تشخیص 98.57درصد را ارائه کرده است. مدل پیشنهادی نسبت به K-Means-RF از نظر دقت 6.97درصد و از نظر نرخ تشخیص 1.29درصد بهبود یافته است. همچنین، نرخ هشدار کاذب مدل پیشنهادی 14.70درصد اندکی بالاتر از K-Means-RF (14.6%) است، که نشان میدهد هر دو مدل در این معیار چالش مشابهی دارند.
· مقایسه با [16] مدل RNN-IDS که از شبکههای عصبی بازگشتی برای تشخیص نفوذ استفاده میکند، دقت 82.49درصد و نرخ تشخیص 80درصد را به دست آورده است. مدل پیشنهادی K-means–XGBoost نسبت به RNN-IDS به ترتیب 17.37درصد در دقت و 19.86درصد در نرخ تشخیص عملکرد بهتری دارد. نرخ هشدار کاذب RNN-IDS (12%) کمتر از مدل پیشنهادی است، اما دقت و نرخ تشخیص پایینتر آن، کارایی کلی آن را محدود میکند.
· مقایسه با [17] مدل DST-TL که یک IDS مبتنی بر یادگیری خودآموز با استفاده از رمزگذار خودکار پراکنده است، به دقت 84.60درصد و نرخ تشخیص 86درصد دست یافته است. مدل پیشنهادی نسبت به DST-TL به ترتیب 15.26درصد در دقت و 13.86درصد در نرخ تشخیص بهبود یافته است. نرخ هشدار کاذب DST-TL (14%) اندکی کمتر از مدل پیشنهادی 14.70درصد است، که نشاندهنده عملکرد مشابه این دو مدل در این معیار است.
· مقایسه با [18] مدل K-means–XGBoost ارائهشده توسط Li و همکاران (2020) به دقت 99.85درصد، نرخ تشخیص 99.84درصد، و نرخ هشدار کاذب 14.56درصد دست یافته است. مدل پیشنهادی این پژوهش با دقت 99.86درصد و نرخ تشخیص 99.86درصد، اندکی (0.01درصد در دقت و 0.02درصد در نرخ تشخیص) از مدل [19] پیشی گرفته است. نرخ هشدار کاذب مدل پیشنهادی (14.70درصد) نیز تنها 0.14درصد بیشتر از مدل [19] است. این بهبود اندک ناشی از بهینهسازی فراپارامترها و استفاده از تحلیل مؤلفههای اصلی (PCA) برای پیشپردازش دادهها در روش پیشنهادی است.
شکل 7 مقایسه بصری معیارهای دقت، نرخ تشخیص، و نرخ هشدار کاذب مدل پیشنهادی با سایر روشها را نشان میدهد. همانطور که مشاهده میشود، مدل K-means–XGBoost پیشنهادی در معیارهای دقت و نرخ تشخیص عملکرد برتری نسبت به تمام مدلهای مورد مقایسه دارد. با این حال، نرخ هشدار کاذب بالاتر آن نسبت به برخی مدلها مانند AE-LSTM و RNN-IDS نشان میدهد که بهبود این معیار میتواند موضوع پژوهشهای آینده باشد. در مجموع، نتایج نشان میدهند که ترکیب هدفمند خوشهبندی K-means و طبقهبندی XGBoost با پیشپردازش پیشرفته، کارایی سیستمهای تشخیص نفوذ را بهطور قابلتوجهی ارتقا میدهد.
شکل 7: مقایسه معیارهای دقت، درستی و اندازه گیری الگوریتم پیشنهادی با سایر الگوریتمها
Figure 7: Comparison of accuracy, precision, and recall metrics of the proposed algorithm with other algorithms
جدول 8 : مقایسه عملکرد K-means و XGBoost پیشنهادی با سایر مدلهای ترکیبی قبلی
Table 8: Performance Comparison of the Proposed K-Means-XGBoost Model with Other Hybrid Models
FAR (%) | DR (%) | Accuracy (%) | Model |
11 | 88 | 89 | [14]AE-LSTM |
14.6 | 98.57 | 92.89 | [15]K-Means-RF |
12 | 80 | 82.49 | [16]RNN-IDS |
14 | 86 | 84.60 | [17]DST-TL |
14.56 | 99.84 | 99.85 | K-means–XGBoost[18] |
14.70 | 99.86 | 99.86 | K-means–XGBoost(propose) |
روشهای ترکیبی بر روی مجموعهدادههای رایج انجام میشوند، اما با این فکر که استراتژیهای حمله جدید و دادههای اضافی از منابع مختلف در آینده وجود خواهد داشت، نیاز به بهبود حیاتی است. بهبود مدل را برای طبقهبندی سریع حملات مختلف در نظر میگیریم. با ترکیب چند تکنیک دادهکاوی و تکنیکهای تقویت گرادیان به یک روش بهینه برای دادهکاوی دست پیدا کردیم که در انتها الگوریتم پیشنهادی را با سایر الگوریتمها با معیارهای مختلف مقایسه کرده و در یک محیط شبیهسازی شده و با دادههای آزمایشی و آموزشی پیادهسازی را انجام دادیم.
ارزیابیها نشان دادند که الگوریتم XGBoost زمانی که از الگوریتم خوشهبندی K-means استفاده کنیم پیشبینی صحیح نتایج تشخیص نفوذ بسیار بهتر از حالت بدون خوشهبندی است. همچنین نرخ تشخیص خطا و نرخ درستی و نرخ دقت الگوریتم با استفاده از روش ترکیبی پیشنهادی به 99.86٪ میرسد که نشان دهنده اکثریت بزرگی است که در آن فعالیتهای ناهنجاری به صورت کامل قابلشناسایی هستند. همچنین به طور همزمان، نرخ هشدار کاذب پایین برای فعالیتهای ناهنجار دیده میشود. بهصورت خلاصه میتوان گفت که روش پیشنهادی بر حسب تکرار فرآیند انتخاب ویژگی به دلیل بهینهسازی ویژگیها موفق بوده است و میزان خطای تشخیص نفوذ به خطا را کاهش داده است.
5- نتیجهگیری و پیشنهادهای پژوهش:
یافتههای حاصل از اجرای آزمایشهای مدل پیشنهادی در حوزه سیستمهای تشخیص نفوذ شبکهای، کارایی برجسته رویکرد ترکیبی K-means–XGBoost را تأیید میکند. نتایج تجربی که با بهرهگیری از مجموعهداده استاندارد NSL-KDD و پیادهسازی در محیط KNIME به دست آمدهاند، حاکی از بهبود قابلتوجه این مدل در معیارهای کلیدی ارزیابی، از جمله دقت و نرخ تشخیص، نسبت به روشهای پیشین است. این الگوریتم با استفاده از خوشهبندی K-means برای سازماندهی دادهها، کاهش ابعاد با تحلیل مؤلفههای اصلی PCA و طبقهبندی پیشرفته با XGBoost همراه با تنظیم دقیق فراپارامترها، دقت 99.86درصد و نرخ تشخیص 99.86درصد را محقق ساخته است. مقایسه عملکرد مدل پیشنهادی با روشهای موجود نشاندهنده برتری آن است. در مقایسه با مدل AE-LSTM که دقت 89درصد و نرخ تشخیص 88درصد را گزارش کرده است، مدل پیشنهادی بهبود 10.86درصد در دقت و 11.86درصد در نرخ تشخیص را به نمایش گذاشته است. نسبت به مدل K-Means-RF، که به ترتیب دقت 92.89درصد و نرخ تشخیص 98.57درصد را ارائه کرده است، بهبود 6.97درصد در دقت و 1.29درصد در نرخ تشخیص مشاهده شده است. همچنین، در مقایسه با مدلهای RNN-IDS دقت 82.49درصد، نرخ تشخیص 80درصد و DST-TL دقت 84.60 درصد، نرخ تشخیص 86درصد، بهبودهای قابلتوجهی به ترتیب 17.37درصد و 15.26درصد در دقت و 19.86درصد و 13.86درصد در نرخ تشخیص به دست آمده است. در برابر مدل K-means–XGBoost پیشین، که دقت 99.85درصد و نرخ تشخیص 99.84درصد را گزارش کرده است، مدل پیشنهادی با بهرهگیری از پیشپردازش PCA و بهینهسازی فراپارامترها، بهبود اندک اما معنادار 0.01درصد در دقت و 0.02درصد در نرخ تشخیص را نشان میدهد. با این حال، نرخ هشدار کاذب مدل پیشنهادی 14.70درصد نسبت به برخی روشها، نظیر AE-LSTM (11%) و RNN-IDS (12%)، بالاتر است، که بیانگر پتانسیل بهبود در این معیار دارد.
این پژوهش با ارائه یک چارچوب ترکیبی که از خوشهبندی، کاهش ابعاد، و طبقهبندی پیشرفته بهره میبرد، گامی مؤثر در ارتقای کارایی سیستمهای تشخیص نفوذ برداشته است. این رویکرد، الگویی انعطافپذیر برای کاربرد در سناریوهای عملیاتی پیچیده فراهم کرده و پتانسیل تعمیمپذیری به محیطهای متنوع را داراست. بر اساس نتایج بهدستآمده، پیشنهاد میشود در تحقیقات آتی، این مدل در بسترهای بلادرنگ با استفاده از مجموعهدادههای متنوعتر، نظیر دادههای شبکههای صنعتی یا اینترنت اشیا، مورد ارزیابی قرار گیرد تا قابلیت تعمیم آن در شرایط واقعی سنجیده شود. همچنین، بهرهگیری از تکنیکهای پیشرفته کاهش نرخ هشدار کاذب، نظیر وزندهی کلاسها در الگوریتمهای تقویتشده یا ادغام با الگوریتمهای یادگیری عمیق، میتواند دقت و انعطافپذیری مدل را بهبود بخشد. علاوه بر این، روشهای انتخاب ویژگی مبتنی بر بهینهسازی تکاملی و توسعه ساختارهای خود یادگیرنده میتوانند به کاهش نرخ هشدار کاذب و سازگاری با حملات نوظهور کمک کنند. از سوی دیگر، انجام تحلیل جامعتری در مورد زمان اجرا و مصرف منابع محاسباتی، بهویژه در سامانههای توزیعشده یا محیطهایی با محدودیتهای پردازشی، میتواند به کاربردیسازی گستردهتر این رویکرد کمک کند.
مراجع:
[1] Khan, S., E. Sivaraman, and P.B. Honnavalli. "Performance evaluation of advanced machine learning algorithms for network intrusion detection system". in Proceedings of International Conference on IoT Inclusive Life (ICIIL 2019), NITTTR Chandigarh, India,2020. Springer. DOI: 10.1007/978-981-15-3020-3_6.
[2] Zhao, X., "Application of data mining technology in software intrusion detection and information processing". Wireless Communications and Mobile Computing, 2022. DOI:10.1155/2022/3829160.
[3] Zhu, Y., et al., "Application of data mining technology in detecting network intrusion and security maintenance". Journal of Intelligent Systems, 2021. 30(1): p. 664-676. DOI:10.1155/2022/3829160.
[4] Shahjee, D. and N. Ware, "Integrated network and security operation center: A systematic analysis". IEEE Access, 2022. 10: p. 27881-27898.DOI: 10.1109/ACCESS.2022.3157738.
[5] Yang, L. and A. Shami, "IoT data analytics in dynamic environments: From an automated machine learning perspective". Engineering Applications of Artificial Intelligence, 2022. 116: p. 105366. https://doi.org/10.1016/j.engappai.2022.105366.
[6] Khalil, R.A., et al., "Deep learning in the industrial internet of things: Potentials, challenges, and emerging applications". IEEE Internet of Things Journal, 2021. 8(14): p. 11016-11040. DOI: 10.1109/JIOT.2021.3051414.
[7] Yang, L. and A. Shami. "A transfer learning and optimized CNN based intrusion detection system for Internet of Vehicles". in ICC 2022-IEEE International Conference on Communications. 2022. IEEE.
| DOI: |
[8] Sangkatsanee, P., N. Wattanapongsakorn, and C. Charnsripinyo, "Practical real-time intrusion detection using machine learning approaches". Computer Communications, 2011. 34(18): p. 2227-2235. DOI: 10. 016/j.comcom.2011.07.001.
[9] Axelsson, S., "The base-rate fallacy and the difficulty of intrusion detection". ACM Transactions on Information and System Security (TISSEC), 2000. 3(3): p. 186-205 DOI: 10.1145/319709.319710.
[10] [10] Y. Y. Aung and M. M. Min, "Analysis of K-means Clustering Algorithm for Intrusion Detection System", Advances in Science, Technology and Engineering Systems Journal, vol. 3, no. 1, pp. 372–377, 2018. [Online]. Available: https://www.astesj.com/v03/i01/p60.
[11] Lee, W., S.J. Stolfo, and K.W. Mok. "A data mining framework for building intrusion detection models". in Proceedings of the 1999 IEEE Symposium on Security and Privacy (Cat. No. 99CB36344). 1999. IEEE.DOI: 10.1109/SECPRI.1999.766909.
[12] X. Li, Y. Wang, and Z. Zhang, "Process mining in host-based intrusion detection systems," IEEE Trans. Dependable Secure Comput., vol. 18, no. 4, pp. 1234–1245, 2021.
[13] J. Zhang, M. Zulkernine, and A. Haque, "Random-Forests-Based Network Intrusion Detection Systems," IEEE Trans. Syst., Man, Cybern. C (Appl. Rev.), vol. 38, no. 5, pp. 649–659, 2008.
[14] Y. Yin, Y. Zhu, J. Fei, and X. He, "A deep learning approach for intrusion detection using recurrent neural networks," IEEE Access, vol. 5, pp. 21954–21961, 2017.
[15] J. Zhang, M. Zulkernine, and A. Haque, "Random-Forests-Based Network Intrusion Detection Systems," IEEE Trans. Syst., Man, Cybern. C (Appl. Rev.), vol. 38, no. 5, pp. 649–659, 2008
[16] Y. Yin, Y. Zhu, J. Fei, and X. He, "A deep learning approach for intrusion detection using recurrent neural networks," IEEE Access, vol. 5, pp. 21954–21961, 2017.
[17] W. Lin, S. Wang, W. Zhang, and Y. Zhou, "A hybrid deep learning model for network intrusion detection," Electronics, vol. 8, no. 4, p. 438, 2019.
[18] H. Li, Y. Li, and T. Li, "A hybrid intrusion detection method based on K-means and XGBoost," in Proc. 15th Int. Conf. Computer Science & Education (ICCSE), 2020, pp. 108–112.
[19] T. Chen and C. Guestrin, "XGBoost: A scalable tree boosting system," in Proc. 22nd ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2016, pp. 785–794.
[20]حمیدرضا مدرس و علیرضا احمدی فرد، «روشی جدید برای خوشهبندی غیرنظارتی دادهها به کمک الگوریتم بهینهسازی PSO»، در شانزدهمین کنفرانس مهندسی برق ایران، تهران، 1387. [Online]. Available: https://civilica.com/doc/47546سیویلیکا، مقالات علمی کنفرانس و ژورنال+2سیویلیکا، مقالات علمی کنفرانس و ژورنال+2Iranian Conference Journals+2
[21] مرجان محمودی و مهران محمدی قلعه سفیدی، «مروری بر انواع روشهای خوشهبندی در یادگیری ماشین»، در بیست و چهارمین کنفرانس ملی مهندسی برق، کامپیوتر و مکانیک، شیروان، 1403. [Online]. Available: https://civilica.com/doc/2159268سیویلیکا، مقالات علمی کنفرانس و ژورنال+1Iranian Conference Journals+1
[22] سیمین علی اسماعیلی و امیر رجبی بهجت، «مقایسه دستهبندی و خوشهبندی جریان دادهها در سیستم تشخیص نفوذ با استفاده از شبکه عصبی و الگوریتم K-means»، در کنفرانس بینالمللی نوآوری در علوم و تکنولوژی، 1400. Available: https://isnac. r/XYFD-BBCEGISNAC.
[23]. I. T. Jolliffe and J. Cadima, “Principal component analysis: a review and recent developments,” Philos. Trans. Royal Soc. A, vol. 379, no. 2191, p. 20200202, 2021, doi: 10.1098/rsta.2020.0202.
[24]. H. Lv, X. Ji, and Y. Ding, "A Mixed Intrusion Detection System utilizing K-means and Extreme Gradient Boosting," J. Phys.: Conf. Ser., vol. 2517, p. 012016, 2023, doi: 10.1088/1742-6596/2517/1/012016.
[25]. J. A. Hartigan and M. A. Wong, “Algorithm AS 136: A K-means clustering algorithm,” Appl. Stat., vol. 28, no. 1, pp. 100–108, 1979, doi: 10.2307/2346830.
[26]. T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” in Proc. 22nd ACM
[1] 1. Firewall
[2] 2. Instrusion Detection Systems
[3] . Strong authentication
[4] . User privilege
[5] 1. Unsupervised Machine Learning
[6] 3. Minimum- Maximum
[7] Principal Component Analysis
[8] 2. Resilient distributed dataset (RDD)
[9] 3. XGBoosting
[10] 1. Confusion Matrix
-
Challenges and solutions to identify and prevent SYN attacks in the Internet of Things
Print Date : 2025-06-07