Improving the performance of phishing attack detection systems based on synergy of neural network and Ali Baba and the forty thieves algorithm
Subject Areas : information technologyreza assareh 1 , younes mobasheri 2
1 - Assistant Professor, Department of Computer Engineering, Yadgar Imam Khomeini Unit, Shahr Ray, Islamic Azad University, Shahr Ray, Iran.
2 -
Keywords: cyber attacks, phishing attacks, machine learning, multilayer perceptron neural network, ali baba and the forty thieves ,
Abstract :
One of the cyber attacks is phishing attacks, which have increased rapidly in recent years. Defining robust, efficient and up-to-date methods for phishing detection is essential. Using machine learning to train a system that recognizes phishing messages is essential to increase the level of security against cyber attacks. By finding the weights and biases of the neural network through the algorithm of ali baba and the forty thieves, it is possible to identify phishing pages with high accuracy. Multi-layer perceptron neural network is used in the proposed method to classify and detect phishing attacks. The weights of the multi-layer perceptron neural network are found through the algorithm of ali baba and the forty thieves. The important thing is to choose the method with which the cost function is calculated, which includes 'mse', 'rmse' and 'accuracy'. The simulation of the proposed method has been done through matlab software. In the dataset, different features related to legal and phishing websites have been identified and 1353 different websites have been collected from different sources. The results of the proposed method are compared with the basic design in terms of precision, accuracy, F1_Score and AUC-ROC curve. According to the obtained results, the accuracy of the proposed method is 4.91% compared to the LR method, 5.7% compared to the support vector machine method, 3.72% compared to the K-nearest neighbor method, and 9.03% compared to the adaboost method. Compared to the multilayer perceptron method, it has improved by 3.53%, compared to the J48 method by 2.46%, and compared to the random forest method by 0.74%. Also, the proposed method has improved compared to the combined methods of meta-heuristic algorithms and neural network. The accuracy of the proposed method has improved by 1.3% compared to the EPO-ANN method and by 1.41% compared to the SSA-ANN method.
[1] Sabahno, M., & Safara, F. (2022). ISHO: improved spotted hyena optimization algorithm for phishing website detection. Multimedia Tools and Applications, 81(24), 34677-34696.
[2] Minocha, S., & Singh, B. (2022). A novel phishing detection system using binary modified equilibrium optimizer for feature selection. Computers & Electrical Engineering, 98, 107689.
[3] Das, S., Nippert-Eng, C., & Camp, L. J. (2022). Evaluating user susceptibility to phishing attacks. Information & Computer Security.
[4] Jain, A. K., & Gupta, B. B. (2022). A survey of phishing attack techniques, defence mechanisms and open research challenges. Enterprise Information Systems, 16(4), 527-565.
[5] Barreiro Herrera, D. A., & Camargo Mendoza, J. E. (2022). A Systematic Review on Phishing Detection: A Perspective Beyond a High Accuracy in Phishing Detection. In International Conference on Applied Informatics (pp. 173-188). Springer, Cham.
[6] Jafar, M. T., Al-Fawa’reh, M., Barhoush, M., & Alshira’H, M. H. (2022). Enhancеd Analysis Approach to Detect Phishing Attacks During COVID-19 Crisis. Cybernetics and Information Technologies, 22(1), 60-76.
[7] Almseidin, M., Alkasassbeh, M., Alzubi, M., & Al-Sawwa, J. (2022). Cyber-Phishing Website Detection Using Fuzzy Rule Interpolation. Cryptography, 6(2), 24.
[8] Kovač, A., Dunđer, I., & Seljan, S. (2022). An overview of machine learning algorithms for detecting phishing attacks on electronic messaging services. In 2022 45th Jubilee International Convention on Information, Communication and Electronic Technology (MIPRO) (pp. 954-961). IEEE.
[9] Zhu, E., Yuan, Q., Chen, Z., Li, X., & Fang, X. (2022). CCBLA: a Lightweight Phishing Detection Model Based on CNN, BiLSTM, and Attention Mechanism. Cognitive Computation, 1-14.
[10] Altaher, A. (2017). Phishing websites classification using hybrid SVM and KNN approach. International Journal of Advanced Computer Science and Applications, 8(6).
[11] Braik, M., Ryalat, M. H., & Al-Zoubi, H. (2022). A novel meta-heuristic algorithm for solving numerical optimization problems: Ali Baba and the forty thieves. Neural Computing and Applications, 34(1), 409-455.
[12] Lastdrager, E. E. (2014). Achieving a consensual definition of phishing based on a systematic review of the literature. Crime Science, 3(1), 1-10.
[13] Mohammad, R. M., Thabtah, F., & McCluskey, L. (2015). Tutorial and critical analysis of phishing websites methods. Computer Science Review, 17, 1-24.
[14] Garera, S., Provos, N., Chew, M., & Rubin, A. D. (2007). A framework for detection and measurement of phishing attacks. In Proceedings of the 2007 ACM workshop on Recurring malcode (pp. 1-8).
[15] Khonji, M., Iraqi, Y., & Jones, A. (2013). Phishing detection: a literature survey. IEEE Communications Surveys & Tutorials, 15(4), 2091-2121.
[16] Pandove, K., Jindal, A., & Kumar, R. (2010). Email spoofing. International Journal of Computer Applications, 5(1), 27-30.
[17] Varshney, G., Sardana, A., & Joshi, R. C. (2012). Secret information display based authentication technique towards preventing phishing attacks. In Proceedings of the International Conference on Advances in Computing, Communications and Informatics (pp. 602-608).
[18] Hong, J. (2012). The state of phishing attacks. Communications of the ACM, 55(1), 74-81.
[19] Sahingoz, O. K., Buber, E., Demir, O., & Diri, B. (2019). Machine learning based phishing detection from URLs. Expert Systems with Applications, 117, 345-357.
[20] Buczak, A. L., & Guven, E. (2015). A survey of data mining and machine learning methods for cyber security intrusion detection. IEEE Communications surveys & tutorials, 18(2), 1153-1176.
[21] Luo, Z. (2013). A study of accuracy and reliability of CBIR-based phishing filter (Doctoral dissertation, Purdue University).
[22] Drake, C. E., Oliver, J. J., & Koontz, E. J. (2004). Anatomy of a Phishing Email. In CEAS.
[23] Almomani, A., Gupta, B. B., Atawneh, S., Meulenberg, A., & Almomani, E. (2013). A survey of phishing email filtering techniques. IEEE communications surveys & tutorials, 15(4), 2070-2090.
[24] Varshney, G., Joshi, R. C., & Sardana, A. (2012). Personal secret information based authentication towards preventing phishing attacks. In Advances in Computing and Information Technology: Proceedings of the Second International Conference on Advances in Computing and Information Technology (ACITY) July 13-15, 2012, Chennai, India-Volume 1 (pp. 31-42). Springer Berlin Heidelberg.
[25] Gupta, S., & Kumar, P. (2013). A desktop notification based scheme for preventing online frauds attempts to cloud users S| pp| S. In 2013 International Conference on Advances in Computing, Communications and Informatics (ICACCI) (pp. 255-260). IEEE.
[26] Workman, M. (2008). Wisecrackers: A theory‐grounded investigation of phishing and pretext social engineering threats to information security. Journal of the American society for information science and technology, 59(4), 662-674.
[27] Varshney, G., Misra, M., & Atrey, P. K. (2016). A survey and classification of web phishing detection schemes. Security and Communication Networks, 9(18), 6266-6284.
[28] Kim, H., & Huh, J. H. (2011). Detecting DNS-poisoning-based phishing attacks from their network performance characteristics. Electronics Letters, 47(11), 656-658.
[29] Magdalin, V. (2015). U.S. Patent No. 8,990,933. Washington, DC: U.S. Patent and Trademark Office.
[30] Bradley, T. (2011). Epsilon Data Breach: Expect a Surge in Spear Phishing Attacks. PCWorld, April.
[31] Unlu, S. A., & Bicakci, K. (2010). Notabnab: Protection against the “tabnabbing attack”. In 2010 eCrime Researchers Summit (pp. 1-5). IEEE.
[32] Dhamija, R., & Tygar, J. D. (2005). The battle against phishing: Dynamic security skins. In Proceedings of the 2005 symposium on Usable privacy and security (pp. 77-88).
[33] Bergholz, A., De Beer, J., Glahn, S., Moens, M. F., Paaß, G., & Strobel, S. (2010). New filtering approaches for phishing email. Journal of computer security, 18(1), 7-35.
[34] Islam, R., & Abawajy, J. (2013). A multi-tier phishing detection and filtering approach. Journal of Network and Computer Applications, 36(1), 324-335.
[35] Korkmaz, M., Sahingoz, O. K., & Diri, B. (2020). Feature selections for the classification of webpages to detect phishing attacks: a survey. In 2020 International Congress on Human-Computer Interaction, Optimization and Robotic Applications (HORA) (pp. 1-9). IEEE.
[36] Moghimi, M., & Varjani, A. Y. (2016). New rule-based phishing detection method. Expert systems with applications, 53, 231-242.
[37] Singh, P., Maravi, Y. P., & Sharma, S. (2015). Phishing websites detection through supervised learning networks. In 2015 international conference on computing and communications technologies (ICCCT) (pp. 61-65). IEEE.
[38] Mohammad, R. M., Thabtah, F., & McCluskey, L. (2014). Predicting phishing websites based on self-structuring neural network. Neural Computing and Applications, 25, 443-458.
[39] Mohammad, R., McCluskey, T. L., & Thabtah, F. (2013). Predicting phishing websites using neural network trained with back-propagation. World Congress in Computer Science, Computer Engineering, and Applied Computing.
[40] Nguyen, L. A. T., To, B. L., Nguyen, H. K., & Nguyen, M. H. (2014). A novel approach for phishing detection using URL-based heuristic. In 2014 international conference on computing, management and telecommunications (ComManTel) (pp. 298-303). IEEE.
[41] Abdelhamid, N., Ayesh, A., & Thabtah, F. (2014). Phishing detection based associative classification data mining. Expert Systems with Applications, 41(13), 5948-5959.
[42] Abdelhamid, N. (2015). Multi-label rules for phishing classification. Applied Computing and Informatics, 11(1), 29-46.
[43] Mohammad, R. M., Thabtah, F., & McCluskey, L. (2014). Intelligent rule‐based phishing websites classification. IET Information Security, 8(3), 153-160.
[44] Kausar, F., Al-Otaibi, B., & Al-Qadi, A. (2015). Hybrid client side phishing websites detection approach. Advanced Engineering Technology and Application, 4(2), 1-9.
[45] Nguyen, L. A. T., To, B. L., Nguyen, H. K., & Nguyen, M. H. (2013). Detecting phishing web sites: A heuristic URL-based approach. In 2013 International Conference on Advanced Technologies for Communications (ATC 2013) (pp. 597-602). IEEE.
[46] Gu, X., Wang, H., & Ni, T. (2013). An efficient approach to detecting phishing web. Journal of Computational Information Systems, 9(14), 5553-5560.
[47] Barraclough, P. A., Hossain, M. A., Tahir, M. A., Sexton, G., & Aslam, N. (2013). Intelligent phishing detection and protection scheme for online transactions. Expert Systems with Applications, 40(11), 4697-4706.
[48] Xu, L., Zhan, Z., Xu, S., & Ye, K. (2013). Cross-layer detection of malicious websites. In Proceedings of the third ACM conference on Data and application security and privacy (pp. 141-152).
[49] Eshete, B. (2013). Effective analysis, characterization, and detection of malicious web pages. In Proceedings of the 22nd International Conference on World Wide Web (pp. 355-360).
[50] Shahriar, H., & Zulkernine, M. (2012). Trustworthiness testing of phishing websites: A behavior model-based approach. Future Generation Computer Systems, 28(8), 1258-1271.
[51] Zhuang, W., Jiang, Q., & Xiong, T. (2012). An intelligent anti-phishing strategy model for phishing website detection. In 2012 32nd International Conference on Distributed Computing Systems Workshops (pp. 51-56). IEEE.
[52] Xiang, G., Hong, J., Rose, C. P., & Cranor, L. (2011). Cantina+ a feature-rich machine learning framework for detecting phishing web sites. ACM Transactions on Information and System Security (TISSEC), 14(2), 1-28.
[53] He, M., Horng, S. J., Fan, P., Khan, M. K., Run, R. S., Lai, J. L.,... & Sutanto, A. (2011). An efficient phishing webpage detector. Expert systems with applications, 38(10), 12018-12027.
[54] Aburrous, M., Hossain, M. A., Dahal, K., & Thabtah, F. (2010). Intelligent phishing detection system for e-banking using fuzzy data mining. Expert systems with applications, 37(12), 7913-7921.
[55] Ma, J., Saul, L. K., Savage, S., & Voelker, G. M. (2009). Beyond blacklists: learning to detect malicious web sites from suspicious URLs. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1245-1254).
[56] Uplenchwar, S., Sawant, V., Surve, P., Deshpande, S., & Kelkar, S. (2022). Phishing Attack Detection on Text Messages Using Machine Learning Techniques. In 2022 IEEE Pune Section International Conference (PuneCon) (pp. 1-5). IEEE.
[57] Palša, J., Ádám, N., Hurtuk, J., Chovancová, E., Madoš, B., Chovanec, M., & Kocan, S. (2022). MLMD—A Malware-Detecting Antivirus Tool Based on the XGBoost Machine Learning Algorithm. Applied Sciences, 12(13), 6672.
[58] Bhagwat, S., & Gupta, G. P. (2022). Android Malware Detection Using Hybrid Meta-heuristic Feature Selection and Ensemble Learning Techniques. In International Conference on Advances in Computing and Data Sciences (pp. 145-156). Springer, Cham.
[59] Alzubi, O. A., Alzubi, J. A., Al-Zoubi, A. M., Hassonah, M. A., & Kose, U. (2022). An efficient malware detection approach with feature weighting based on Harris Hawks optimization. Cluster Computing, 25(4), 2369-2387.
[60] Al-Andoli, M. N., Tan, S. C., Sim, K. S., Lim, C. P., & Goh, P. Y. (2022). Parallel Deep Learning with a hybrid BP-PSO framework for feature extraction and malware classification. Applied Soft Computing, 131, 109756.
[61] Dhiyanesh, B., Selvanathan, N., Kiruthiga, G., & Radha, R. (2021). Effective attribute selection and classification technique for phishing attacks detection. In 2021 5th International Conference on Electronics, Communication and Aerospace Technology (ICECA) (pp. 1-7). IEEE.
[62] Ripa, S. P., Islam, F., & Arifuzzaman, M. (2021). The emergence threat of phishing attack and the detection techniques using machine learning models. In 2021 International Conference on Automation, Control and Mechatronics for Industry 4.0 (ACMI) (pp. 1-6). IEEE.
[63] Stobbs, J., Issac, B., & Jacob, S. M. (2020). Phishing web page detection using optimised machine learning. In 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom) (pp. 483-490). IEEE.
[64] Abedin, N. F., Bawm, R., Sarwar, T., Saifuddin, M., Rahman, M. A., & Hossain, S. (2020). Phishing attack detection using machine learning classification techniques. In 2020 3rd International Conference on Intelligent Sustainable Systems (ICISS) (pp. 1125-1130). IEEE.
[65] Zhang, X., Shi, D., Zhang, H., Liu, W., & Li, R. (2018). Efficient detection of phishing attacks with hybrid neural networks. In 2018 IEEE 18th International Conference on Communication Technology (ICCT) (pp. 844-848). IEEE.
[66] Darshan, S. S., Kumara, M. A., & Jaidhar, C. D. (2016). Windows malware detection based on cuckoo sandbox generated report using machine learning algorithm. In 2016 11th International Conference on Industrial and Information Systems (ICIIS) (pp. 534-539). IEEE.
[67] Jalil, S., Usman, M., & Fong, A. (2022). Highly accurate phishing URL detection based on machine learning. Journal of Ambient Intelligence and Humanized Computing, 1-19.
[68] Vijay, J. S., Kulkarni, K., & Arya, A. (2022). Metaheuristic Optimization of Neural Networks for Phishing Detection. In 2022 3rd International Conference for Emerging Technology (INCET) (pp. 1-5). IEEE.
دانشگاه آزاد اسلامی واحد الکترونیکی
مجله فناوری اطلاعات و امنیت شبکه
ISSN: 3060-6055
بهبود عملکرد سیستمهای تشخیص حملات فیشینگ مبتنی بر همافزایی شبکه عصبی و الگوریتم علی بابا و چهل دزد
استادیار، گروه مهندسی کامپیوتر، واحد یادگار امام خمینی (ره) شهر ری، دانشگاه آزاد اسلامی، شهر ری، ایران.
کارشناسی ارشد، گروه مهندسی کامپیوتر، واحد یادگار امام خمینی (ره) شهر ری، دانشگاه آزاد اسلامی، شهر ری، ایران.
چکیده
یکی از حملات سایبری، حملات فیشینگ است که در سالهای اخیر بهسرعت افزایش یافتهاند. مهاجمان فیشینگ، کاربران را با وبسایتهای تقلبی فریب میدهند و کاربران را به ارائه اطلاعات محرمانه در یک وبسایت فیشینگ ترغیب میکنند. تعریف روشهای قوی، کارآمد و بهروز برای اکتشاف فیشینگ ضروری است. استفاده از یادگیری ماشین برای آموزش سیستمی که پیامهای فیشینگ را تشخیص میدهد، برای افزایش سطح امنیت در برابر حملات سایبری ضروری است. با استفاده از یافتن وزن و بایاسهای شبکه عصبی از طریق الگوریتم علی بابا و چهل دزد میتوان صفحات فیشینگ را با دقت بالایی شناسایی کرد. در روش پیشنهادی برای دستهبندی و تشخیص حملات فیشینگ از شبکه عصبی پرسپترون چند لایه استفاده میشود. وزنهای شبکه عصبی پرسپترون چند لایه از طریق الگوریتم علی بابا و چهل دزد پیدا میشوند. نکته مهم، انتخاب روشی است که تابع هزینه با آن محاسبه شود که شامل 'MSE'، 'RMSE' و 'Accuracy' هستند. شبیهسازی روش پیشنهادی از طریق نرمافزار متلب انجام شده است. در مجموعه داده، ویژگیهای مختلف مربوط به وبسایتهای قانونی و فیشی را شناسایی کرده و ۱۳۵۳ وبسایت مختلف از منابع مختلف جمعآوری شده است. نتایج روش پیشنهادی با طرح پایه از نظر دقت، صحت، F1_Score و منحنی AUC-ROC مقایسه میشوند. مطابق با نتایج به دست آمده، دقت روش پیشنهادی نسبت به روش LR به میزان 4.91 درصد، نسبت به روش ماشین بردار پشتیبان به میزان 5.7 درصد، نسبت به روش K نزدیکترین همسایه به میزان 3.72 درصد، نسبت به روش AdaBoost به میزان 9.03 درصد، نسبت به روش پرسپترون چند لایه به میزان 3.53 درصد، نسبت به روش J48 به میزان 2.46 درصد و نسبت به روش جنگل تصادفی به میزان 0.74 درصد بهبود داشته است. همچنین روش پیشنهادی نسبت به روشهای ترکیبی الگوریتمهای فراابتکاری و شبکه عصبی نیز بهبود داشته است. دقت روش پیشنهادی نسبت به روش EPO – ANN به میزان 1.3 درصد و همچنین نسبت به روش SSA – ANN به میزان 1.41 درصد بهبود داشته است.
واژگان كليدي: حملات سایبری، حملات فیشینگ، یادگیری ماشین، شبکه عصبی پرسپترون چند لایه، الگوریتم علی بابا و چهل دزد
1- مقدمه
یکی از چالشهای بزرگ در فضای سایبری وجود وبسایتهای جعلی است که اطلاعات کاربران را به سرقت میبرند (Sabahno و Safara ، 2022). یکی از حملات سایبری، حملات فیشینگ1 است (Minocha و Singh ، 2022)؛ که در سالهای اخیر بهسرعت افزایش یافتهاند (Das و همکاران، 2022). اصطلاح "فیشینگ" از قیاس عملیات "phishing" گرفته شده است. عبارت "ph" از "تلفن phreaking" میآید که روش بسیار رایجی بود که در دهه 1970 برای حمله به سیستمهای تلفن استفاده میشد. شبکه آنلاین آمریکا (AOL2) اولین قربانی این حمله بود. علاوه بر این، فیشرها خود را به جعل هویت وبسایت AOL محدود نکردند، بلکه فعالانه تعداد قابلتوجهی از دروازههای پرداخت، شبکههای اجتماعی و وبسایتهای مالی را تقلید کردند (Jain و Gupta ، 2022). مهاجمان فیشینگ، کاربران را با وبسایتهای تقلبی فریب میدهند و کاربران را به ارائه اطلاعات محرمانه در یک وبسایت فیشینگ ترغیب میکنند (Minocha و Singh ، 2022). فیشینگ بیشتر مورد ترس کاربرانی است که از خدمات تراکنشی اینترنتی استفاده میکنند، اگرچه مطالعات زیادی بر روی تشخیص حملات فیشینگ متمرکز شده است که دقت بالایی را نشان میدهد، اما این حملات در اثربخشی موردنیاز برای جلوگیری از افتادن افراد در معرض این حملات مسئله دارند (Barreiro Herrera و همکاران، 2022). فیشینگ برای سرقت دادههای حساس از افراد مانند نامهای کاربری، رمز عبور، دادههای شخصی، جزئیات حساب بانکی، اعتبارنامههای مهم ورود به سیستم یا اطلاعات کارت اعتباری استفاده میشود (Jafar و همکاران، 2022). تعریف روشهای قوی، کارآمد و بهروز برای اکتشاف فیشینگ ضروری است (Almseidin و همکاران، 2022). برای اینکه بتوان حملات بالقوه را شناسایی و به اندازه کافی از کاربران محافظت کرد، لازم است اصول اساسی استراتژیهای حمله را درک نمود(Kovač و همکاران، 2022)؛ بنابراین دقت سیستمها بهشدت به دانش قبلی از ویژگیها بستگی دارد (Zhu و همکاران، 2022). تجزیهوتحلیل راهبردهای ضد فیشینگ را میتوان به چند رویکرد تقسیم کرد که شامل فهرست انکار، قوانین اکتشافی و فازی هستند. در هر پاسخ، ویژگیها و چالشهای مختلفی وجود دارد. در رویکرد فهرست انکار، فهرستی از URL3های مشکوک یا مخرب حفظ میشود و با روشهای متمایزی مانند رأیدهی کاربران گردآوری شده است؛ بنابراین، مرورگر، لیست انکار را بهعنوان یک صفحه وب باز شده جستوجو میکند تا در صورت شناسایی صفحه وب به کاربر هشدار دهد. در نهایت، کاربران باید یک لیست رد را در یک ماشین یا یک سرور ذخیره کنند (Altaher ، 2017). از طرف دیگر، استفاده از یادگیری ماشین برای آموزش سیستمی که پیامهای فیشینگ را تشخیص میدهد، به منظور افزایش سطح امنیت در برابر حملات سایبری ضروری است(Kovač و همکاران، 2022). روشهای تشخیص قبلی هنوز دارای شکافهای مشترکی هستند که به شرح زیر خلاصه میشوند (Almseidin و همکاران، 2022):
· برخی از روشهای تشخیص قبلی، مقادیر زیادی از هشدارهای نادرست را ثبت میکردند که میتواند منجر به مصرف زمان و منابع شود.
· روشهای تشخیص مانند روشهای فازی در کارهای قبل به پیشپردازش زیاد دادهها برای به دست آوردن قوانین ضد فیشینگ نیاز داشتهاند و همچنین نمیتوانستند مسائل مرتبط با کمبودهای بازنمایی مبتنی بر دانش را مدیریت کنند.
· برخی از روشهای پیشین از روشهای فراابتکاری قدیمی و کند استفاده کردهاند.
· برای شناسایی این نوع حملات، روشهای مختلف مبتنی بر یادگیری ماشین مانند ماشین بردار پشتیبان توسعه یافتهاند؛ اما چنین روشهایی در هنگام استفاده از دادههای بیشتر نمیتوانند به دقت تشخیص بالایی دست یابند و همچنین به دلیل استفاده از متغیرهای یادگیری بیشتر، زمان آموزش آنها بالا بوده است.
در روش پیشنهادی، به منظور بهبود عملکرد سیستمهای تشخیص حملات فیشینگ، از همافزایی شبکه عصبی مصنوعی و الگوریتم علی بابا و چهل دزد استفاده میشود. روش شبکه عصبی موردنظر، شبکه عصبی پرسپترون چند لایه است. شبکه عصبی شامل یک سری لایه ورودی، تعدادی لایه پنهان و یک لایه خروجی است. از شبکههای عصبی میتوان برای انجام محاسبات پیچیده استفاده کرد. در روش پیشنهادی، از الگوریتم علی بابا و چهل دزد برای بهینه کردن یک شبکه عصبی از طریق بهینه کردن وزنها یا بایاسها استفاده میشود؛ زیرا یک مسئله مهم در شبکه عصبی، پیدا کردن وزنها یا بایاسها است. هدف این است که از این طریق، دقت دستهبند شبکه عصبی برای تشخیص حملات فیشینگ افزایش یابد. برای این منظور نیاز به یک تابع هدف یا تابع هزینه است که از طریق حل آن توسط الگوریتم علی بابا و چهل دزد، پارامترهای وزنها و بایاسهای بهینه پیدا شوند. در روش پیشنهادی، از الگوریتم علی بابا و چهل دزد در مرجع (Braik و همکاران، 2022) که در سال 2022 منتشر شده است، استفاده میشود.
در ادامه، ساختار مقاله به این شرح است که در بخش دوم، پیشینه تحقیق بیان و در بخش سوم، روش پیشنهادی این مقاله معرفی میشود. در بخش چهارم، نتایج شبیهسازی مربوط به روش پیشنهادی تجزیهوتحلیل میشوند و در بخش پنجم، نتیجهگیری از این تحقیق ارائه خواهد شد.
2- پیشینه تحقیق
Uplenchwar و همکاران (2022)، یک سیستم تشخیص حملات فیشینگ برای پیامهای متنی (PADSTM4) را ارائه کردهاند که بر تشخیص حملات فیشینگ در پیامهای متنی با استفاده از یادگیری ماشین متمرکز است. از روشهای یادگیری ماشین استفاده میکند که شامل دستهبند نایوبیز، ماشین بردار پشتیبان، جنگل تصادفی و الگوریتم K نزدیکترین همسایه برای شناسایی پیامهای فیش شده است. مزیت روش ارائهشده این است که عملکرد دستهبند جنگل تصادفی از نظر دقت و F1-score در تشخیص پیامهای فیش شده نسبت به سایر روشهای یادگیری ماشین برتری دارد.
Palša و همکاران (2022)، بر آموزش مدلهای یادگیری ماشین با استفاده از الگوریتمهای XGBoost و درخت تصادفی بر روی دو مجموعه داده بهدستآمده با استفاده از تجزیهوتحلیل استاتیک و پویا نمونههای مخرب و خوشخیم واقعی تمرکز داشتهاند. سپس میزان موفقیت آنها را مقایسه نمودهاند (هم بهصورت متقابل و هم با الگوریتمهای دیگر، مانند جنگل تصادفی، درخت تصمیم، ماشین بردار پشتیبان و الگوریتمهای نایوبیز). مزیت روش ارائه شده، تعیین بهترین مدلهای یادگیری ماشین و استفاده در برنامه MLMD است. عیب روش ارائه شده، عدم توسعه مدیریت دادههای بزرگ و شبکههای عصبی کارآمد و سیستمهای مبتنی بر مدل یادگیری عمیق برای تشخیص یک حمله فیشینگ از یک مجموعه داده ثبت شده است.
Bhagwat و همکاران (2022)، از روش انتخاب ویژگی فراابتکاری با استفاده از الگوریتم ژنتیک (GA5)، الگوریتم جستوجوی گرانشی (GSA6) و همبستگی استفاده شده است که بهعنوان الگوریتم CGGSA7 نامگذاری شده است. ویژگیهای بهینهشده توسط دستهبند تقویت تطبیقی و تقویت گرادیان برای شناسایی بدافزار استفاده شدهاند. تحلیل عملکرد چارچوب ارائه شده با استفاده از مجموعه دادههای CICMalDroid-2020 از نظر صحت، دقت، فراخوانی و امتیاز f1 ارزیابی شده است. چارچوب ارائه شده 95.3 درصد دقت را به دست آورده است. مزیت روش ارائه شده، بهبود معیارهای صحت، دقت، فراخوانی و امتیاز f1 است. عیب روش ارائه شده، افزایش سربار به دلیل استفاده از دو روش فراابتکاری مبتنی بر تکرار است.
Alzubi و همکاران (2022)، یک رویکرد یادگیری ماشین جدید را برای شناسایی بدافزار معرفی و آزمایش کردهاند. رویکرد ارائه شده از دستهبند ماشین بردار پشتیبان و الگوریتم بهینهسازی شاهین هریس تشکیل شده است. بهطور خاص، نقش الگوریتم بهینهسازی شاهین هریس بهینهسازی فراپارامترهای دستهبند ماشین بردار پشتیبان است درحالیکه ماشین بردار پشتیبان دستهبندی بدافزار را بر اساس بهترین مدل انتخابشده و همچنین تولید راهحل بهینه برای وزندهی ویژگیها انجام میدهد.
Al-Andoli و همکاران (2022)، یک چارچوب جدید مبتنی بر بهینهسازی ازدحام ذرات را برای شناسایی بدافزار توسعه دادهاند. در این راستا، یک روش بهینهسازی ترکیبی یادگیری عمیق را با بهرهبرداری از ترکیب الگوریتمهای BP8 و بهینهسازی ازدحام ذرات برای ارائه راهحلهای بهینه برای تشخیص بدافزار معرفی کردهاند. مزیت روش ارائه شده، بهبود اثربخشی، کارایی و مقیاسپذیری است. عیب روش ارائه شده، افزایش بار محاسبات با افزایش تعداد تکرار است.
Dhiyanesh و همکاران (2021)، یک روش انتخاب ویژگی و دستهبندی مؤثر برای تشخیص حملات فیشینگ در شبکههای بیسیم پیشنهاد کردهاند. در ابتدا، دادههای ایمیل جمعآوری شدهاند که شامل ویژگیهای بیشتری است که باید استخراج شوند. سپس، الگوریتم EHO9 برای انتخاب مرتبطترین ویژگیها از میان تمام ویژگیهای استخراجشده مربوط به ایمیل اعمال شده است.
Bhagwat و Gupta (2021)، یک ربات فیشینگ توییتر را با استفاده از یادگیری ماشین ساختهاند. آزمایشی را روی تشخیص آدرس اینترنتی فیشینگ، ایمیلهای فیشینگ و وبسایتهای فیشینگ انجام دادهاند. برای تشخیص URL فیشینگ از دستهبندهای مختلفی استفاده کردهاند و با دقت بالاتر روی زمانبندی آموزش مجموعه داده تمرکز کردهاند. مزیت روش ارائه شده، دقت بالاتر و زمان کمتر نسبت به روشهای مورد مقایسه است. عیب روش ارائه شده، عدم ترکیب روشهای کاهش ویژگی برای بهبود دقت سیستم است.
Stobbs و همکاران (2020)، تأثیر ویژگیهای مختلف و روشهای بهینهسازی را بر دقت تشخیص حملات فیشینگ هوشمند با استفاده از الگوریتمهای یادگیری ماشین بررسی کردهاند. این کار به بهینهسازی انتخاب ویژگی پرداخته است. برای تنظیم فراپارامتر، TPE10 و الگوریتم ژنتیک مورد آزمایش قرار گرفتهاند که بهترین گزینه وابسته به مدل بودهاند. برای انتخاب ویژگی، الگوریتمهای ژنتیک، بهینهسازی پروانه آتش و بهینهسازی ازدحام ذرات استفاده شدهاند که با بهترین عملکرد برای بهینهسازی ازدحام ذرات با مدل جنگل تصادفی بوده است.
Abedin و همکاران (2020)، عملکرد سه دستهبند یادگیری ماشین مانند جنگل تصادفی، رگرسیون لجستیک، K نزدیکترین همسایه مقایسه شدهاند. تقسیم مجموعه داده به دو بخش، یکی برای آموزش و دیگری برای آزمایش انجام شده است. 80٪ از مجموعه داده برای آموزش و 20٪ از مجموعه داده برای آزمایش استفاده شدهاند. تقسیم را با استفاده از کتابخانه Scikit-Learn در زبان برنامهنویسی پایتون انجام دادهاند.
Zhang و همکاران (2018)، یک مدل یادگیری عمیق ترکیبی جدید را برای تشخیص حملات فیشینگ پیشنهاد کردهاند. این روش، شامل دو جزء AE11 و شبکه عصبی کانولوشن است. AE برای بازسازی ویژگیهایی که رابطه همبستگی بین ویژگیها را بهطور صریح افزایش میدهند، اتخاذ میشود. شبکههای عصبی عمیق ترکیبی را با سه الگوریتم دستهبندی سنتی شامل ماشین بردار پشتیبان، درخت تصمیم و LinearSVC مقایسه کردهاند.
Darshan و همکاران (2016)، بدافزار بر روی فاخته اجرا میشود تا رفتار زمان اجرا آن را به دست آورد. در پایان اجرا، cuckoo sandbox تماسهای سیستمی را گزارش میکند که توسط بدافزار در حین اجرا فراخوانی شدهاند. با این حال، این گزارش با فرمت JSON است و برای استخراج تماسهای سیستمی باید به فرمت MIST تبدیل شود.
جدول (1): خلاصهای از پژوهشهای موردمطالعه
منبع بررسی شده | روش ارائه شده | شکافهای پژوهشی | مزیت روش ارائه شده |
Uplenchwar و همکاران (2022) | تشخیص حمله فیشینگ در پیامهای متنی با استفاده از یادگیری ماشین | عدم استفاده از دستهبندهای تجمعی برای افزایش دقت | بهبود عملکرد دستهبند جنگل تصادفی از نظر دقت و F1-score |
Palša و همکاران (2022) | MLMD - یک ابزار آنتیویروس شناسایی بدافزار بر اساس الگوریتم یادگیری ماشین XGBoost | عدم توسعه مدیریت داده بزرگ و شبکه عصبی کارآمد و سیستمهای مبتنی بر مدل یادگیری عمیق برای تشخیص یک حمله فیشینگ از یک مجموعه داده ثبت شده | تعیین بهترین مدلهای یادگیری ماشین و استفاده در برنامه MLMD |
Bhagwat و همکاران (2022) | شناسایی بدافزار با وزندهی ویژگی بر اساس هوش جمعی | افزایش سربار به دلیل استفاده از دو روش فراابتکاری مبتنی بر تکرار | بهبود معیارهای صحت، دقت، فراخوانی و امتیاز f1 |
Alzubi و همکاران (2022) | یک رویکرد یادگیری ماشین جدید برای شناسایی بدافزار مبتنی بر ماشین بردار پشتیبان و شاهین هریس | عدم استفاده از رویکردهای جدیدتر مانند الگوریتم بهینهسازی گله اسب | اندازهگیری اهمیت هر ویژگی و تجزیهوتحلیل روابط احتمالی بین ویژگی وزندار و نوع حمله بدافزار |
Al-Andoli و همکاران (2022) | رویکرد ترکیبی مبتنی بر BPSO و یادگیری عمیق برای انتخاب ویژگی اندروید و شناسایی بدافزار | افزایش بار محاسبات با افزایش تعداد تکرار | بهبود اثربخشی، کارایی و مقیاسپذیری |
Dhiyanesh و همکاران (2021) | انتخاب ویژگی و روش دستهبندی مؤثر برای تشخیص حملات فیشینگ | عدم بررسی یک CNN بهینه شده همراه با مجموعه ویژگی | تشخیص بهتر در مقایسه با روشهای قبلی |
Bhagwat و Gupta (2021) | تشخیص بدافزار اندروید با استفاده از انتخاب ویژگیهای ترکیبی فراابتکاری و روشهای یادگیری گروهی | عدم ترکیب روشهای کاهش ویژگی برای بهبود دقت سیستم | دقت بالاتر و زمان کمتر نسبت به روشهای مورد مقایسه |
Stobbs و همکاران (2020) | تشخیص صفحه وب فیشینگ با استفاده از یادگیری ماشین بهینه | عدم استفاده از تکرارهای بیشتر برای اجرای بهینهسازی و افزایش دقت | بهبود دقت |
Abedin و همکاران (2020) | تشخیص حمله فیشینگ با استفاده از روشهای دستهبندی یادگیری ماشین | عدم بهبود دقت با تغییر ویژگیها | بهبود دقت |
Zhang و همکاران (2018) | تشخیص حملات فیشینگ با شبکههای عصبی ترکیبی | رتبه صفحهAlexa در این کار استفاده نشده است. | قابلیت تعمیم بالا |
Darshan و همکاران (2016) | تشخیص بدافزار بر اساس گزارش تولیدشده توسط فاخته و الگوریتم یادگیری ماشین | عدم استفاده از رویکردهای بهینهسازی جدیدتر | بالاترین دقت، بالاترین نرخ مثبت واقعی و کمترین نرخ مثبت کاذب |
3- روش پیشنهادی
مجموعه داده مورد استفاده از سایت https://archive.ics.uci.edu/ml/datasets/Website+Phishing است.
3-1- استفاده از شبکه عصبی پرسپترون چند لایه و بررسی تنظیم شبکه
در روش پیشنهادی برای دستهبندی و تشخیص حملات فیشینگ از شبکه عصبی پرسپترون چند لایه استفاده میشود که یک الگوریتم دستهبندی باینری یادگیری تحت نظارت است. وزنها و بایاسها بهصورت تصادفی مقداردهی میشوند. ورودیها در وزنها ضرب میشوند، مقادیر به دست آمده با هم و سپس با بایاس جمع میشوند. نتیجه از تابع فعالساز عبور میکند و خروجی نورون را تشکیل میدهد. با مقداردهی وزنها بهصورت تصادفی، نتیجه معمولاً نامناسب میشود. بنابراین نیاز است که وزنها تغییر کنند. تغییر وزنها باید به شکلی انجام شود که خروجیهای نورون به خروجیهای واقعی نزدیک باشند. به فرآیند تغییر وزنهای نورون برای رسیدن به خروجی مطلوب، یادگیری نورون گفته میشود که در روش پیشنهادی برای یافتن وزنهای بهینه از الگوریتم علی بابا و چهل دزد استفاده میشود. روش پیشنهادی بر اساس پرسپترون چند لایه (MLP) است که مهمترین مدل از شبکه عصبی عمیق است. MLP از سه لایه یا بیشتر ساخته شده است (لایه ورودی، یک یا چند لایه پنهان و لایه خروجی). آنها حاوی آستانه، وزن و تابع انتقال برای انتقال دادهها به لایه خروجی هستند. اگر خطا بین دادههای شناخته شده و دادههای لایه خروجی به اندازه هدف نباشد، آستانه لایهها و وزنها از عقب به جلو تنظیم میشود. ورودیها بر اساس وزن خروجیهای آن است. تولید خروجی y به تابعی به نام تابع فعالسازی نیاز دارد که ورودیهای تشکیل شده از x1، x2، …، xn را با وزنهای مربوط به w1، w2، …، wn ضرب میکند. پس از آن، خروجی ها را از طریق یک تابع فعالسازی غیر خطی قرار میدهد؛ که بهصورت و یا نوشته می شود. جایی که w نشاندهنده بردار وزن، x نشاندهنده بردار ورودی، b نشاندهنده بایاس و نشاندهنده تابع فعالسازی است.
3-2- حل تابع هدف با استفاده از الگوریتم علی بابا و چهل دزد
دلیل استفاده از الگوریتم علی بابا و چهل دزد در روش پیشنهادی به سه دلیل است. دلیل اول، مدل های به روز رسانی موقعیت از الگوریتم علی بابا و چهل دزد به طور موثر به افراد جمعیت کمک می کند تا هر منطقه را در فضای جستوجو اکتشاف و بهره برداری کنند. دلیل دوم، جستوجوی تصادفی که دزدان در فضای جستوجو استفاده می کنند، نه تنها تنوع جمعیت را افزایش می دهد، بلکه سرعت همگرایی را نیز تضمین می کند که نشان دهنده تعادل کارآمد بین اکتشاف و بهره برداری است. دلیل سوم، تعداد پارامترها در الگوریتم علی بابا و چهل دزد کم است، اما آنها توانایی خوبی برای بهبود قدرت و عملکرد آن دارند. برتری چهارم، بار محاسباتی الگوریتم علی بابا و چهل دزد کم است.
الگوریتم علی بابا و چهل دزد با ایجاد تصادفی مجموعه ای از موقعیت ها(یعنی راه حل های بالقوه)، با در نظر گرفتن کران بالا و پایین متغیرهای مسئله، بهینه سازی را در حل یک مسئله بهینه سازی آغاز می کند. پس از آن، بهترین موقعیت، بهترین موقعیت سراسری دزدان و نقشه های هوشمندانه مرجانه مقداردهی میشوند. کیفیت هر راه حل ایجاد شده با استفاده از یک تابع تناسب از پیش تعریف شده ارزیابی می شود که به موجب آن مناسب بودن هر راه حل در هر تکرار به منظور شناسایی دزد با راه حل بهینه، مجدداً محاسبه می شود. برای هر بعد، موقعیت جدید دزدها به صورت تکراری در هر تکرار با استفاده از رابطه (5)، (10)، (11) محاسبه میشوند. امکان سنجی هر موقعیت جدید مورد بررسی قرار می گیرد تا مشاهده شود که آیا از منطقه جستوجو خارج میشود یا خیر. سپس موقعیت جدید، بهترین موقعیت، بهترین موقعیت سراسری دزدان و نقشه های هوشمندانه مرجانه بر این اساس ارزیابی و به روز میشوند. به جز مراحل اولیه، به طور مکرر انجام می شود تا زمانی که به شرایط ارزیابی خاتمه برسد. در پایان، بهترین موقعیت دزدان به عنوان راه حل مسئله بهینه سازی امتیازدهی می شود.
الگوریتم علی بابا و چهل دزد با مقداردهی اولیه تصادفی موقعیت تعدادی از n فرد در یک فضای جستجوی d بعدی مانند شکل زیر آغاز می شود (Braik و همکاران، 2022):
(1) |
|
که در آن x موقعیت همه دزدان است، d تعداد متغیرهای یک مسئله معین است و نشان دهنده بعد jام دزد است. موقعیت اولیه جمعیت (به عنوان مثال، دزدان) را می توان همانطور که در رابطه (2) نشان داده شده است ایجاد کرد (Braik و همکاران، 2022).
(2) |
|
که در آن موقعیت دزد iام است که نشاندهنده راهحل کاندید برای یک مسئله است، و به ترتیب به کرانهای پایین و بالا در بعد jام اشاره دارند و r یک عدد تصادفی توزیع شده یکنواخت در محدوده 0 تا 1 است. سطح هوش مرجانه نسبت به همه دزدان را میتوان به صورت زیر مقداردهی کرد (Braik و همکاران، 2022):
(3) |
|
جایی که نشان دهنده سطح هوشیار مرجانه در رابطه با دزد ام در بعد jام است.
ارزیابی برازندگی
مسئلهای که برای استفاده از الگوریتم فراابتکاری وجود دارد، این است که تابع هدف برای این الگوریتم مشخص گردد که با CostFunction مشخص شده است. برای روش پیشنهادی یک تابع به نام CostNNClassification نوشته شده است. با توجه به اینکه تشخیص حملات فیشینگ، یک مسئله طبقهبندی است، بنابراین باید طبقهبندی در تابع هدف تعریف شود.
تابع هدف در حالت کلی همان تابع هزینهای است که قرار است الگوریتم علی بابا و چهل دزد آن را حل کند. چیزی که الگوریتم علی بابا و چهل دزد بهعنوان متغیر میدهد، W ها (پارامترهای وزنها و بایاسها) هستند. هدف این است که الگوریتم علی بابا و چهل دزد W ها را رفتهرفته بهینه کند؛ بنابراین ورودی، W هایی هستند که الگوریتم علی بابا و چهل دزد مشخص میکند.
نکته مهم، انتخاب روشی است که تابع هزینه با آن محاسبه شود که شامل 'MSE'، 'RMSE' و 'Accuracy' هستند.
مقادیر متغیرهای تصمیم در یک تابع برازندگی تعریف شده توسط کاربر درج می شود که برای موقعیت هر دزد ارزیابی می شود. مقادیر تناسب مربوطه در یک آرایه به شکل زیر ذخیره میشوند (Braik و همکاران، 2022):
(4) |
|
که در آن بعد d ام موقعیت دزد n ام است.
دزدان، عامل های جستوجو برای حل مسئله هستند. در واقع شامل یکسری بردار صفر و یک است که الگوریتم این بردار را پیشنهاد میکند. این بردار در تابع ارزیابی میرود تا کیفیت آن ارزیابی شود. در شبیهسازی الگوریتم علی بابا و چهل دزد، کیفیت راه حل برای مکان جدید هر دزد بر اساس یک تابع برازندگی تعریف شده ارزیابی می شود. پس از آن، اگر موقعیت مکانی بهتر از کیفیت راه حل فعلی باشد، به روز می شود. هر دزد در صورتی که کیفیت راه حل او کارآمدتر از راه حل جدید باشد، در مکان فعلی خود می ماند.
سه مورد اساسی ممکن است هنگام جستوجوی دزدان برای علی بابا رخ دهد. در هر مورد، فرض بر این است که دزدان به طور موثر در محیط اطراف جستوجو می کنند، در حالی که نسبتی نیز به دلیل هوش مرجانه رخ می دهد که دزدان را مجبور به جستوجو در مکان های تصادفی می کند. رفتار جستوجوی فوق را می توان به صورت ریاضی به صورت زیر مدلسازی کرد: مورد 1 دزدان ممکن است علی بابا را با کمک اطلاعاتی که از شخصی به دست آورده اند، ردیابی کنند. در این صورت مکان های جدید دزدان را می توان به شرح زیر بهدست آورد (Braik و همکاران، 2022):
(5) |
|
جایی که نشان دهنده موقعیت دزد در تکرار موقعیت علی بابا در رابطه با دزد در تکرار ، نشان دهنده بهترین موقعیتی است که تاکنون توسط دزد در تکرار به دست آورده است، نشان دهنده بهترین موقعیت سراسری است که تا کنون توسط هر دزدی به دست آمده است. نشان دهنده سطح هوش مرجانه است که برای استتار دزد در تکرار استفاده می شود. ، فاصله ردیابی دزدان در تکرار است، نشان دهنده پتانسیل ادراک دزدان به علی بابا در تکرار t است. حد و اعداد تصادفی هستند که با توزیع یکنواخت بین صفر و یک تولید میشوند، ، صفر یا یک را می دهد و نشان دهنده درستی یا نادرستی اطلاعات است. ، 1 یا را برای تغییر جهت فرآیند جستوجو نشان می دهد.
پارامتر در را می توان به صورت زیر تعریف کرد (Braik و همکاران، 2022):
(6) |
|
که در آن بردار اعداد تصادفی تولید شده با توزیع یکنواخت در محدوده [0,1] را نشان می دهد. مرجانه برنامه های زیرکانه خود را به روزرسانی می کند؛ در صورتی که کیفیت راه حل جدیدی که دزدان ارائه می دهند بهتر از موقعیت قبلی آنها باشد. در این مورد، رابطه (7) می تواند برای به روز رسانی برنامه های او استفاده شود (Braik و همکاران، 2022).
(7) |
|
که در آن مخفف نمره تابع برازندگی است. پارامتر فاصله ردیابی همانطور که در رابطه (8) ارائه شده است، تعریف میشود (Braik و همکاران، 2022).
(8) |
|
که در آن و به ترتیب بیانگر تعداد فعلی و حداکثر تعداد تکرارها هستند. تخمین اولیه فاصله ردیابی را در اولین تکرار نشان می دهد و ، یک مقدار ثابت است که برای مدیریت قابلیت های اکتشاف و بهره برداری استفاده می شود. رابطه (8) نشان می دهد که به طور تکراری در طول دوره تکرار الگوریتم علی بابا و چهل دزد به روز می شود.
فاصله ردیابی، به شدت بر توانایی جستوجو تأثیر می گذارد، که تأثیر زیادی بر قدرت اکتشاف و بهره برداری الگوریتم علی بابا و چهل دزد دارد. مقادیر زیاد منجر به جستوجوی سراسری می شود که می تواند به سمت اکتشاف بیشتر منحرف شود و این ممکن است از راه حل های بهینه محلی جلوگیری کند. از طرف دیگر، مقادیر کوچک منجر به جستوجوی محلی می شود، جایی که این باعث افزایش توانایی بهره برداری در الگوریتم علی بابا و چهل دزد می شود تا دزدان امکان خوبی برای یافتن علی بابا داشته باشند.
به طور مشابه، پارامتر پتانسیل ادراک همانطور که در رابطه (9) ارائه شده است، تعریف می شود (Braik و همکاران، 2022).
(9) |
|
که در آن تخمین تقریبی نهایی را از احتمال اینکه دزدان در پایان فرآیند تکراری الگوریتم علی بابا و چهل دزد به هدف خود دست یابند نشان می دهد و ، یک مقدار ثابت است که برای مدیریت قابلیتهای اکتشاف و بهرهبرداری استفاده میشود.
با افزایش تدریجی مقدار ، الگوریتم علی بابا و چهل دزد تمایل دارد از جستوجوی سراسری به جستوجوی محلی در امیدوار کننده ترین مناطقی که راه حل بالقوه ای در این مناطق یافت می شود، حرکت کند. به عبارت دیگر، مقادیر زیاد منجر به جستوجوی محلی می شود که جستوجو را در مناسب ترین مناطق فضای جستوجو تشدید می کند. از طرف دیگر، مقادیر کوچک امکان جستوجو در مجاورت راه حل های خوب فعلی را کاهش می دهد. بنابراین، افزایش این مقدار، الگوریتم علی بابا و چهل دزد را تحریک می کند تا فضای جستوجو را در مقیاس سراسری کشف کند و جستوجو را در همه مناطق فضای جستوجو متنوع سازد. برای تمام مسائل، و برابر 2.0 هستند. ممکن است دزدان متوجه شوند که فریب خورده اند، بنابراین به طور تصادفی فضای جستوجوی علی بابا را کشف می کنند. در این صورت مکان های جدید دزدان را می توان به شرح زیر بهدست آورد (Braik و همکاران، 2022):
(10) |
|
پارامتر در رابطه (10) گنجانده شده است؛ زیرا دزدها از دانش خوبی برای تشخیص مناسب ترین مناطق فضای جستوجو که خانه علی بابا می تواند باشد، برخوردارند. مورد بعد، به منظور بهبود ویژگیهای اکتشاف و بهرهبرداری از الگوریتم علی بابا و چهل دزد، جستوجو را در موقعیتهای دیگری غیر از مواردی که میتوان با استفاده از رابطه (5) به دست آورد، در نظر گرفت. در این صورت می توان مکان های جدید دزدها را به شرح زیر بهدست آورد (Braik و همکاران، 2022):
(11) |
|
4- شبیهسازی
شبیهساز مورد استفاده که برای شبیهسازی روش پیشنهادی نشان داده شده است، MATLAB است. برای تشخیص فیشینگ URL، باید عملکرد را از دیدگاههای مختلف مانند دقت، صحت و موارد دیگر تعیین نمود. مدل پیشنهادی بر روی 80٪ از مجموعه دادهها آموزش داده شده و مدل بر روی 20٪ از مجموعه دادهها آزمایش شده است. اندازهگیریهای ارزیابی عملکرد، نتیجهای از بهترین مدل را به دست آورد که بهترین نتایج را به دست آورده بود. زمانی که خروجی شامل دو نوع کلاس و یا بیشتر باشد، ماتریس درهمریختگی سادهترین راه برای اندازهگیری کارایی یک مسئله دستهبندی است. ماتریس درهمریختگی یک جدول با دو بعد است (مقدار واقعی 12و پیشبینی شده13). هر دو بعد دارای TP، TN، FP وFN است. TP، زمانی است که هر دو کلاس واقعی و پیشبینی از نقاط داده 1 است. TN، زمانی است که هر دو کلاس واقعی و پیشبینی از نقاط داده صفر است. FP، زمانی است که کلاس واقعی از نقطه داده صفر و کلاس پیشبینی 1 است. FN، زمانی است که کلاس واقعی از نقطه داده 1 و کلاس پیشبینی صفر است. معیارهای ارزیابی عبارت اند از:
· دقت: دقت تعداد صحیح دستهبندی شده فیشینگ و URL های قانونی را نشان میدهد.
· صحت: صحت تعداد URL های فیشینگ دستهبندی شده بهعنوان فیش بر تعداد کل URL های فیشینگ است.
· فراخوانی(recall) : فراخوانی را میتوان در قالب تعداد مثبتهای بازگردانده شده توسط مدل یادگیری ماشین تعریف کرد.
· امتیاز F1: این امتیاز، میانگین هارمونیک از دقت و فراخوانی را به دست می آورد. به بیان ریاضی، امتیازF1_Score میانگین وزن دار از دقت و فراخوانی است.
· منحنی AUC-ROC: AUC14، ناحیه زیر منحنی ROC15 است. ناحیه زیر منحنی ROC احتمالی است که در آن دستهبند اطمینان بیشتری کسب کند که یک نمونه مثبت که بهطور تصادفی انتخاب شده است در واقع مثبتتر از آن است که یک نمونه منفی انتخاب شده بهطور تصادفی مثبت باشد.
در شکل (1)، نمودار همگرایی برای الگوریتم علی بابا و چهل دزد مشخص شده است. بهترین هزینه به دست آمده از تابع هدف که از طریق الگوریتم علی بابا و چهل دزد به دست آمده، مشخص شده است. هزینههای به دست آمده در تعداد تکرارهای مختلف هستند. در الگوریتم علی بابا و چهل دزد، توانایی اکتشاف و بهره برداری با همگرایی دزدان به سمت راه حل بهینه سراسری تحقق می یابد. به طور دقیق، همگرایی به این معنی است که بیشتر دزدان در همان موقعیت در فضای جستوجو جمع میشوند. الگوریتم علی بابا و چهل دزد از چندین پارامتر استفاده می کند که منجر به اکتشاف و بهره برداری می شود. این پارامترها برای انجام فرآیند همگرایی الگوریتم علی بابا و چهل دزد مفید هستند. الگوریتم علی بابا و چهل دزد میتواند فضا را برای همه راهحلهای ممکن برای شناسایی راهحلهای بهینه یا غیربهینه بهتر جستوجو کند. دزدان، فضای جستوجو را در مکانها و جهتهای مختلف کاوش میکنند که نشان میدهد راهحلهای بهتری ممکن است در مناطق امیدوارکننده دیگر پیدا شود.
شکل (1): نمودار همگرایی برای الگوریتم علی بابا و چهل دزد
در شکل (2)، ماتریس درهمریختگی برای الگوریتم علی بابا و چهل دزد در فاز آموزش و در شکل (3)، ماتریس درهمریختگی برای الگوریتم علی بابا و چهل دزد در فاز آزمایش مشخص شده است. همچنین در شکل (4)، ماتریس درهمریختگی برای روش پیشنهادی مبتنی بر الگوریتم علی بابا و چهل دزد مشخص شده است. با مقایسه این سه شکل میتوان دریافت که روش پیشنهادی که از ترکیب شبکه عصبی پرسپترون چند لایه و الگوریتم علی بابا و چهل دزد استفاده کرده، نتایج بالاتری را کسب نموده است. ماتریس درهمریختگی در این سه شکل گواه بر ترکیب مناسب برای روش پیشنهادی و بهبود نتایج نسبت به زمانی است که بهصورت تکی از الگوریتمها استفاده شود. دلیل بهبود نتایج پرسپترون چند لایه از طریق الگوریتم علی بابا و چهل دزد این است که دو پارامتر مهم در الگوریتم علی بابا و چهل دزد وجود دارد که به آنها فاصله ردیابی16 و پتانسیل ادراک17 گفته می شود. با این دو پارامتر، الگوریتم علی بابا و چهل دزد میتواند فضا را برای همه راهحلهای ممکن برای شناسایی راهحلهای بهینه یا غیربهینه بهتر جستوجو کند. یکی دیگر از پارامترهای مهم در الگوریتم علی بابا و چهل دزد شبیهسازی روش های هوشمندانه مرجانه برای فریب دزدان است. به این ترتیب، دزدان فضای جستوجو را در مکانها و جهتهای مختلف کاوش میکنند که نشان میدهد راهحلهای بهتری ممکن است در مناطق امیدوارکننده دیگر پیدا شود. بنابراین با پیدا کردن وزنهای بهینه، روش پیشنهادی توانسته است نتایج را بهبود دهد.
شکل (2): ماتریس درهمریختگی برای الگوریتم علی بابا و چهل دزد در فاز آموزش
شکل (3): ماتریس درهمریختگی برای الگوریتم علی بابا و چهل دزد در فاز آزمایش
در شکل (5)، منحنی ROC برای الگوریتم علی بابا و چهل دزد در فاز آموزش و در شکل (6)، منحنی ROC برای الگوریتم علی بابا و چهل دزد در فاز آزمایش مشخص شده است. در شکل (7)، منحنی ROC برای روش پیشنهادی مبتنی بر الگوریتم علی بابا و چهل دزد نشان داده شده است. منطقه زیر منحنی (AUC) اندازهگیری توانایی دستهبند برای تمایز بین کلاسها است و بهعنوان منحنی ROC استفاده میشود. هر چه AUC بالاتر باشد، عملکرد مدل در تشخیص کلاسهای مثبت و منفی بهتر است؛ بنابراین طبق مطالب بیان شده، در منحنی ROC، مقدار بالاتر X نشاندهنده تعداد بیشتری از تشخیصهای مثبت کاذب نسبت به نقاط منفی حقیقی است. درحالیکه مقدار محور Y بالاتر نشاندهنده تعداد بیشتری از تشخیصهای مثبت حقیقی نسبت به نقاط منفی کاذب است. با مقایسه نتایج سه شکل میتوان دریافت که روش پیشنهادی که از ترکیب شبکه عصبی پرسپترون چند لایه و الگوریتم علی بابا و چهل دزد استفاده کرده است، نتایج ROC بالاتری را کسب نموده است. در این حالت، به این معنی است که روش پیشنهادی مبتنی بر الگوریتم علی بابا و چهل دزد کلاس نمونه را به درستی پیشبینی کرده است.
شکل (4): ماتریس درهمریختگی برای روش پیشنهادی مبتنی بر الگوریتم علی بابا و چهل دزد
شکل (5): منحنی ROC برای الگوریتم علی بابا و چهل دزد در فاز آموزش
شکل (6): منحنی ROC برای الگوریتم علی بابا و چهل دزد در فاز آزمایش
شکل (7): منحنی ROC برای روش پیشنهادی مبتنی بر الگوریتم علی بابا و چهل دزد
در جدول (2) نتایج از نظر معیار دقت با روشهای ترکیبی شبکه عصبی و الگوریتمهای فراابتکاری مقایسه میشود. دقت روش پیشنهادی که از ترکیب شبکه عصبی پرسپترون چند لایه و الگوریتم علی بابا و چهل دزد است، با دو رویکرد موجود در (Jalil و همکاران، 2022) مقایسه میشود. رویکرد موجود در (Jalil و همکاران، 2022) از الگوریتم پنگوئن امپراتور و الگوریتم ازدحام سالپ، برای بهینهسازی مدل آموزش دیده پیادهسازی شدهاند.
جدول (2): مقایسه از نظر دقت با روشهای ترکیبی الگوریتمهای فراابتکاری و شبکه عصبی
روش | دقت (درصد) |
EPO – ANN (Jalil و همکاران، 2022) | 94.09 |
SSA – ANN (Jalil و همکاران، 2022) | 93.98 |
MLP- AFT (روش پیشنهادی) | 95.39 |
در جدول (3)، مقایسه نتایج روش پیشنهادی از نظر معیارهای دقت، صحت، F1_Score و AUC-ROC با الگوریتمهای یادگیری ماشین موجود در پژوهش (Vijay و همکاران، 2022) انجام شده است. شش دستهبند مختلف مانند RF، LR، SVM، KNN، AdaBoost، MP (پرسپترون چند لایه)، J48 با روش پیشنهادی مقایسه شده اند. مطابق با نتایج به دست آمده، روش پیشنهادی توانسته است معیارهای ارزیابی را نسبت به الگوریتمهای دیگر، بهبود دهد. الگوریتم علی بابا و چهل دزد دارای چندین مزیت متمایز بر اساس اصل اساسی خود است که باعث شده است نتایج به میزان مطلوبی بهبود یابد. برتری اول، مدل های به روز رسانی موقعیت از الگوریتم علی بابا و چهل دزد به طور موثر به افراد جمعیت کمک می کند تا هر منطقه را در فضای جستوجو اکتشاف و بهرهبرداری کنند. برتری دوم، جستجوی تصادفی که دزدان در فضای جستوجو استفاده می کنند، نه تنها تنوع جمعیت را افزایش می دهد، بلکه سرعت همگرایی را نیز تضمین می کندکه نشان دهنده تعادل کارآمد بین اکتشاف و بهره برداری است. برتری سوم، تعداد پارامترها در الگوریتم علی بابا و چهل دزد کم است، اما آنها توانایی خوبی برای بهبود قدرت و عملکرد آن دارند. برتری چهارم، بار محاسباتی الگوریتم علی بابا و چهل دزد کم است.
یکی از عیوب روش پیشنهادی، می تواند بار وارد شده به دلیل استفاده از دو الگوریتم باشد. به ویژه اینکه الگوریتم ها به صورت سری کار می کنند و الگوریتم علی بابا و چهل دزد مبتنی بر تکرار است.
جدول (3): مقایسه نتایج روش پیشنهادی از نظر معیارهای مختلف
دسته بند | Precision (%) | F1-score (%) | ROC (%) | Accuracy (%) |
LR | ۹۴.۳ | ۹۱.۵ | ۹۶.۵ | ۹۰.۴۸ |
SVM | ۹۵.۳ | ۹۰.۷ | ۹۰.۳ | ۸۹.۶۹ |
KNN | ۹۳.۴ | ۹۲.۸ | ۹۳ | ۹۱.۶۷ |
AdaBoost | ۹۰ | ۸۸ | ۹۲.۴ | ۸۶.۳۶ |
MP | ۹۵.۶ | ۹۲.۸ | ۹۷.۲ | ۹۱.۸۶ |
J48 | ۹۴.۸ | ۹۳.۸ | ۹۵.۴ | ۹۲.۹۳ |
RF | 96.4 | 95.3 | 98.6 | 94.65 |
روش پیشنهادی | ۹۵.۳۹ | ۹۵.۸۴ | ۹۸.۱۲ | ۹۵.۳۹ |
5- نتیجه گیری
با استفاده از یافتن وزن و بایاسهای شبکه عصبی از طریق الگوریتم علی بابا و چهل دزد میتوان صفحات فیشینگ را با دقت بالایی شناسایی کرد. در روش پیشنهادی برای دستهبندی و تشخیص حملات فیشینگ از شبکه عصبی پرسپترون چند لایه استفاده میشود. با داشتن مجموعهای از وزنها و مقدار بایاس شبکه عصبی پرسپترون، خروجی متناسب با دادههای ورودی و وزنها تولید میکند. وزن ها از طریق الگوریتم علی بابا و چهل دزد پیدا میشوند. تابع هدف در حالت کلی همان تابع هزینهای است که قرار است الگوریتم علی بابا و چهل دزد آن را حل کند. دستاورد الگوریتم علی بابا و چهل دزد بهعنوان متغیر، W ها (پارامترهای وزنها و بایاسها) هستند. هدف این است که الگوریتم علی بابا و چهل دزد W ها را رفتهرفته بهینه کند؛ بنابراین ورودی، W هایی هستند که الگوریتم علی بابا و چهل دزد مشخص میکند. نکته مهم، انتخاب روشی است که تابع هزینه با آن محاسبه شود که شامل 'MSE'، 'RMSE' و 'Accuracy' هستند. مجموعه داده مورد استفاده از سایت https://archive.ics.uci.edu/ml/datasets/Website+Phishing است. در این مجموعه داده، ویژگیهای مختلف مربوط به وبسایتهای قانونی و فیشی را شناسایی و ۱۳۵۳ وبسایت مختلف را از منابع مختلف جمعآوری کردهاند. نتایج روش پیشنهادی با طرح پایه از نظر دقت، صحت، F1_Score و منحنی AUC-ROC مقایسه میشوند.
هدف مطالعه آینده، شناسایی وبسایتهای مشکوک با افزودن لایههای بیشتر در شبکه عصبی و استفاده از شبکههای عصبی دقیقتر است و یک رویکرد مبتنی بر یادگیری عمیق برای شناسایی وبسایتهای فیشینگ از طریق تجزیهوتحلیل URL ارائه خواهد شد. همچنین میتوان از الگوریتمهای فراابتکاری دیگر مانند بهینهسازی اسب برای یافتن وزنهای شبکه عصبی استفاده کرد.
منابع
Abedin, N. F., Bawm, R., Sarwar, T., Saifuddin, M., Rahman, M. A., & Hossain, S. (2020). Phishing attack detection using machine learning classification techniques. In 2020 3rd International Conference on Intelligent Sustainable Systems (ICISS) (pp. 1125-1130). IEEE.
Al-Andoli, M. N., Tan, S. C., Sim, K. S., Lim, C. P., & Goh, P. Y. (2022). Parallel Deep Learning with a hybrid BP-PSO framework for feature extraction and malware classification. Applied Soft Computing, 131, 109756.
Almseidin, M., Alkasassbeh, M., Alzubi, M., & Al-Sawwa, J. (2022). Cyber-Phishing Website Detection Using Fuzzy Rule Interpolation. Cryptography, 6(2), 24.
Altaher, A. (2017). Phishing websites classification using hybrid SVM and KNN approach. International Journal of Advanced Computer Science and Applications, 8(6).
Alzubi, O. A., Alzubi, J. A., Al-Zoubi, A. M., Hassonah, M. A., & Kose, U. (2022). An efficient malware detection approach with feature weighting based on Harris Hawks optimization. Cluster Computing, 25(4), 2369-2387.
Barreiro Herrera, D. A., & Camargo Mendoza, J. E. (2022). A Systematic Review on Phishing Detection: A Perspective Beyond a High Accuracy in Phishing Detection. In International Conference on Applied Informatics (pp. 173-188). Springer, Cham.
Bhagwat, S., & Gupta, G. P. (2022). Android Malware Detection Using Hybrid Meta-heuristic Feature Selection and Ensemble Learning Techniques. In International Conference on Advances in Computing and Data Sciences (pp. 145-156). Springer, Cham.
Braik, M., Ryalat, M. H., & Al-Zoubi, H. (2022). A novel meta-heuristic algorithm for solving numerical optimization problems: Ali Baba and the forty thieves. Neural Computing and Applications, 34(1), 409-455.
Darshan, S. S., Kumara, M. A., & Jaidhar, C. D. (2016). Windows malware detection based on cuckoo sandbox generated report using machine learning algorithm. In 2016 11th International Conference on Industrial and Information Systems (ICIIS) (pp. 534-539). IEEE.
Das, S., Nippert-Eng, C., & Camp, L. J. (2022). Evaluating user susceptibility to phishing attacks. Information & Computer Security.
Dhiyanesh, B., Selvanathan, N., Kiruthiga, G., & Radha, R. (2021). Effective attribute selection and classification technique for phishing attacks detection. In 2021 5th International Conference on Electronics, Communication and Aerospace Technology (ICECA) (pp. 1-7). IEEE.
Jafar, M. T., Al-Fawa’reh, M., Barhoush, M., & Alshira’H, M. H. (2022). Enhancеd Analysis Approach to Detect Phishing Attacks During COVID-19 Crisis. Cybernetics and Information Technologies, 22(1), 60-76.
Jain, A. K., & Gupta, B. B. (2022). A survey of phishing attack techniques, defence mechanisms and open research challenges. Enterprise Information Systems, 16(4), 527-565.
Jalil, S., Usman, M., & Fong, A. (2022). Highly accurate phishing URL detection based on machine learning. Journal of Ambient Intelligence and Humanized Computing, 1-19.
Kovač, A., Dunđer, I., & Seljan, S. (2022). An overview of machine learning algorithms for detecting phishing attacks on electronic messaging services. In 2022 45th Jubilee International Convention on Information, Communication and Electronic Technology (MIPRO) (pp. 954-961). IEEE.
Minocha, S., & Singh, B. (2022). A novel phishing detection system using binary modified equilibrium optimizer for feature selection. Computers & Electrical Engineering, 98, 107689.
Palša, J., Ádám, N., Hurtuk, J., Chovancová, E., Madoš, B., Chovanec, M., & Kocan, S. (2022). MLMD—A Malware-Detecting Antivirus Tool Based on the XGBoost Machine Learning Algorithm. Applied Sciences, 12(13), 6672.
Ripa, S. P., Islam, F., & Arifuzzaman, M. (2021). The emergence threat of phishing attack and the detection techniques using machine learning models. In 2021 International Conference on Automation, Control and Mechatronics for Industry 4.0 (ACMI) (pp. 1-6). IEEE.
Sabahno, M., & Safara, F. (2022). ISHO: improved spotted hyena optimization algorithm for phishing website detection. Multimedia Tools and Applications, 81(24), 34677-34696.
Stobbs, J., Issac, B., & Jacob, S. M. (2020). Phishing web page detection using optimised machine learning. In 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom) (pp. 483-490). IEEE.
Uplenchwar, S., Sawant, V., Surve, P., Deshpande, S., & Kelkar, S. (2022). Phishing Attack Detection on Text Messages Using Machine Learning Techniques. In 2022 IEEE Pune Section International Conference (PuneCon) (pp. 1-5). IEEE.
Vijay, J. S., Kulkarni, K., & Arya, A. (2022). Metaheuristic Optimization of Neural Networks for Phishing Detection. In 2022 3rd International Conference for Emerging Technology (INCET) (pp. 1-5). IEEE.
Zhang, X., Shi, D., Zhang, H., Liu, W., & Li, R. (2018). Efficient detection of phishing attacks with hybrid neural networks. In 2018 IEEE 18th International Conference on Communication Technology (ICCT) (pp. 844-848). IEEE.
Zhu, E., Yuan, Q., Chen, Z., Li, X., & Fang, X. (2022). CCBLA: a Lightweight Phishing Detection Model Based on CNN, BiLSTM, and Attention Mechanism. Cognitive Computation, 1-14.
[1] Phishing
[2] America Online Network (Aol)
[3] Uniform Resource Locator
[4] Phishing Attack Detection System For Text Messages
[5] Genetic Algorithm
[6] Gravitational Search Algorithm
[7] Correlated Genetic Gravitational Search Algorithm
[8] Backpropagation
[9] Elephant Herding Optimization
[10] Tree-Structured Parzen Estimator
[11] Autoencoder
[12] Actual Value
[13] Predicted Value
[14] Area Under Curve
[15] Receiver Operating Characteristic
[16] Tracking Distance
[17] Perception Potential