Design and Implementation of a Surveillance Security System Based on YOLO Algorithm and IoT Technology on Mobile Data Network
Subject Areas : Electronic EngineeringMohamadreza Masaeli 1 , Sayed Mohammadali Zanjani 2
1 - Department of Electrical Engineering, Najafabad Branch, Islamic Azad University, Najafabad, Iran
2 - Department of Electrical Engineering, Najafabad Branch, Islamic Azad University, Najafabad, Iran
Keywords: Human activity recognition system (HAR), Machine vision, Violence prevention, Exporting and quantization, YOLO algorithm,
Abstract :
The design and implementation of a surveillance security system based on the YOLO algorithm and Internet of Things (IoT) technology has significant advantages in terms of security, efficiency, scalability, rapid response, and reliability, compared to traditional methods. This paper discusses the aspects of creating a novel security system that activates an alert by detecting five categories: human, human head, gun, knife, and fall detection. The system is monitored online and can connect to the internet via a cellular data network at any location to upload images to the management panel and send a report to the user if threats are detected. The YOLOv8 algorithm is used for object training to take advantage of its user-friendly command line interface, object detection support, sample segmentation, and image classification capabilities. To increase processing speed while maintaining accuracy, the optimized model is deployed on the Raspberry Pi 4th generation board. It is clear that optimizing processing speed and using quantization techniques lead to reduced energy consumption (green energy system) and reduced operational costs of the system. To improve the speed of the model in the object detection process, the techniques of exporting, quantizing the training weights, and increasing the processor frequency (overclocking) are used. A comparison of the newly exported weights with the original training weights in terms of accuracy and speed shows that the two techniques of exporting and quantization lead to an increase in processing speed at the cost of a decrease in detection accuracy.Finally, in the training model with the proposed improvement methods, an average accuracy of mAP ≅ 0.67 with a frame rate of FPS ≅ 4.3 can be achieved.
[1] K. Y. Loh and S. C. Reddy, “Understanding and preventing computer vision syndrome,” Malaysian Family Physician, vol. 3, no. 3. Academy of Family Physicians of Malaysia, p. 128, 2008. Accessed: May 17, 2024. [Online]. Available: /pmc/articles/PMC4170366/
[2] R. Hebbalaguppe, “A computer vision based approach for reducing false alarms caused by spiders and cobwebs in surveillance camera networks,” 2014.
[3] W. Aitfares, A. Kobbane, and A. Kriouile, Suspicious behavior detection of people by monitoring camera, vol. 0. pp. 113–117. doi: 10.1109/ICMCS.2016.7905601.
[4] W. E. I. B. W. N. Afandi and N. M. Isa, “Object Detection: Harmful Weapons Detection Using YOLOv4,” IEEE Symp. Wirel. Technol. Appl. ISWTA, vol. 2021-August, pp. 63–70, 2021, doi: 10.1109/ISWTA52208.2021.9587423.
[5] L. Zhang, L. Lin, X. Liang, and K. He, “Is faster R-CNN doing well for pedestrian detection?,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9906 LNCS, pp. 443–457, 2016, doi: 10.1007/978-3-319-46475-6_28/TABLES/5.
[6] J. Li, X. Liang, S. Shen, T. Xu, J. Feng, and S. Yan, “Scale-Aware Fast R-CNN for Pedestrian Detection,” IEEE Trans. Multimed., vol. 20, no. 4, pp. 985–996, Apr. 2018, doi: 10.1109/TMM.2017.2759508.
[7] S. Zhang, R. Benenson, and B. Schiele, “Filtered Channel Features for Pedestrian Detection”, doi: 10.48550/arXiv.1501.05759.
[8] S. Zhang, R. Benenson, M. Omran, J. Hosang, and B. Schiele, “How far are we from solving pedestrian detection?,” in Proceedings of the iEEE conference on computer vision and pattern recognition, 2016, pp. 1259–1267. doi: 10.48550/arXiv.1602.01237.
[9] J. Hosang, M. Omran, R. Benenson, and B. Schiele, “Taking a Deeper Look at Pedestrians.” pp. 4073–4082, 2015. doi: 10.48550/arXiv.1501.05790.
[10] P. Dollar, Z. Tu, P. Perona, and S. Belongie, “Integral Channel Features,” in Procedings of the British Machine Vision Conference 2009, British Machine Vision Association, 2009, pp. 91.1-91.11. doi: 10.5244/C.23.91.
[11] P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids for object detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 8, pp. 1532–1545, 2014, doi: 10.1109/TPAMI.2014.2300479.
[12] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection: A benchmark,” pp. 304–311, Mar. 2010, doi: 10.1109/CVPR.2009.5206631.
[13] M. Fabbri, G. Brasó, G. Maugeri, O. Cetintas, R. Gasparini, A. Ošep, S. Calderara, L. Leal-Taixé, and R. Cucchiara, “MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?,” Proc. IEEE Int. Conf. Comput. Vis., pp. 10829–10839, Aug. 2021, doi: 10.1109/ICCV48922.2021.01067.
[14] J. Mao, T. Xiao, Y. Jiang, and Z. Cao, “What Can Help Pedestrian Detection?” pp. 3127–3136, 2017. doi: 10.48550/arXiv.1705.02757.
[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Commun. ACM, vol. 60, no. 6, pp. 84–90, May 2017, doi: 10.1145/3065386.
[16] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” 3rd Int. Conf. Learn. Represent. ICLR 2015 - Conf. Track Proc., Sep. 2014, doi: 10.48550/arXiv.1409.1556.
[17] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition.” pp. 770–778, 2016. doi: 10.48550/arXiv.1512.03385.
[18] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos, “A unified multi-scale deep convolutional neural network for fast object detection,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9908 LNCS, pp. 354–370, 2016, doi: 10.1007/978-3-319-46493-0_22/FIGURES/8.
[19] X. Wang, T. Xiao, Y. Jiang, S. Shao, J. Sun, and C. Shen, “Repulsion Loss: Detecting Pedestrians in a Crowd.” pp. 7774–7783, 2018. doi: 10.48550/arXiv.1711.07752.
[20] R. K. Tiwari and G. K. Verma, “A Computer Vision based Framework for Visual Gun Detection Using Harris Interest Point Detector,” Procedia Comput. Sci., vol. 54, pp. 703–712, Jan. 2015, doi: 10.1016/J.PROCS.2015.06.083.
[21] H. Jain, A. Vikram, Mohana, A. Kashyap, and A. Jain, “Weapon Detection using Artificial Intelligence and Deep Learning for Security Applications,” Proc. Int. Conf. Electron. Sustain. Commun. Syst. ICESC 2020, pp. 193–198, Jul. 2020, doi: 10.1109/ICESC48915.2020.9155832.
[22] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, “SSD: Single shot multibox detector,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9905 LNCS, pp. 21–37, 2016, doi: 10.1007/978-3-319-46448-0_2/FIGURES/5.
[23] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, Jun. , Accessed: May 17, 2024. [Online]. Available: https://github.com/
[24] T. S. S. Hashmi, N. U. Haq, M. M. Fraz, and M. Shahzad, “Application of Deep Learning for Weapons Detection in Surveillance Videos,” 2021 Int. Conf. Digit. Futur. Transform. Technol. ICoDT2 2021, May 2021, doi: 10.1109/ICODT252288.2021.9441523.
[25] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection.” pp. 779–788, 2016. doi: 10.48550/arXiv.1506.02640.
[26] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” Apr. 2020, doi: 10.48550/arXiv.2004.10934.
[27] A. Singh, T. Anand, S. Sharma, and P. Singh, “IoT Based Weapons Detection System for Surveillance and Security Using YOLOV4,” Proc. 6th Int. Conf. Commun. Electron. Syst. ICCES 2021, pp. 488–493, Jul. 2021, doi: 10.1109/ICCES51350.2021.9489224.
[28] M. T. Bhatti, M. G. Khan, M. Aslam, and M. J. Fiaz, “Weapon Detection in Real-Time CCTV Videos Using Deep Learning,” IEEE Access, vol. 9, pp. 34366–34382, 2021, doi: 10.1109/ACCESS.2021.3059170.
[29] X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating Very Deep Convolutional Networks for Classification and Detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 10, pp. 1943–1955, Oct. 2016, doi: 10.1109/TPAMI.2015.2502579.
[30] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the Inception Architecture for Computer Vision.” pp. 2818–2826, 2016. doi: 10.48550/arXiv.1512.00567.
[31] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning,” Proc. AAAI Conf. Artif. Intell., vol. 31, no. 1, pp. 4278–4284, Feb. 2017, doi: 10.1609/aaai.v31i1.11231.
[32] S. Barratt and R. Sharma, “A Note on the Inception Score,” Jan. 2018, doi: 10.48550/arXiv.1801.01973.
[33] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” Apr. 2017, doi: 10.48550/arXiv.1704.04861.
[34] Y. Harjoseputro, I. P. Yuda, and K. P. Danukusumo, “MobileNets: Efficient Convolutional Neural Network for Identification of Protected Birds,” Int. J. Adv. Sci. Eng. Inf. Technol., vol. 10, no. 6, pp. 2290–2296, Dec. 2020, doi: 10.18517/ijaseit.10.6.10948.
[35] İ. Karakaya, I. Şafak, O. Öztürk, M. Bal, and Y. E. Esin, “Gun Detection with Faster R-CNN in X-Ray Images,” in 2020 28th Signal Processing and Communications Applications Conference (SIU), IEEE, Oct. 2020, pp. 1–4. doi: 10.1109/SIU49456.2020.9302457.
[36] J. Lim, M. I. Al Jobayer, V. M. Baskaran, J. M. Lim, K. Wong, and J. See, “Gun detection in surveillance videos using deep neural networks,” 2019 Asia-Pacific Signal Inf. Process. Assoc. Annu. Summit Conf. APSIPA ASC 2019, pp. 1998–2002, Nov. 2019, doi: 10.1109/APSIPAASC47483.2019.9023182.
[37] S. Shao, Z. Zhao, B. Li, T. Xiao, G. Yu, X. Zhang, and J. Sun, “CrowdHuman: A Benchmark for Detecting Human in a Crowd,” Apr. 2018, doi: 10.48550/arXiv.1805.00123.
[38] N. Yu and J. Lv, “Human body posture recognition algorithm for still images,” J. Eng., vol. 2020, no. 13, pp. 322–325, 2020, doi: 10.1049/joe.2019.1146.
[39] G. Santos, P. Endo, K. Monteiro, E. Rocha, I. Silva, and T. Lynn, “Accelerometer-Based Human Fall Detection Using Convolutional Neural Networks,” Sensors, vol. 19, no. 7, p. 1644, Apr. 2019, doi: 10.3390/s19071644.
[40] B. LUO and L. U. O. Bo, “Human Fall Detection for Smart Home Caring using Yolo Networks,” Int. J. Adv. Comput. Sci. Appl., vol. 14, no. 4, p. 2023, 2023, doi: 10.14569/IJACSA.2023.0140409.
[41] R. Girshick, F. Iandola, T. Darrell, and J. Malik, “Deformable part models are convolutional neural networks,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015, pp. 437–446. doi: 10.48550/arXiv.1409.5403.
[42] R. Padilla, W. L. Passos, T. L. B. Dias, S. L. Netto, and E. A. B. Da Silva, “A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit,” Electron. 2021, Vol. 10, Page 279, vol. 10, no. 3, p. 279, Jan. 2021, doi: 10.3390/ELECTRONICS10030279.
[43] P. Henderson and V. Ferrari, “End-to-End Training of Object Class Detectors for Mean Average Precision,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 10115 LNCS, pp. 198–213, 2017, doi: 10.1007/978-3-319-54193-8_13.
[44] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (VOC) challenge,” Int. J. Comput. Vis., vol. 88, no. 2, pp. 303–338, Jun. 2010, doi: 10.1007/S11263-009-0275-4/METRICS.
[45] E. Bisong, “Building Machine Learning and Deep Learning Models on Google Cloud Platform,” Build. Mach. Learn. Deep Learn. Model. Google Cloud Platf., 2019, doi: 10.1007/978-1-4842-4470-8.
[46] H. K. Jabbar and R. Z. Khan, “Methods to Avoid Over-Fitting and Under-Fitting in Supervised Machine Learning (Comparative Study),” in Computer Science, Communication and Instrumentation Devices, Singapore: Research Publishing Services, 2014, pp. 163–172. doi: 10.3850/978-981-09-5247-1_017.
[47] K. Raza, H. Song, and S. Hong, “Fast and Accurate Fish Detection Design with Improved YOLO-v3 Model and Transfer Learning,” Artic. Int. J. Adv. Comput. Sci. Appl., vol. 11, no. 2, 2020, doi: 10.14569/IJACSA.2020.0110202.
محمدرضا مسائلی، سید محمدعلی زنجانی |
Technovations of Electrical Engineering in Green Energy System |
|
Research Article (2024) 4(1):1-18
Design and Implementation of a Surveillance Security System Based on YOLO Algorithm and IoT Technology on Mobile Data Network
Mohamadreza Masaeli1,2, M.Sc Student, Sayed Mohammadali Zanjani1,2, Assistant Professor
1 Department of Electrical Engineering, Najafabad Branch, Islamic Azad University, Najafabad, Iran
2 Smart Microgrid Research Center, Najafabad Branch, Islamic Azad University, Najafabad, Iran
Abstract:
The design and implementation of a surveillance security system based on the YOLO algorithm and Internet of Things (IoT) technology has significant advantages in terms of security, efficiency, scalability, rapid response, and reliability, compared to traditional methods. This paper discusses the aspects of creating a novel security system that activates an alert by detecting five categories: human, human head, gun, knife, and fall detection. The system is monitored online and can connect to the internet via a cellular data network at any location to upload images to the management panel and send a report to the user if threats are detected. The YOLOv8 algorithm is used for object training to take advantage of its user-friendly command line interface, object detection support, sample segmentation, and image classification capabilities. To increase processing speed while maintaining accuracy, the optimized model is deployed on the Raspberry Pi 4th generation board. It is clear that optimizing processing speed and using quantization techniques lead to reduced energy consumption (green energy system) and reduced operational costs of the system. To improve the speed of the model in the object detection process, the techniques of exporting, quantizing the training weights, and increasing the processor frequency (overclocking) are used. A comparison of the newly exported weights with the original training weights in terms of accuracy and speed shows that the two techniques of exporting and quantization lead to an increase in processing speed at the cost of a decrease in detection accuracy.Finally, in the training model with the proposed improvement methods, an average accuracy of mAP ≅ 0.67 with a frame rate of FPS ≅ 4.3 can be achieved.
Keywords: Human activity recognition system (HAR), Machine vision, Violence prevention, Exporting and quantization, YOLO algorithm.
Received: 23 January 2024
Revised: 10 March 2024
Accepted: 22 April 2024
Corresponding Author: Dr. Sayed Mohammadali Zanjani, sma_zanjani@pel.iaun.ac.ir
DOI: 10.30486/TEEGES.2025.904775
| فناوریهای نوین مهندسی برق در سیستم انرژی سبز |
..مقاله پژوهشی...
طراحی و پیادهسازی سامانه امنیتی نظارتی مبتنی بر الگوریتم YOLO و فناوری اینترنت اشیاء برپایه شبکه داده همراه
محمدرضا مسائلی1،2، دانشجوی کارشناسیارشد، سید محمدعلی زنجانی1،2، استادیار
۱- دانشکده مهندسي برق، واحد نجفآباد، دانشگاه آزاد اسلامی، نجفآباد، ايران
۲- مرکز تحقیقات ریزشبکههای هوشمند، واحد نجفآباد، دانشگاه آزاد اسلامی، نجفآباد، ایران
چکیده: افزایش چشمگیر امنیت، بهرهوری مقیاسپذیری، پاسخگویی سریع و قابلیت اطمینان از مزایای طراحی و پیادهسازی سامانه امنیتی نظارتی مبتنی بر الگوریتم YOLO و فناوری اینترنت اشیا، در مقایسه با روشهای سنتی است. در این مقاله، به جنبههای ایجاد یک سامانه امنیتی نوین پرداخته میشود که با تشخیص پنج رده شامل انسان، سر انسان، تفنگ، چاقو و تشخیص سقوط، هشدار را فعال میکند. نظارت بر عملکرد سامانه، بهصورت برخط است. این سامانه در هر نقطه به کمک شبکه داده تلفن همراه، قابلیت اتصال به اینترنت را دارد تا در صورت شناسایی تهدیدات، تصاویر را در پنل مدیریتی بارگذاری و گزارش آن را به کاربر ارسال کند. برای تعلیم اشیاء از الگوریتم YOLOv8 استفاده شده است تا از مزایایی مانند رابط خط فرمان کاربرپسند، پشتیبانی آن از شناسایی اشیاء، تقسیمبندی نمونه و طبقهبندی تصاویر بهره گیرد. برای افزایش سرعت پردازش، ضمن حفظ دقت، مدل بهینهسازیشده در بورد رزبریپای نسل چهارم استفاده شده است. واضح است که بهینهسازی سرعت پردازش و استفاده از تکنیکهای کمّیسازی منجر به کاهش مصرف انرژی (سامانه انرژی سبز) و کاهش هزینههای عملیاتی سامانه میشود. بهمنظور بهبود سرعت مدل در فرایند تشخیص اشیاء، از تکنیک صادرکردن، کمّیسازی وزنهای تعلیمی و افزایش فرکانس پردازنده (اورکلاک) استفاده میشود. مقایسه وزنهای صادرشده جدید با وزن اصلی تعلیمی، در شاخص دقت و سرعت، بیانگر آن است که دو تکنیک صادرکردن و کمّیسازی، منجر به افزایش سرعت پردازش، بهازای کاهش دقت در تشخیص میشود. درنهایت، در مدل تعلیمی با روشهای بهبود مطرح شده میتوان بهدقت متوسط mAP ≅ 0.67 با تعداد قابِ تصویر در ثانیه FPS ≅ 4.3 دستیافت.
واژههای کلیدی:
سامانه تشخیص فعالیتهای انسانی HAR، بینایی ماشین، مقابله با خشونت، صادرکردن و کمّیسازی، الگوریتم YOLO.
تاریخ ارسال مقاله: 03/11/1402
تاریخ بازنگری مقاله: 20/12/1402
تاریخ پذیرش مقاله: ۰۳/02/1403
نویسندهی مسئول: دکتر سید محمدعلی زنجانی،sma_zanjani@pel.iaun.ac.ir
DOI: 10.30486/TEEGES.2025.904775
۱- مقدمه
اهمیت طراحی و پیادهسازی سامانه امنیتی و نظارتی مبتنی بر الگوریتم YOLO و فناوری اینترنت اشیا بر پایه شبکه داده همراه، به دلیل افزایش چشمگیر امنیت، راندمان و قابلیت اطمینان در مقایسه با روشهای سنتی است. تشخیص و هشدار خودکار تهدیدات بدون نیاز به عامل انسانی، کاهش هزینه نسبت به سامانههای امنیتی سنتی، مقیاسپذیری (قابلیت گسترش و پیادهسازی در سطوح مختلف)، دسترسی آسان (نظارت و کنترل از راه دور از طریق تلفن همراه)، پاسخگویی سریع (سرعت بالا در تشخیص و هشدار تهدیدات) و قابلیت اطمینان (دقت بالا در تشخیص و کاهش خطاهای انسانی) از مزایای متعدد سامانه پیشنهادی است. لازم به ذکر است که الگوریتم YOLO به دلیل سرعت بالا در پردازش تصاویر و دقت قابلقبول در تشخیص اشیاء، انتخابی، برای سامانههای امنیتی و نظارتی مبتنی بر اینترنت اشیاء، ایدهآل است.
در دهه گذشته، پیشرفتهای چشمگیری در حوزه هوش مصنوعی، تأثیرات عمیقی بر صنایع و سامانهها در برداشته است. سامانههای حاضر با ترکیب قابلیتهای تشخیص اشیاء و تعاملات برخط، این امکان را میدهند تا سریع و مؤثر، با تهدیدات امنیتی مقابله شود و با بهرهگیری از دوربینهای نظارتی و هوش مصنوعی، تحرکات و برخوردهای مخاطرهآمیز، در محدوده دید دوربین، شناسایی شوند. بینایی ماشین در سامانه دوربینهای مداربسته، ایده افزودن لایهای از هوش مصنوعی به سامانه نظارتی است که به کاربران این امکان را میدهد تا از تصاویر دوربینهای نظارتی خود، بهره بیشتری ببرند. برخی از سامانههای نظارتی، دارای یک تراشه هوش مصنوعی هستند که به آنها قدرت پردازشی میدهد تا عملکرد عناصر مختلف را بهبود بخشد؛ ازجمله میتوان به تشخیص اشیاء، شمارش افراد، تمایز بین انسان و حیوانات اشاره نمود. برای دوربینهای مداربسته که تنها بر اساس حرکت اجسام هشدار میدهند، احتمال اخطارهای غیرواقعی وجود دارد، ضمن آن که نیاز به نظارت مداوم توسط پرسنل امنیتی، میتواند منجر به ایجاد مشکلات چشمی و علائمی همچون قرمزی و خشکی چشم، دیدِ مات و دیدِ دوتایی شود [۱]. همچنین مطالعات نشان دادهاند که حتی وجود تارهای عنکبوت در مقابل دوربینهای نظارتی میتواند باعث بروز هشدارهایی نادرستی شود [۲] و یا در [۳] برای تشخیص یک تهدید امنیتی در یک مکان خاص از روش شناسایی افراد مشکوک (بهصورت بیکار) در محیط پرداخته است که از دقت کافی برخوردار نمیباشد؛ لذا میتوان از کاربردهایی مانند سامانههای مبتنی بر هوش مصنوعی در سامانههای دوربینهای مداربسته استفاده کرد که بهوسیله تشخیص اشیاء تهدیدآمیز، راهکاری برای دوربینهای مداربسته ارائه میدهند تا امنیت را به یک سطح جدید برسانند و عاملی در جهت کاهش جرم و برخوردهای خشونتآمیز باشند [۴-۷].
تنها ایراد این سامانهِ نظارتی مبتنی بر هوش مصنوعی، در محدود بودن تعداد اشیاء قابلتشخیص است که نیاز است در هنگام تعلیم، بسته به هدف موردنظر، پایگاه تصاویر ساماندهی شود [۱۰-۷]. تشخیص افراد در تصاویر دوربینهای نظارتی یکی از مهمترین عناصر از دید رایانه محسوب میشود و در سالهای اخیر توجه بیشتری به خود جلب کرده است [۱۳-۱۰]. سامانهای که قادر به تشخیص انسان است، نقش اساسی در برنامههایی از جمله خودروهای خودران، نظارت هوش مصنوعی، رباتیک و تعامل پیشرفته انسان و ماشین ایفا میکند [۱۴]. با پیشرفت و گسترش شبکههای عصبی پیچشی CNNs1 [۱۵,16,17] تشخیصدهندههای مدرن انسان، عملکرد قابلتوجهی در تشخیص انسان به دست آوردهاند [۵,۱۸,۱۹].
سامانههای امنیتی، نظارتی و مراقبتی مبتنی بر هوش مصنوعی، میتوانند بهصورت خودکار و بدون نیاز به دخالت انسان، به نظارت بر محیطهای مختلف و شناسایی موارد مشکوک بپردازند. این سامانهها در اماکن تجاری و مغازهها، ساختمانهای اداری و دفاتر، مکانهای عمومی و تفریحی، حمل نقل عمومی و محیطهای خاص و حساس مانند بیمارستانها، با نظارت بر ورود و خروج افراد، تشخیص اشیاء خطرناک و مراقبت از امنیت عمومی میتوانند مفید باشند. از چالشهای تشخیص اشیاء توسط دوربینهای نظارتی به زاویه اشیاء، فاصله اشیاء تا دوربین نظارتی، انسداد و شرایط نور محیطی میتوان اشاره کرد. شرایط نور محیطی، زاویه مختلف اشکال و فاصله از عوامل مهم در تشخیص اشیاء است. از دیگر چالشهای اساسی در تشخیص اشیاء میتوان به انسداد اشیاء از دید دوربین نظارتی اشاره داشت. به عبارتی تصویر کامل یک شی، در دید دوربین نظارتی، قابل رویت نباشد [۲۰].
هدف از این مقاله، طراحی یک سامانه نظارتی و امنیتی بر پایه شبکه داده همراه به کمک الگوریتم YOLO است؛ لذا در بخش دوم، کارهای انجام شده قبلی در زمینه روشهای تشخیص اشیاء، روشهای رگرسیون و ردهبندی و نیز الگوریتم YOLO معرفی شدهاند. معیارهای ارزیابی و آمادهسازی دادههای تصاویر تعلیمی و سختافزار پردازشی از اجزای مهم شبکه پیشنهادی میباشند که در بخش سوم بررسی شدهاند. در بخش چهارم، پیکرهبندی پارامترها و ارزیابی عملکرد آنها همراه با پیادهسازی سختافزاری سامانه، بررسی شدهاند. در نهایت، بخش پنجم به نتیجهگیری نتایج حاصل از پیادهسازی سامانه نظارتی و امنیتی بر پایه شبکه داده همراه به کمک الگوریتم YOLO میپردازد و سامانه و تکنیکهای استفاده شده در جهت حفظ دقت و سرعت در فرایند تعلیم شبکه ارزیابی میشوند.
۲- کارهای مرتبط انجام شده
توسعه سامانههای تشخیص خودکار سلاح در زمان واقعی بادقت و عملکرد بالا راهحلی امیدوارکننده برای پیشگیری از تهدیدات سلاحها در مکانهای عمومی هستند. از نتایج [۲۱] باتوجهبه نتیجه دو شبکه SSD2 و Faster RCNN3 که در [۲۲,۲۳] انجام شده است، آن است که شناسایی سلاح در الگوریتم SSD سرعت بالاتری نسبت به الگوریتم Faster RCNN دارد؛ ولی الگوریتم Faster RCNN از شبکه SSD دقت پردازشی بالاتری دارد. همچنین در مرجع [۲۴] به بررسی و ارزیابی نسخههای ۳ و ۴ الگوریتم YOLO4 بر اساس [۲۵,۲۶] در سامانه تشخیص اشیاء پرداخته شده است و چالش تهیه بانک تصاویر مناسب در خصوص تعلیم در تشخیص سلاح بررسی شده است. در [۲۷] یک سامانه امنیتی، برای شناسایی سلاح مبتنی بر اینترنت اشیاء پیادهسازی شده است که از YOLOv4 استفاده کرده است. در [۲۸] یک مدل یادگیری عمیق مبتنی بر YOLO ارائه شده است تا اسلحهها را در ویدئوهای زمان واقعی CCTV5 شناسایی کند. در این مرجع از الگوریتمهای مختلفی استفاده شده است. این الگوریتمها شامل VGG166 [۲9]، Inception-V3 [30]، Inception-ResnetV2 [32,31]، SSDMobileNetV1 [34,33]،Faster-RCNN Inception-Resnetv2 (FRIR) [35,23]، YOLOv3 و YOLOv4 است و مشخص شده است که YOLOv4 بادقت بهتر و امتیاز F1 = 91% و مقدار mAP = 91.73%7 ، عملکرد بهتری داشته است.
در [۳۶] که به سامانههای تشخیص سلاح در دوربینهای X-ray که بهوسیله شبکه عصبی Faster RCNN انجامگرفته است میتوان اشاره کرد. نقطه مشترک تمام آنها در چالش تهیه مجموعه بانک تصاویر موردنیاز برای تعلیم شبکه، اشاره شده است. در [۳۷] از مدل M2Det8 برای تحلیل دادهها از منابع مختلف استفاده کردهاند، از جمله مجموعهداده Granada که شامل ۳۰۰۰ تصویر از انواع مختلف تفنگها، مجموعهداده UCF crime که شامل ۷۲۴۷ تصویر و مجموعهداده خود مقاله که ۵۵۰۰ تصویر را شامل میشد. پژوهشگران همچنین شرایط مختلف محیطی را در طول تحلیل خود بررسی کردند. در این مطالعه، از دو مجموعهداده استفاده شد که مدل اول تنها بر مجموعهداده Granada تکیه کرده و مدل دوم هر دو مجموعهداده Granada و دادههای خود مقاله را ترکیب کرد. نتایج، بیانگر دقت بالاتر مدل دوم به دلیل استفاده از تصاویر باقدرت تفکیک9 پایین و بالا است. با وجود این چالشها و به دلیل افزایش جُرم در بیشتر نقاط جهان، نظارت امنیتی بهمراتب پر اهمیت بوده و نیاز است تا یک سامانه مبتنی بر بینایی ماشین در شناسایی تهدیدات در زمان واقعی طراحی شود.
هدف اصلی، پیادهسازی یک سامانه امنیتی، نظارتی، مراقبتی و محافظتی است که با استفاده از الگوریتم YOLO به تشخیص تهدید بهمنظور افزایش امنیت استفاده شود. از دیگر جنبههای این پژوهش در سامانه تشخیص انسان میباشد که یک کار مهم برای انواع کاربردهای نظارتی از جمله تشخیص اقدامات غیرعادی و نفوذ به محدوده است. به طور مثال در مرجع [۳۸] مشاهده میشود که هدف محققین در افزایش حدود تشخیص انسان است؛ به عبارتی تمرکز آنان یافتن راهحلی جهت تشخیص انسان در مکانهای شلوغ بوده است.
از دیگر تحقیقات انجام شده در سامانههای تشخیص فعالیت انسان در زمان واقعی، HAR10 میباشد که یک زمینه تحقیقاتی در هوش مصنوعی است [۳۹]. استفاده از فرایند تشخیص فعالیت HAR دارای کاربردهای گستردهای در زمینههای مختلف از جمله موضوع امنیت برای شناسایی فعالیتهای مشکوک مانند سرقت، خشونت، مراقبت بهداشتی به جهت نظارت بر سلامت افراد و شناسایی اختلالات حرکتی و تشخیص سقوط انسان و انجام فعالیتهای ورزشی و یا ایجاد بازیهای تعاملی میتوان اشاره داشت [۴۰]. فرایند HAR در حوزه مراقبت پزشکی به جهت تشخیص سقوط انسان با استفاده از فنون یادگیری ماشین بر روی دوربینهای نظارتی استفاده میشود. این روش میتواند برای نظارت و تشخیص فعالیت در خانه هوشمند نیز استفاده شود. درنهایت، فرایند یادگیری ماشین از بررسی رفتار انسان در تشخیص سقوط برای کمک به افراد مسن از نگاه فوریتهای پزشکی سریعتر و پیشگیری از آسیبهای احتمالی و جدی میتواند کمک شایانی به عمل آورد [۴۱]؛ لذا در راهبرد این پژوهش نیز از فرایند HAR استفاده شده است. همچنین از این فناوری میتوان در بیمارستانها و مراکز مراقبت از سالمندان بهره برد و نیروی انسانی و هزینههای پرستاری و مراقبتی را کاهش داد.
۱-۲- انواع روشهای تشخیص اشیاء
هدف سامانههای تشخیص اشیاء، شناسایی شی موردنظر در قاب تصاویر است و در صورت وجود، سامانه تشخیصی باید رده (کلاس) و جعبه شی مربوطه را شناسایی و نمایش دهد؛ لذا سامانههای تشخیص اشیاء معمولاً با دو روشِ دومرحلهای و تکمرحلهای عمل میکنند. در روش دومرحلهای (مبتنی بر ناحیه)، ابتدا احتمال وجود شی در تصویر و احتمال استخراج آن بررسی میشود و در مرحله دوم در مورد ناحیه موردنظر تصمیمگیری میشود. در این روش ابتدا نواحی هدف، استخراج شده و سپس در ناحیه عملیات، تشخیص صورت میگیرد. از ایرادات این نوع از شبکهها، تأخیر پردازش زمان واقعی است؛ ولی در ازای آن دقت قابلقبولی ارائه میدهند. از معروفترین این الگوریتمهای تشخیصی میتوان به R-CNN،Fast R-CNN،Faster R-CNN اشاره کرد. این در حالی است که روش تکمرحلهای بهطورکلی11 به تصاویر مینگرد یا به عبارتی برای شناسایی اشیاء با نگاه رگرسیون12 به موضوع مینگرد و از سرعت بالاتری برای تشخیص اشیاء برخوردار است. ایده تشخیص اشیاء به روش تکمرحلهای از نحوه تشخیص اشیاء توسط انسان شکلگرفته است که باعث بهوجودآمدن الگوریتم YOLO شده است.
۲-۲- الگوریتم YOLO
الگوریتم YOLO باهدف ارائه روشی، مشابه کارکرد سامانه بینایی انسان طراحی شده است که از آن برای پیادهسازی بخش نظارتی برای تشخیص اشیاء خاص استفاده میشود. شبکه YOLO شامل یک شبکه عصبی کانولوشن است که بسته به نسخه و مدل از تعداد لایههای کانولوشنی متعددی برای استخراج و پیشبینی احتمال وجود شی و تعیین مختصات اشیاء استفاده میکند. شبکه عصبی، شبکهای از نورونها یا گرهها است که مانند مغز انسان عمل میکند. این شبکه با هر ورودی یاد میگیرد و سپس خطا را با خروجی واقعی مقایسه میکند و اعتبارسنجی مینمایید [۳۷]. از مزایای الگوریتم YOLO نسبت به دیگر روشهای تشخیص اشیاء مانند DPM13 [42] و شبکههای R-CNN میتوان به این موارد اشاره کرد: YOLO بسیار سریع است [۲۵] و برای پیشبینی تشخیص، بهصورت کلی به تصویر نگاه میکند؛ برخلاف فنون پنجره لغزان و روش پروپوزال، YOLO به کل تصویر نگاه میکند [۲۵]. همچنین، YOLO تعمیمپذیری بالایی دارد. به عبارتی زمانی که تصاویر به شبکه آموزش داده میشوند و سپس شبکه آموزشدیده روی دادههای ورودی آزمایش میشود، شبکه YOLO بافاصله زیادی بهتر از شبکههایی مانند DPM و R-CNN عمل میکند [۲۵].
۳-۲- رگرسیون و ردهبندی14
رگرسیون و ردهبندی دو روش متفاوت در آمار و یادگیری ماشین هستند که برای مدلسازی و پیشبینی اطلاعات از دادهها استفاده میشوند. هدف رگرسیون، تخمین یک تابع برای رسیدن به خروجی با مقدار واقعی از روی دادههای ورودی است به عبارتی خروجی مدل همواره دارای یک مقدار پیوسته است؛ اما در ردهبندی، هدف تخمین یک تابع برای رسیدن از ورودی به خروجی مطلوب بهصورت گسسته است. الگوریتم YOLO یکی از نوآوریهای مهم در زمینه تشخیص اشیاء است؛ این الگوریتم تمام اطلاعات لازم برای تشخیص اشیاء را به طور همزمان از تصویر استخراج میکند. این شبکه عصبی به بیان اشیاء موجود در تصویر و ترسیم جعبه احتمالی اطراف اشیاء و همچنین پیشبینی احتمال وجود هر رده برای هر شی میپردازد. علت آنکه YOLO یک مسئله رگرسیون در نظر گرفته میشود، آن است که YOLO تنها به تعیین موقعیت اشیاء نمیپردازد؛ بلکه اطلاعاتی مانند اندازه جعبه مرزی15 و احتمال وجود هر رده نیز بهصورت مستقیم پیشبینی میشود؛ لذا این اطلاعات بهصورت عددی و پیوسته مدل میشوند که با استفاده از آن میتوان تغییرات دقیق در مختصات و ویژگیهای مربوط به تشخیص اشیاء را پیشبینی کرد.
۳- روش پیشنهادی در تشخیص اشیاء اختصاصی
در این مقاله، تمرکز بر یک الگوریتم تشخیص اشیاء اختصاصی در جهت پیادهسازی یک سامانه امنیتی، نظارتی و مراقبتی برای تشخیص انسان، سلاح گرم و سرد و شناسایی سقوط انسان بروی زمین بر پایه بینایی ماشین و فناوری اینترنت اشیاء بر پایه شبکه داده همراه است که به کاربر این اجازه داده میشود تا سامانه را در هر زمان و مکانی بدون نیاز به شبکه WiFi فعال نماید و از آن در راستای ایجاد یک سامانه امنیتی مانند دزدگیر با نظارت دائم مانند یک نگهبان و مراقبتی در برابر انواع تهدیدات جانی و برخوردهای خشونتآمیز عمل نماید. مدل انتخابی، استفاده از YOLOv8 [43] است این نسخه دقت بهتری نسب به مدلهای قبلی YOLO دارد و در محیط PyThorch تعلیمیافته است. از مزایای این نسخه در رابط خط فرمان کاربرپسند، پشتیبانی از شناسایی اشیاء، تقسیمبندی نمونه و طبقهبندی تصاویر است. همچنین از تغییرات اساسی این نسخه، تغییر در معماری پردازشی میباشد [۴۴]. از جمله تغییرات در این نسخه، شناسایی جعبه کادر دور اشیاء تشخیصی است که برخلاف سایر نسخهها، جعبه اشیاء، بدون لنگر16 میباشد. شناسایی اشیاء بدون لنگر این امکان را میدهد که مدل مرکز یک شی را بهجای آفست پیشبینی کند. این تکنیک باعث افزایش کارایی این نسخه از YOLO و انعطافپذیری بهتر میشود بهنحویکه برای برنامههایی که نیاز به شناسایی اشیاء بهصورت زمان واقعی دارند، گزینه مناسبی است[۴۵]. شکل (۱) بیانگر بهبود عملکرد این نسخه از YOLO است که بر روی مجموعهداده dataset COCO نشاندادهشده است [۴۳].
در این تحقیق یک چهارچوب تشخیص تهدیدات امنیتی ارائه شده است که با تجزیهوتحلیل تصاویر دوربینهای نظارتی، امکان پایش و مراقبت از محیط موردنظر را داراست. اهداف موردنیاز ما بهعنوان عوامل تهدید شامل: انسان، سر انسان، تفنگ، چاقو و تشخیص سقوط است. هدف از تشخیص سر انسان و انسان در جهت افزایش احتمال تشخیص روی دوربین نظارتی و چالشهای انسداد در تصاویر و اِمکان درنظرگرفتن شرایط احراز هویت از روی چهره میباشد. هدف از تشخیص افتادگی نیز در مراقبت از سالمندان و افراد، در محیطهای خاص بهمنظور انجام فوریتهای پزشکی سریعتر، و هدف از شناسایی اشیاء خطرناک مانند سلاح گرم یا سرد در آشکارسازی اشیاء مخاطرهآمیز جانی در محیط و درنهایت اعلام هر کدام به کاربر میباشد.
(الف) (ب)
شکل (۱): نمایش بهبود عملکرد نسخه YOLOv8 نسبت به سایر نسخهها،
(الف) بهبود سرعت در پردازش. (ب) بهبود دقت در تشخیص اشیا.
۱-۳-معیارهای ارزیابی
از مهمترین گامهای پس از طراحی یک مدل یادگیری ماشین، ارزیابی خروجی آن بر روی مجموعهدادههای دیده نشده یا آزمایشی است. در مبحث ارزیابی در روش تشخیص اشیاء بایستی مدل تشخیصی با دو عامل classification و localization مورد ارزیابی قرار گیرد. در مبحث تشخیص اشیاء معمولاً توزیع دادههای تعلیمی هر دسته نسبت به تعداد کل دادهها نامتوازن است؛ بنابراین برای ارزیابی توانایی calssifiction در یک روش تشخیص اشیاء، معیارهای Precision و Recall مورداستفاده قرار میگیرند [۴۹-۴۶].
الف) معیار IoU17: میزان دقت localization را با مقایسه میزان رویهم قرارگرفتن جعبه مرزی مرجع و جعبه پیشگویی شده مشخص میکند. این معیار نشان میدهد که در محل پیشنهادی، آیا شی وجود دارد یا خیر؟ در حقیقت این معیار به این صورت عمل میکند که اشتراک جعبه پیشنهادی با جعبه واقعی اطراف شی را بر اجتماع آنها تقسیم میکند که اگر از میزان آستانه ازپیشتعیینشده بیشتر باشد، شی توسط مدل شناسایی میشود و اگر از حد مجاز کمتر باشد، امکان شناسایی شی در آن وجود ندارد و درنهایت در صورت وجود شی، جعبه پیشنهادی را رسم میکند. رابطه (۱) به بیان IoU میپردازد.
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
(6) |
|
mAP 0.5:0.95 | mAP 0.5 | R | P | Class Name |
۰.۵۵۱ | ۰.۸۴۳ | ۰.۷۵۵ | ۰.۸۹۲ | Head |
۰.۵۴۹ | ۰.۸۳۷ | ۰.۷۰۳ | ۰.۸۸۸ | Person |
۰.۷۱۴ | ۰.۹۲۸ | ۰.۸۵۱ | ۰.۹۱۲ | Gun |
۰.۷۶۸ | ۰.۹۴۶ | ۰.۹۰۳ | ۰.۸۸۱ | Knife |
۰.۹۶۱ | ۰.۹۹۳ | ۰.۹۷۴ | ۰.۹۷۳ | Fall |
۰.۷۰۹ | ۰.۹۱ | ۰.۸۳۷ | ۰.۹۰۹ | All |
جدول (۲): ارزیابی مدل best_float32
mAP 0.5 | R | P | Class Name | |
۰.۵۵۱ | ۰.۸۴۱ | ۰.۷۴۸ | ۰.۸۹۸ | Head |
۰.۵۴۴ | ۰.۸۳۳ | ۰.۶۹۵ | ۰.۸۹ | Person |
۰.۶۹۲ | ۰.۹۲۵ | ۰.۸۴۶ | ۰.۹۱۶ | Gun |
۰.۷۵۳ | ۰.۹۳۸ | ۰.۸۹۳ | ۰.۸۷۶ | Knife |
۰.۹۵۷ | ۰.۹۹۲ | ۰.۹۷۴ | ۰.۹۶۶ | Fall |
۰.۶۹۹ | ۰.۹۰۶ | ۰.۸۳۱ | ۰.۹۰۹ | All |
جدول (۳): ارزیابی مدل best_float16
mAP 0.5 | R | P | Class Name | |
۰.۵۴۶ | ۰.۸۴۱ | ۰.۷۴۸ | ۰.۸۹۸ | Head |
۰.۵۴۳ | ۰.۸۳۲ | ۰.۶۹۵ | ۰.۸۹ | Person |
۰.۶۹۲ | ۰.۹۲۵ | ۰.۸۴۶ | ۰.۹۱۶ | Gun |
۰.۷۵۳ | ۰.۹۳۸ | ۰.۸۹۳ | ۰.۸۷۶ | Knife |
۰.۹۵۷ | ۰.۹۹۲ | ۰.۹۷۴ | ۰.۹۶۶ | Fall |
۰.۶۹۸ | ۰.۹۰۶ | ۰.۸۳۱ | ۰.۹۰۹ | All |
جدول (۴): ارزیابی مدل best_int8
mAP 0.5:0.95 | mAP 0.5 | R | P | Class Name |
۰.۵۵۳ | ۰.۸۴۲ | ۰.۷۴۷ | ۰.۸۹۳ | Head |
۰.۵۳۸ | ۰.۸۲۶ | ۰.۶۹۳ | ۰.۸۸۱ | Person |
۰.۶۷۶ | ۰.۹۰۸ | ۰.۸۲۹ | ۰.۹۱۷ | Gun |
۰.۷۶۴ | ۰.۹۴۳ | ۰.۹۰۴ | ۰.۸۷۵ | Knife |
۰.۹۵۷ | ۰.۹۹۲ | ۰.۹۷۵ | ۰.۹۶۹ | Fall |
۰.۶۹۸ | ۰.۹۰۲ | ۰.۸۳ | ۰.۹۰۷ | All |
در نهایت در جدول (7) باتوجهبه شاخصهای ارزیابی از هر مدل، و توجه به نیاز در افزایش سرعت پردازش در ازای حفظ دقت در تشخیص اشیاء تعلیمی، مدل float32 انتخاب شد و از آن بهعنوان وزن اصلی برای پردازش استفاده کردیم. همچنین در بورد رزبریپای از تکنیک افزایش فرکانس پردازنده35 بهمنظور افزایش سرعت پردازشی، نیز بهره میبریم، هرچند این کار منجر به افزایش دمای پردازنده و مصرف توان بیشتر است. در این حالت نیاز به استفاده از یک خنککننده قوی است.
جدول (۵): ارزیابی مدل best_integer_quant
mAP 0.5:0.95 | mAP 0.5 | R | P | Class Name |
۰.۳۸۲ | ۰.۷۱۵ | ۰.۶۸۲ | ۰.۷۲۵ | Head |
۰.۴۲۸ | ۰.۷۳۷ | ۰.۶۷۱ | ۰.۷۳۵ | Person |
۰.۵۹۴ | ۰.۸۸۲ | ۰.۷۷۹ | ۰.۸۹ | Gun |
۰.۵۴۹ | ۰.۸۱۷ | ۰.۷۵۶ | ۰.۷۹۹ | Knife |
۰.۸۱۲ | ۰.۹۷۶ | ۰.۹۵۹ | ۰.۸۸۶ | Fall |
۰.۵۵۳ | ۰.۸۲۵ | ۰.۷۶۹ | ۰.۸۰۷ | All |
جدول (۶): ارزیابی مدل best_full_integer_quant
mAP 0.5:0.95 | mAP 0.5 | R | P | Class Name |
۰.۳۸۲ | ۰.۷۱۶ | ۰.۶۸۳ | ۰.۷۲۷ | Head |
۰.۴۲۶ | ۰.۷۳۶ | ۰.۶۷ | ۰.۷۳۴ | Person |
۰.۵۹ | ۰.۸۷۵ | ۰.۷۵۴ | ۰.۸۹۷ | Gun |
۰.۵۴۴ | ۰.۸۱۱ | ۰.۷۵۳ | ۰.۷۹۲ | Knife |
۰.۸۱۱ | ۰.۹۷۴ | ۰.۹۵۶ | ۰.۸۷۹ | Fall |
۰.۵۵۱ | ۰.۸۲۲ | ۰.۷۶۳ | ۰.۸۰۶ | All |
شکل (۴) بیانگر ماتریس سردرگمی36 نرمال شده است که عملکرد یک مدل طبقهبندی را نشان میدهد. هر خانه در ماتریس نشاندهنده نسبت پیشبینیهای صحیح مثبت، غلط مثبت، صحیح منفی و غلط منفی است. شکل (۵) بیانگر نمودار معیار F1 است که رابطه بین امتیاز و سطح اطمینان را برای تشخیص هر ردهبندی نشان میدهد. این نمودار از معیارهای ارزیابی شبکههای تعلیمی میباشد. بهطورکلی، هر چه سطح اطمینان بالاتر باشد، امتیاز F1 بیشتر میشود؛ زیرا مدل، اشتباه کمتری در پیشبینیها دارد.
جدول (۷): خلاصهای از عملکرد وزنهای تعلیمیافته و صادرشده در تشخیص اشیاء اختصاصی و ارزیابی سرعت پردازش در بورد رزبریپای
mAP50-95 (imgsz = 640) | Average FPS with Overclock | Average FPS | Time inference (ms) | imgsz | best وزنهای خروجی |
۰.۷۰۹ | ۲.۸≅ | ۲≅ | ۳۶۳.۷ | ۳۲۰ | YOLOv8n |
۰.۶۹۹ | ۴.۳≅ | ۳.۷≅ | ۲۴۰.۸ | ۳۲۰ | float32 |
۰.۶۹۸ | ۴.۲≅ | ۳.۷≅ | ۲۳۷.۷ | ۳۲۰ | float16 |
۰.۶۹۸ | ۴.۲≅ | ۳.۷≅ | ۲۳۹.۴ | ۳۲۰ | int8 |
۰.۵۵۳ | ۷.۱≅ | ۶.۱≅ | ۱۴۲.۳ | ۳۲۰ | integer_quant |
۰.۵۵۱ | ۷.۲≅ | ۶.۲≅ | ۱۳۶.۹ | ۳۲۰ | full_integer_quant |
۲-۴- پیادهسازی سامانه امنیتی بر پایه شبکه داده همراه
سامانه امنیتی، این امکان را دارد که نتایج پردازش الگوریتم تشخیص اشیاء را از طریق اینترنت به اطلاع کاربر خود برساند. در اینجا از ماژول سیمکارت بهعنوان مودم سیمکارتی و تلفنکننده و سامانه پیامک استفاده میشود که وقوع حادثه و تهدید را به کاربر خود گزارش میدهد. به همین منظور در بورد رزبریپای از ماژول sim800 استفاده میشود. فناوری ارتباطی این ماژول بر پایه اینترنت 2G بوده و از طریق پروتکل37 سریال به بورد رزبریپای متصل میشود. در شکل (۶) نحوه اتصال بورد، نمایشدادهشده است.
بهمنظور راهاندازی اینترنت سیمکارت در بورد رزبریپای از پروتکل نقطهبهنقطه PPP38 استفاده میشود؛ لذا باتوجهبه39 کلیه فرایند راهاندازی این پروتکل برای ایجاد ارتباط با سرور و مدیریت برخط بدون نیاز به شبکه WiFi میسر شده است. به عبارتی میتوان از طریق ارتباط سریال با ماژول سیمکارت، بورد رزبریپای را به شبکه اینترنت و سرور اختصاصی متصل نمود. نکته مهم آن است که در فرایند برقراری تماس صوتی و ارسال پیامک هشدار، هنگامی که تهدیدات امنیتی شناسایی میشوند، لازم است داده همراه غیرفعال شود تا پورت سریال که توسط پروتکل PPP مشغول بوده، آزاد شود. اینک سامانه میتواند به برقراری تماس و ارسال اعلان هشدار بپردازد و مجدداًّ اینترنت داده همراه را فعال نماید و تصاویر ذخیرهشده ناشی از تشخیص تهدیدات امنیتی را در سرور بارگذاری کند.
شکل (۴): نمودار بهنجارسازی ماتریس سردرگمی در ارزیابی مدل تعلیمی YOLOv8n
شکل (۵): نمودار F1-Confidence Curve در ارزیابی مدل تعلیمی YOLOv8n
شکل (۶): شماتیک اتصال sim800 به بورد رزبری - پای
درنهایت با استفاده از پروتکل HTTP40 و FTP41 به مدیریت سامانه و ارسال محتوا میپردازیم. در پروتکل HTTP با استفاده از متدهای GET و POST به تبادل اطلاعات بهمنظور مدیریت آنلاین سامانه پرداخته میشود. این ساختار برای کارهایی مانند مدیریت فعال/ غیرفعالکردن سامانه امنیتی، درج شمارهتلفنهای اضطراری برای ارسال پیام هشدار و برقراری تماس میباشد. FTP یا پروتکل انتقال فایل، برای جابهجایی فایلها بین رایانههای مختلف از طریق اینترنت استفاده میشود. به همین منظور، تصاویر ذخیره شده را از طریق اینترنت تلفن داده و بهواسطه استفاده از این پروتکل بر روی سرور ارسال میکنیم.
لازم است اشاره شود که توابع اتصال به اینترنت و ارسال تصاویر و برقراری تماس و ارسال پیامک هشدار در سامانه بهصورت پردازشهای چندنخی42 نوشته شده است این امر بهمنظور اجراکردن تمام زیرساختهای موردنیاز پروژه سامانه امنیتی است تا در صورت شناسایی تهدید، سامانه نظارتی در یک حلقه، درگیر نباشد. در این روش بخشهای مختلف از سامانه بهصورت چند رشته همزمان اجرا میشوند (پردازش موازی) و پردازنده با تقسیمکردن زمان پردازش بین رشتههای مختلف به مدیریت سامانه میپردازد. شکل (۷) بیانگر تصاویر بارگذاری شده توسط سامانه نظارتی در پنل مدیریتی ناشی از شناسایی اشیاء تعلیمی در دوربین نظارتی است که بهعنوان عوامل مخاطرهآمیز و تهدیدات امنیتی در سامانه اطلاعرسانی بارگذاری شده است و به جهتنمایش رویکردها در اختیار کاربر قرار گرفته است.
۵- نتیجهگیری
در این مقاله سامانه امنیتی نظارتی مبتنی بر الگوریتم YOLO و فناوری اینترنت اشیا، با ارائه مزایایی مانند افزایش چشمگیر امنیت، بهرهوری، مقیاسپذیری، پاسخگویی سریع و قابلیت اطمینان، در مقایسه با روشهای سنتی معرفی شد تا گامی نوین در ارتقای امنیت اماکن و افراد برداشته شود. این سامانه با تشخیص دقیق و سریع انسان، سر انسان، تفنگ، چاقو و سقوط، و با قابلیت نظارت برخط، اتصال به اینترنت در هر نقطه، بارگذاری تصاویر و ارسال گزارش در صورت شناسایی تهدیدات، بهعنوان یک راهکار ایدهآل برای کاربردهای مختلف امنیتی شامل شناسایی انسان و اشیاء مخاطرهآمیز، بهعنوان راهبردی مناسب در حفاظت از سالمندان مطرح میشود. مشخصات فنی این سامانه شامل استفاده از الگوریتم تشخیص YOLOv8، دقت mAP ≅ 0.67، سرعت پردازش FPS ≅ 4.3، محاسبات ممیز شناور ۳۲ بیتی، مصرف انرژی کم و هزینه عملیاتی پایین، نشاندهنده کارایی و راندمان بالای آن است. هرچند مقایسه مدلهای مختلف نشان میدهد که مدلهای کمیسازی شده (ممیز شناور ۱۶ بیتی و ۸ بیتی صحیح) با افزایش سرعت پردازش، دقت را کاهش میدهند، در نهایت، مدل float32 به دلیل حفظ تعادل بین دقت و سرعت، برای پردازش انتخاب شده است. همچنین بهمنظور افزایش نرخپردازش تصاویر نیز از تکنیک افزایش فرکانس پردازنده استفاده شد تا سرعت پردازش مدل تعلیمی در سختافزار انتخابی حداکثر شود. باتوجهبه مزایا و مشخصات فنی ذکر شده، میتوان نتیجه گرفت که سامانه امنیتی ارائه شده، یک راهکار نوین و کارآمد برای ارتقای امنیت اماکن و افراد است. این سامانه با اتکا به فناوریهای پیشرفته، قادر به تشخیص دقیق و سریع تهدیدات و ارائه هشدارهای لازم است و قابلیت پیادهسازی در محیطهای مختلف و ارتقا و توسعه را نیز دارا میباشد.
شکل (۷): تصاویر ارسالشده توسط سامانه در پنل مدیریتی
مراجع
[1] K. Y. Loh and S. C. Reddy, “Understanding and preventing computer vision syndrome,” Malaysian Family Physician, vol. 3, no. 3. Academy of Family Physicians of Malaysia, p. 128, 2008. Accessed: May 17, 2024. [Online]. Available: /pmc/articles/PMC4170366/
[2] R. Hebbalaguppe, “A computer vision based approach for reducing false alarms caused by spiders and cobwebs in surveillance camera networks,” 2014.
[3] W. Aitfares, A. Kobbane, and A. Kriouile, Suspicious behavior detection of people by monitoring camera, vol. 0. pp. 113–117. doi: 10.1109/ICMCS.2016.7905601.
[4] W. E. I. B. W. N. Afandi and N. M. Isa, “Object Detection: Harmful Weapons Detection Using YOLOv4,” IEEE Symp. Wirel. Technol. Appl. ISWTA, vol. 2021-August, pp. 63–70, 2021, doi: 10.1109/ISWTA52208.2021.9587423.
[5] L. Zhang, L. Lin, X. Liang, and K. He, “Is faster R-CNN doing well for pedestrian detection?,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9906 LNCS, pp. 443–457, 2016, doi: 10.1007/978-3-319-46475-6_28/TABLES/5.
[6] J. Li, X. Liang, S. Shen, T. Xu, J. Feng, and S. Yan, “Scale-Aware Fast R-CNN for Pedestrian Detection,” IEEE Trans. Multimed., vol. 20, no. 4, pp. 985–996, Apr. 2018, doi: 10.1109/TMM.2017.2759508.
[7] S. Zhang, R. Benenson, and B. Schiele, “Filtered Channel Features for Pedestrian Detection”, doi: 10.48550/arXiv.1501.05759.
[8] S. Zhang, R. Benenson, M. Omran, J. Hosang, and B. Schiele, “How far are we from solving pedestrian detection?,” in Proceedings of the iEEE conference on computer vision and pattern recognition, 2016, pp. 1259–1267. doi: 10.48550/arXiv.1602.01237.
[9] J. Hosang, M. Omran, R. Benenson, and B. Schiele, “Taking a Deeper Look at Pedestrians.” pp. 4073–4082, 2015. doi: 10.48550/arXiv.1501.05790.
[10] P. Dollar, Z. Tu, P. Perona, and S. Belongie, “Integral Channel Features,” in Procedings of the British Machine Vision Conference 2009, British Machine Vision Association, 2009, pp. 91.1-91.11. doi: 10.5244/C.23.91.
[11] P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids for object detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 8, pp. 1532–1545, 2014, doi: 10.1109/TPAMI.2014.2300479.
[12] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection: A benchmark,” pp. 304–311, Mar. 2010, doi: 10.1109/CVPR.2009.5206631.
[13] M. Fabbri, G. Brasó, G. Maugeri, O. Cetintas, R. Gasparini, A. Ošep, S. Calderara, L. Leal-Taixé, and R. Cucchiara, “MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?,” Proc. IEEE Int. Conf. Comput. Vis., pp. 10829–10839, Aug. 2021, doi: 10.1109/ICCV48922.2021.01067.
[14] J. Mao, T. Xiao, Y. Jiang, and Z. Cao, “What Can Help Pedestrian Detection?” pp. 3127–3136, 2017. doi: 10.48550/arXiv.1705.02757.
[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Commun. ACM, vol. 60, no. 6, pp. 84–90, May 2017, doi: 10.1145/3065386.
[16] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” 3rd Int. Conf. Learn. Represent. ICLR 2015 - Conf. Track Proc., Sep. 2014, doi: 10.48550/arXiv.1409.1556.
[17] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition.” pp. 770–778, 2016. doi: 10.48550/arXiv.1512.03385.
[18] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos, “A unified multi-scale deep convolutional neural network for fast object detection,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9908 LNCS, pp. 354–370, 2016, doi: 10.1007/978-3-319-46493-0_22/FIGURES/8.
[19] X. Wang, T. Xiao, Y. Jiang, S. Shao, J. Sun, and C. Shen, “Repulsion Loss: Detecting Pedestrians in a Crowd.” pp. 7774–7783, 2018. doi: 10.48550/arXiv.1711.07752.
[20] R. K. Tiwari and G. K. Verma, “A Computer Vision based Framework for Visual Gun Detection Using Harris Interest Point Detector,” Procedia Comput. Sci., vol. 54, pp. 703–712, Jan. 2015, doi: 10.1016/J.PROCS.2015.06.083.
[21] H. Jain, A. Vikram, Mohana, A. Kashyap, and A. Jain, “Weapon Detection using Artificial Intelligence and Deep Learning for Security Applications,” Proc. Int. Conf. Electron. Sustain. Commun. Syst. ICESC 2020, pp. 193–198, Jul. 2020, doi: 10.1109/ICESC48915.2020.9155832.
[22] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, “SSD: Single shot multibox detector,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9905 LNCS, pp. 21–37, 2016, doi: 10.1007/978-3-319-46448-0_2/FIGURES/5.
[23] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, Jun. , Accessed: May 17, 2024. [Online]. Available: https://github.com/
[24] T. S. S. Hashmi, N. U. Haq, M. M. Fraz, and M. Shahzad, “Application of Deep Learning for Weapons Detection in Surveillance Videos,” 2021 Int. Conf. Digit. Futur. Transform. Technol. ICoDT2 2021, May 2021, doi: 10.1109/ICODT252288.2021.9441523.
[25] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection.” pp. 779–788, 2016. doi: 10.48550/arXiv.1506.02640.
[26] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” Apr. 2020, doi: 10.48550/arXiv.2004.10934.
[27] A. Singh, T. Anand, S. Sharma, and P. Singh, “IoT Based Weapons Detection System for Surveillance and Security Using YOLOV4,” Proc. 6th Int. Conf. Commun. Electron. Syst. ICCES 2021, pp. 488–493, Jul. 2021, doi: 10.1109/ICCES51350.2021.9489224.
[28] M. T. Bhatti, M. G. Khan, M. Aslam, and M. J. Fiaz, “Weapon Detection in Real-Time CCTV Videos Using Deep Learning,” IEEE Access, vol. 9, pp. 34366–34382, 2021, doi: 10.1109/ACCESS.2021.3059170.
[29] X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating Very Deep Convolutional Networks for Classification and Detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 10, pp. 1943–1955, Oct. 2016, doi: 10.1109/TPAMI.2015.2502579.
[30] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the Inception Architecture for Computer Vision.” pp. 2818–2826, 2016. doi: 10.48550/arXiv.1512.00567.
[31] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning,” Proc. AAAI Conf. Artif. Intell., vol. 31, no. 1, pp. 4278–4284, Feb. 2017, doi: 10.1609/aaai.v31i1.11231.
[32] S. Barratt and R. Sharma, “A Note on the Inception Score,” Jan. 2018, doi: 10.48550/arXiv.1801.01973.
[33] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” Apr. 2017, doi: 10.48550/arXiv.1704.04861.
[34] Y. Harjoseputro, I. P. Yuda, and K. P. Danukusumo, “MobileNets: Efficient Convolutional Neural Network for Identification of Protected Birds,” Int. J. Adv. Sci. Eng. Inf. Technol., vol. 10, no. 6, pp. 2290–2296, Dec. 2020, doi: 10.18517/ijaseit.10.6.10948.
[35] İ. Karakaya, I. Şafak, O. Öztürk, M. Bal, and Y. E. Esin, “Gun Detection with Faster R-CNN in X-Ray Images,” in 2020 28th Signal Processing and Communications Applications Conference (SIU), IEEE, Oct. 2020, pp. 1–4. doi: 10.1109/SIU49456.2020.9302457.
[36] J. Lim, M. I. Al Jobayer, V. M. Baskaran, J. M. Lim, K. Wong, and J. See, “Gun detection in surveillance videos using deep neural networks,” 2019 Asia-Pacific Signal Inf. Process. Assoc. Annu. Summit Conf. APSIPA ASC 2019, pp. 1998–2002, Nov. 2019, doi: 10.1109/APSIPAASC47483.2019.9023182.
[37] S. Shao, Z. Zhao, B. Li, T. Xiao, G. Yu, X. Zhang, and J. Sun, “CrowdHuman: A Benchmark for Detecting Human in a Crowd,” Apr. 2018, doi: 10.48550/arXiv.1805.00123.
[38] N. Yu and J. Lv, “Human body posture recognition algorithm for still images,” J. Eng., vol. 2020, no. 13, pp. 322–325, 2020, doi: 10.1049/joe.2019.1146.
[39] G. Santos, P. Endo, K. Monteiro, E. Rocha, I. Silva, and T. Lynn, “Accelerometer-Based Human Fall Detection Using Convolutional Neural Networks,” Sensors, vol. 19, no. 7, p. 1644, Apr. 2019, doi: 10.3390/s19071644.
[40] B. LUO and L. U. O. Bo, “Human Fall Detection for Smart Home Caring using Yolo Networks,” Int. J. Adv. Comput. Sci. Appl., vol. 14, no. 4, p. 2023, 2023, doi: 10.14569/IJACSA.2023.0140409.
[41] R. Girshick, F. Iandola, T. Darrell, and J. Malik, “Deformable part models are convolutional neural networks,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2015, pp. 437–446. doi: 10.48550/arXiv.1409.5403.
[42] R. Padilla, W. L. Passos, T. L. B. Dias, S. L. Netto, and E. A. B. Da Silva, “A Comparative Analysis of Object Detection Metrics with a Companion Open-Source Toolkit,” Electron. 2021, Vol. 10, Page 279, vol. 10, no. 3, p. 279, Jan. 2021, doi: 10.3390/ELECTRONICS10030279.
[43] P. Henderson and V. Ferrari, “End-to-End Training of Object Class Detectors for Mean Average Precision,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 10115 LNCS, pp. 198–213, 2017, doi: 10.1007/978-3-319-54193-8_13.
[44] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (VOC) challenge,” Int. J. Comput. Vis., vol. 88, no. 2, pp. 303–338, Jun. 2010, doi: 10.1007/S11263-009-0275-4/METRICS.
[45] E. Bisong, “Building Machine Learning and Deep Learning Models on Google Cloud Platform,” Build. Mach. Learn. Deep Learn. Model. Google Cloud Platf., 2019, doi: 10.1007/978-1-4842-4470-8.
[46] H. K. Jabbar and R. Z. Khan, “Methods to Avoid Over-Fitting and Under-Fitting in Supervised Machine Learning (Comparative Study),” in Computer Science, Communication and Instrumentation Devices, Singapore: Research Publishing Services, 2014, pp. 163–172. doi: 10.3850/978-981-09-5247-1_017.
[47] K. Raza, H. Song, and S. Hong, “Fast and Accurate Fish Detection Design with Improved YOLO-v3 Model and Transfer Learning,” Artic. Int. J. Adv. Comput. Sci. Appl., vol. 11, no. 2, 2020, doi: 10.14569/IJACSA.2020.0110202.
زیرنویسها
[1] Convolutional Neural Network
[2] Single Shot Detector
[3] Fast Region-based Convolutional Neural Network
[4] You Only Look Once
[5] Closed-circuit television
[6] Visual Geometry Group 16-layer
[7] mean Average Precision
[8] Multi-Scale Multi-Task Detection
[9] Resolution
[10] Human Activity Recognition
[11] Global
[12] Regression
[13] Deformable part models
[14] Classification
[15] Bounding box
[16] anchor-free
[17] Intersection over Union
[18] True Positives
[19] False Positives
[20] False Negatives
[21] Average Precision
[22] Frames Per Second
[23] Google Colab
[24] Backup
[25] Google Drive
[26] export
[27] Framework
[28] Platform
[29] Quantization
[30] https://docs.ultralytics.com/modes/export/
[31] Overfitting
[32] Underfitting
[33] Transfer learning
[34] Hang
[35] Overclock
[36] Confusion Matrix Normalize
[37] Protocol
[38] Point-to-Point Protocol
[39] https://pnatraj.medium.com/raspberry-piintegration-with-gsm-gprs-sim800a-6d0ed5b5e76b
[40] Hypertext Transfer Protocol
[41] File Transfer Protocol
[42] Multi-Threading
Related articles
-
-
A Soft Switching Boost Converter with an Active Coupled Inductor Snubber Circuit
Print Date : 2023-08-23 -
Modeling and Analysis of SEPIC Converter Stability by Gray Wolf Multi-Objective Algorithm
Print Date : 2022-08-23 -
Vertical strip metal-insulator-metal waveguide based on a silicon-on-insulator platform
Print Date : 2023-08-23 -
Optimal Hardware Accelerator Design for Implementation of BLAKE2b Hash Function Algorithm
Print Date : 2022-11-22
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2021-2024