رقم المقالة : 14021109848522 زيارة : 162 الصفحة: -

نوع المخطوط: ابحاث

تشخیص و شناسایی علائم ترافیکی مبتنی بر یادگیری عمیق با سیستمهای تعبیه شده

الموضوعات :

1 - عضو هیات علمی گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد تهران غرب
2 - دانشگاه آزاد اسلامی واحد تهران غرب

تاريخ الإرسال : 17 الإثنين , رجب, 1445 تاريخ التأكيد : 22 السبت , رجب, 1445 تاريخ الإصدار : 06 الثلاثاء , ذو القعدة, 1445

الکلمات المفتاحية: تشخیص و شناسایی علائم ترافیکی, سیستمهای تعبیه شده, شبکه های عصبی کانولوشنی.,

ملخص المقالة :

تشخیص و شناسایی علائم ترافیکی نیازمند بکارگیری الگوریتمهای تشخیص و طبقه بندی است و اساساً از اطلاعات بصری مانند شکل و رنگ علائم ترافیکی استفاده می‌کنند. با این حال، این الگوریتمها در آزمون‌های بلادرنگ با اشکالاتی مواجه هستند و همچنین دستیابی به تشخیص چند هدف بسیار دشوار است و نیازمند تسریع در عملکرد الگوریتمهای مربوطه است. سیستم‌های تشخیص علائم ترافیکی مبتنی بر شبکه عصبی عمیق ممکن است به دلیل نیازهای محاسباتی و مصرف منابع، محدودیت‌هایی در کاربردهای عملی داشته باشند. اکثر سیستمهای تعبیه شده به طور مستقیم با فرآیندها یا محیط تعامل دارند و بر اساس ورودی های خود تصمیم گیری می کنند. این امر باعث می‌شود که سیستم واکنش پذیر باشد و در زمان واقعی به ورودی های پردازش برای اطمینان از عملکرد صحیح پاسخ دهد. این مقاله یک شبکه عصبی سبک وزن را برای تشخیص علائم ترافیکی ارائه می‌کند که به صحت و دقت بالایی با پارامترهای قابل آموزش کمتری دست می‌یابد. برای ارزیابی کارایی و قابلیت اطمینان مدل پیشنهادی مبتنی بر شبکه عصبی کانولوشنی برای شناسایی علائم ترافیکی، آزمایش‌های گسترده‌ای بر روی مجموعه دادهGTSRB انجام شده است. همپنین نتایج بدست آمده با چند معماری پیشرفته از جمله VGG16، MobileNetv2و ResNet50 مقایسه شده است. نتایج می دهد که مدل پیشنهادی به عملکرد خوبی دست یافته است و بر پتانسیل آن برای استقرار مدل شناسایی علائم ترافیکی بلادرنگ و سیستمهای کمک رانندگی تاکید می‌کند. راندمان محاسباتی و اندازه کوچک مدل پیشنهادی، آن را برای شناسایی علائم ترافیکی بلادرنگ کاربردی تر و مناسب تر می کند.

المصادر:

L. Jiao et al., “A Survey of Deep Learning-Based Object Detection,” IEEE Access, vol. 7, pp. 128837–128868, 2019.
Li, J.; Wang, Z. Real-time traffic sign recognition based on efficient CNNs in the wild. IEEE Trans. Intell. Transp. Syst. 2018, 20, 975–984.
Zhu, Y.; Yan, W.Q. Traffic sign recognition based on deep learning. Multimed. Tools Appl. 2022, 81, 17779–17791.
Shustanov, A.; Yakimov, P. CNN design for real-time traffic sign recognition. Procedia Eng. 2017, 201, 718–725.
Bangquan, X.; Xiong, W.X. Real-time embedded traffic sign recognition using efficient convolutional neural network. IEEE Access 2019, 7, 53330–53346.
Zaibi, A.; Ladgham, A.; Sakly, A. A lightweight model for traffic sign classification based on enhanced LeNet-5 network. J. Sensors 2021, 2021, 8870529.
Sokipriala, J.; Orike, S. Traffic sign classification comparison between various convolution neural network models. Int. J. Sci. Eng. Res. 2021, 12, 165–171.
Mishra, J.; Goyal, S. An effective automatic traffic sign classification and recognition deep convolutional networks. Multimed. Tools Appl. 2022, 81, 18915–18934.
Chen, L.; Zhao, G.; Zhou, J.; Kuang, L. Real-time traffic sign classification using combined convolutional neural networks. In Proceedings of the 2017 4th IAPR Asian Conference on Pattern Recognition (ACPR), Nanjing, China, 26–29 November 2017; pp. 399–404.
Haque, W.A.; Arefin, S.; Shihavuddin, A.; Hasan, M.A. DeepThin: A novel lightweight CNN architecture for traffic sign recognition without GPU requirements. Expert Syst. Appl. 2021, 168, 114481.
Fang, H.F.; Cao, J.; Li, Z.Y. A small network MicronNet-BF of traffic sign classification. Comput. Intell. Neurosci. 2022, 2022, 3995209.
Sarku, E.; Steele, J.; Ruffin, T.; Gokaraju, B.; Karimodini, A. Reducing Data Costs-Transfer Learning Based Traffic Sign Classification Approach. In Proceedings of the SoutheastCon 2021, Atlanta, GA, USA, 10–13 March 2021; pp. 1–5.
Cao, J.; Song, C.; Peng, S.; Xiao, F.; Song, S. Improved traffic sign detection and recognition algorithm for intelligent vehicles. Sensors 2019, 19, 4021.
Fu, H.; Wang, H. Traffic Sign Classification Based on Prototypes. In Proceedings of the 2021 16th International Conference on Intelligent Systems and Knowledge Engineering (ISKE), Chengdu, China, 26–28 November 2021; pp. 7–10.
Sichkar, V.; Kolyubin, S. Effect of various dimension convolutional layer filters on traffic sign classification accuracy. Sci. Tech. J. Inf. Technol. Mech. Opt. 2019, 19, 546–552.
Agarwal, S.; X, C.; Kumar, R. Convolutional Neural Network for Traffic Sign Classification. Int. J. Inf. Technol. Proj. Manag. 2022, 9.
Youssouf, N. Traffic sign classification using CNN and detection using faster-RCNN and YOLOV4. Heliyon 2022, 8.
Gökberk, A.; Durdu, A.; Nesimio ˘glu, B.S. Accuracy Comparison of CNN Networks on GTSRB Dataset. J. Artif. Intell. Data Sci. 2022, 2, 63–68.
Kuros, S.; Kryjak, T. Traffic Sign Classification Using Deep and Quantum Neural Networks. 2022.
Pradana, A.I.; Rustad, S.; Shidik, G.F.; Santoso, H.A. Indonesian Traffic Signs Recognition Using Convolutional Neural Network. In Proceedings of the 2022 International Seminar on Application for Technology of Information and Communication (iSemantic), Semarang, Indonesia, 17–18 September 2022; pp. 426–430.
Bhatt, N.; Laldas, P.; Lobo, V.B. A Real-Time Traffic Sign Detection and Recognition System on Hybrid Dataset using CNN. In Proceedings of the 2022 7th International Conference on Communication and Electronics Systems (ICCES), India, June 2022; pp. 1354–1358.

نص كامل:

$C:\Users\m_shakeri\Desktop\WhatsApp-Image-2021-04-22-at-14.55.48.png$ دانشگاه آزاد اسلامی واحد الکترونیکی

مجله فناوری اطلاعات و امنیت شبکه

تشخیص و شناسایی علائم ترافیکی مبتنی بر یادگیری عمیق با سیستم‌های تعبیه شده

پیمان بابائی*1 ، فائزه علامه2

2،1 گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایران.

Peyman.Babaei@IAU.ac.ir

چکيده - تشخیص و شناسایی علائم ترافیکی، نیازمند به‌کارگیری الگوریتم‌های تشخیص و طبقه بندی است و اساساً از اطلاعات بصری مانند شکل و رنگ علائم ترافیکی استفاده می‌کنند. با این حال، این الگوریتم‌ها در آزمون‌های بلادرنگ با اشکالاتی مواجه هستند همچنین دستیابی به تشخیص چند هدف بسیار دشوار و نیازمند تسریع در عملکرد الگوریتم‌های مربوطه است. سیستم‌های تشخیص علائم ترافیکی مبتنی بر شبکه عصبی عمیق ممکن است به دلیل نیازهای محاسباتی و مصرف منابع، محدودیت‌هایی در کاربردهای عملی داشته باشند. اکثر سیستم‌های تعبیه شده به طور مستقیم با فرآیندها یا محیط تعامل دارند و بر اساس ورودی های خود تصمیم گیری می کنند. این امر باعث می‌شود که سیستم واکنش پذیر باشد و در زمان واقعی به ورودی های پردازش برای اطمینان از عملکرد صحیح پاسخ دهد. این مقاله یک شبکه عصبی سبک وزن را برای تشخیص علائم ترافیکی ارائه می‌کند که به صحت و دقتی بالا با پارامترهای قابل آموزش کمتر دست می‌یابد. برای ارزیابی کارایی و قابلیت اطمینان، مدل پیشنهادی مبتنی بر شبکه عصبی کانولوشنی به‌منظور شناسایی علائم ترافیکی، آزمایش‌های گسترده‌ای بر روی مجموعه دادهGTSRB انجام شده است. همچنین نتایج به‌دست آمده با چند معماری پیشرفته از جمله VGG16، MobileNetv2و ResNet50 مقایسه شده است. نتایج نشان می‌دهد که مدل پیشنهادی به عملکرد خوبی دست یافته است و بر پتانسیل آن برای استقرار مدل شناسایی علائم ترافیکی بلادرنگ و سیستم‌های کمک رانندگی تاکید می‌کند. راندمان محاسباتی و اندازه کوچک مدل پیشنهادی، آن را برای شناسایی علائم ترافیکی بلادرنگ کاربردی تر و مناسب تر می کند.

كليد واژه- تشخیص و شناسایی علائم ترافیکی، سیستم‌های تعبیه شده، شبکه‌های عصبی کانولوشنی.

مقدمه

یک سیستم تعبیه شده را می توان به طور کلی به عنوان دستگاهی تعریف کرد که شامل اجزای سخت‌افزاری و نرم‌افزاری محکم به هم متصل شده برای انجام یک عملکرد واحد است، بخشی از یک سیستم بزرگ‌تر را تشکیل می‌دهد، به طور مستقل توسط کاربر قابل برنامه‌ریزی است و انتظار می رود که با حداقل منابع کار کند. صرف‌نظر از عملکردی که یک سیستم تعبیه شده انجام می‌دهد، ساختار آن دو مجموعه اصلی و محکم از اجزاء را نشان می‌دهد: مجموعه ای از قطعات سخت افزاری که شامل یک واحد پردازش مرکزی، معمولاً به شکل یک میکروکنترلر است و یک سری از برنامه‌های نرم افزاری که معمولاً به عنوان سیستم عاملی است که به سخت افزار کارایی می‌دهد. شکل 1 نمای کلی آن و این دو جزء اصلی و ارتباط متقابل آنها را نشان می‌دهد. ورودی‌ها معمولا در یک سیستم تعبیه‌شده، متغیرهای فرآیند و پارامترهایی هستند که از طریق حسگرها و پورت‌(دروازه)های ورودی/خروجی وارد می‌شوند. خروجی ها به صورت اقدامات کنترلی بر روی محرک‌های سیستم یا اطلاعات پردازش شده برای کاربران یا سایر زیرسیستم‌هایی درون برنامه هستند. در برخی موارد، تبادل اطلاعات ورودی/خروجی با کاربران از طریق یک رابط کاربری که ممکن است شامل کلیدها، حسگرها، دیودهای نوری، نمایشگرها و سایر انواع دستگاه‌های نمایشگر باشد، انجام می‌شود.

شکل 1: نمای کلی یک سیستم تعبیه شده.

در ادامه نگاهی دقیق‌تر به اجزای سخت‌افزار و نرم‌افزاری خواهیم داشت که یک سیستم تعبیه‌شده را یکپارچه می‌کنند. اجزای سخت‌افزاری یک سیستم تعبیه‌شده شامل تمام لوازم الکترونیکی لازم برای انجام عملکردی است که برای آن طراحی شده است. بنابراین، ساختار خاص یک سیستم، بر اساس برنامه، می‌تواند به طور قابل ملاحظه‌ای با سیستم دیگر متفاوت باشد. با وجود این تفاوت ها، سه جزء سخت افزاری اصلی در یک سیستم تعبیه شده ضروری هستند(شکل2): واحد پردازش مرکزی(CPU)، حافظه سیستم و مجموعه‌ای از پورت‌های ورودی/خروجی. CPU دستورالعمل‌های نرم افزاری را برای پردازش ورودی‌های سیستم و اتخاذ تصمیماتی اجرا می‌کند که عملکرد سیستم را هدایت می‌کند. حافظه برنامه‌ها و داده‌های لازم برای عملکرد سیستم را ذخیره می‌کند. اکثر سیستم‌ها بین حافظه‌های برنامه و داده‌ها تفاوت قائل می‌شوند. حافظه برنامه، برنامه های نرم افزاری اجرا شده توسط CPU را ذخیره می‌کند. حافظه داده، داده‌های پردازش‌شده توسط سیستم را ذخیره می‌کند. پورت‌های I/O امکان انتقال سیگنال‌ها را بین CPU و دنیای خارج از آن فراهم می‌کنند. فراتر از این نقطه، باتوجه به کاربرد، ممکن است تعدادی دیگر از دستگاه‌های پشتیبانی و ورودی/خروجی مورد نیاز برای عملکرد سیستم وجود داشته‌باشد.

شکل 2: عناصر سخت افزاری در یک سیستم تعبیه شده.

به‌طورکلی سیستم‌های تعبیه شده را می‌توان به دو دسته سیستم‌های تعبیه شده کوچک و سیستم‌های تعبیه شده با کارایی بالا طبقه‌بندی کرد. سیستم‌های تعبیه شده کوچک حول یک تراشه میکروکنترلر متمرکز است که کل برنامه را کنترل می‌کند. این سیستم‌ها به شدت یکپارچه هستند و در صورت نیاز فقط چند جزء آنالوگ، حسگرها، محرک‌ها و رابط کاربری را اضافه می‌کنند. این سیستم‌ها با حداقل‌ها کار می‌کنند، هزینه بسیار پایینی دارند و به صورت انبوه تولید می‌شوند. نرم افزار در این سیستم‌ها معمولا تک وظیفه‌ای است و به‌ندرت به RTOS نیاز دارند. نمونه‌هایی از این سیستم‌ها عبارتند از: سیستم‌های نظارت بر فشار باد تایر و کنترل‌کننده‌های اجاق مایکروویو. سیستم‌های تعبیه شده با کارایی بالا نشان‌دهنده کلاس سیستم‌های تعبیه شده بسیار تخصصی است که به محاسبات سریع، استحکام، تحمل خطا و قابلیت نگهداری بالا نیاز دارند. این سیستم‌ها معمولاً به پردازنده‌های گرافیکی اختصاصی NVIDIA یا ASICS نیاز دارند و ممکن است شامل DSP و FPGA به عنوان بخشی از سخت‌افزار اصلی باشند. در بسیاری از موارد، پیچیدگی نرم افزار آنها استفاده از RTOS را برای مدیریت وظایف متعدد الزامی می‌کند. آنها در مقادیر کم تولید می‌شوند و هزینه آنها بسیار بالا است. لذا سیستم‌های تعبیه‌شده‌ای هستند که در کاربردهای نظامی یا هوافضا استفاده می‌شوند، مانند کنترل‌کننده‌های پرواز، سیستم‌های هدایت موشک و سیستم‌های ناوبری فضاپیما. در این طبقه بندی می‌توانیم نواحی خاکستری را پیدا کنیم که در آن ویژگی‌های دو یا سه مورد از آنها همپوشانی دارند و ممکن است برنامه‌ها به یک کلاس خاص مرتبط شوند. با این حال، اگر به طیف وسیعی از برنامه‌های کاربردی تعبیه شده نگاه کنیم، در بیشتر موارد، تشخیص کلاسی که یک برنامه خاص به آن تعلق دارد، به طور کلی آسان می‌شود.

یادگیری عمیق و شبکه‌های عصبی کانولوشنی

عملیات کانولوشنی

عملیات ریاضی دو تابع 𝑓 و 𝑔 برای به‌دست آوردن تابع سوم را کانولوشنی می‌نامند. در واقع، انتگرالی که مقدار همپوشانی 𝑔 را با جابجایی آن بر روی تابع 𝑓 تعیین می‌کند، کانولوشن نامیده می‌شود. به‌طور کلی، عملگرستاره عملیات کانولوشنی را بیان می‌کند.

تابع کانولوشنی یک میانگین وزنی از 𝑓(𝜏) است. تابع وزنی g زمانی که تابع 𝑡 تغییر می‌کند تاکید بیشتری بر ورودی تابع 𝑓 دارد.

در اصطلاحات شبکه کانولوشنی، تابع 𝑓 به عنوان ورودی، نقشه ویژگی به عنوان خروجی و تابع 𝑔 به عنوان هسته شناخته می‌شود. در سیستم‌های دیجیتال، تابع کانولوشنی می‌تواند با فرض 𝑓 زمانی که 𝑔 روی مقادیر صحیح 𝑡 تعریف می‌شود، گسسته شود:

در شبکه‌های عصبی کانولوشنی، آرایه‌های چند بعدی به عنوان ورودی و آرایه چند بعدی پارامترها که تنسور نامیده می‌شوند، به عنوان هسته در نظر گرفته می‌شوند. به عنوان مثال، در یک تصویر دو بعدی با ورودی 𝐼، از دو عدد هسته دوبعدی 𝐾 استفاده شده است.

و نقشه ویژگی (یا خروجی) مکان S است.

تعامل هر واحد ورودی با هر واحد خروجی توسط ماتریسی از پارامترها با پارامترهای جداگانه توصیف می‌شود. بنابراین، لایه‌های شبکه عصبی کاملاً متصل از ضرب ماتریسی استفاده می‌کنند. با پرداختن به ورودی‌های با ابعاد بیشتر مانند تصاویر، اتصال نورون‌ها به همه نورون‌ها غیرعملی خواهد بود، بنابراین شبکه‌های کاملاً متصل از تصاویر قابل مقیاس نیستند. به‌کارگیری یک هسته کوچکتر از ورودی باعث می‌شود عملیات کانولوشن، هر نورون را فقط به یک ناحیه محلی از ورودی متصل کند. مقایسه شبکه‌های کاملاً متصل سنتی با شبکه‌های کانولوشنی از نظرکارایی بسیار موثر است. الگوریتم‌های هر نمونه دارای 𝑂(𝑚×n) زمان اجرا و ضرب ماتریس نیاز به 𝑚×n پارامتر دارند (m ورودی، n خروجی). برای اینکه الگوریتم ها را به پارامترهای 𝑘×n و زمان اجرا را به 𝑂(𝑘×n) برسانیم، باید تعداد اتصالات هر خروجی را به 𝐾 محدود کنیم. به عنوان مثال، برای پردازش یک تصویر، هزاران یا میلیون‌ها پیکسل ممکن است در ورودی باشد. از لبه‌های دارای هسته می‌توان برای کاهش تعداد پیکسل‌های مصرف شده به ده‌ها یا صدها پیکسل استفاده کرد. ذخیره پارامترهای کمتر با استفاده از کانولوشن امکان‌پذیر است و منجر به کاهش تقاضای محاسباتی شبکه می‌شود. به جای یادگیری مجموعه‌ای جداگانه از پارامترها برای هر مکان، استفاده از هر یک از اعضای هسته در هر موقعیت ورودی منجر به اشتراک‌گذاری پارامترها در شبکه‌های کانولوشنی می‌شود. در یک شبکه کاملا متصل معمولاً برای محاسبه خروجی یک لایه، هر عنصر ماتریس فقط یک بار استفاده می‌شود.

معماری شبکه‌های عصبی کانولوشنی

زیر مجموعه کاربردی از شبکه‌های عصبی به نام شبکه‌های عصبی کانولوشنی (CNN) معرفی شدند. دلیل ارائه شبکه‌های عصبی و شبکه‌های عصبی کانولوشنی این است که با پیشرفت دستگاه‌های هوشمند و رسانه‌های اجتماعی مختلف، حجم زیادی از داده‌ها در اینترنت در کسری از زمان تولید می‌شود. با این حال، این منابع داده گسترده، نمی‌تواند توسط انسان‌ها به‌طور دقیق پردازش شود. از این رو، انسان‌ها برای پردازش خودکار داده‌های گسترده به کمک رایانه نیاز دارند. علاوه بر این، مشکلات طبقه‌بندی، تشخیص شیء و الگو را می‌توان توسط معماری فوق‌العاده شبکه‌های عصبی کانولوشنی انجام داد که سریع‌تر و کارآمدتر است. شبکه‌های عصبی کانولوشنی نه تنها می‌توانند شبکه‌های عمیق‌تری ایجاد کنند، بلکه روند آموزش را تسریع می‌کنند. با توجه به این روند آموزشی سریع، شبکه‌های عصبی کانولوشنی منجر به ایجاد شبکه‌های عمیق‌تر می‌شوند. اگرچه شبکه‌های عصبی مرسوم از نمایش‌برداری استفاده می‌کنند، عملکرد شبکه‌های عصبی کانولوشنی بر روی تصاویر بر اساس ارتفاع، عرض و تعداد کانال‌ها است. برای درک راحت‌تر مفاهیم، در لایه‌های شبکه‌های عصبی کانولوشنی، پیکسل‌ها توسط یک فیلتر یا هسته که مجموعه‌ای از بایاس‌ها و وزن‌ها است، روی لایه پنهان بعدی قرار می‌گیرند. گاهی اوقات فیلترها می‌توانند یک آشکارساز ویژگی مانند یک آشکارساز لبه عمودی یا افقی باشند. اعمال فیلتر بر روی یک تصویر معمولاً اندازه تصویر را کاهش می‌دهد. با این حال، تعداد کانال‌ها افزایش خواهد یافت. ساده‌سازی اطلاعات در خروجی لایه کانولوشن بسیار مهم است، زیرا این کار را می‌توان با کاهش لایه کانولوشن انجام داد. بنابراین، مفهوم ادغام معرفی شد. یکی از مهم‌ترین تفاوت‌های شبکه‌های عصبی معمولی با شبکه‌های عصبی کانولوشن، وجود لایه ادغام است. به‌طور کلی، شبکه‌های عصبی کانولوشنی از لایه کانولوشنی تشکیل شده‌اند که به عنوان لایه‌های کانولوشنی، لایه‌های ادغام و به دنبال آن یک لایه کاملاً متصل در انتها شناخته می‌شود که در شکل 3 نشان داده شده است.

شکل 3: معماری یک شبکه‌ عصبی کانولوشنی

مانند شبکه‌های عصبی کلاسیک، شبکه‌های عصبی کانولوشنی از توابع فعال سازی مختلفی در لایه‌های خروجی خود استفاده می‌کنند که ورودی لایه‌های بعدی است. تابع خطیReLU، تابع سیگموئید و تابع تانژانت هیپربولیک انواع مختلفی از توابع فعال‌سازی هستند که می‌توانند برای شبکه‌های عصبی کانولوشنی اعمال شوند. درک صحنه، تشخیص و شناسایی اشیاء و استخراج ویژگی مسائل بینایی رایانه‌ای مواردی هستند که به عنوان معماری‌های پیشنهادی شبکه‌های عصبی کانولوشنی دسته‌بندی می‌شوند. در سال 1990، مدلی توسعه داده شد که می‌تواند به عنوان اولین کاربرد موفق شبکه‌های عصبی کانولوشنی به حساب آید. کاربردهای متعددی در مسائل بینایی رایانه‌ای مانند تشخیص ارقام دارد. معماری LeNet در شکل 4 نشان داده شده است.

شکل 4: معماری LeNet [1]

معماری AlexNet، یکی از نخستین آثاری است که شبکه‌های عصبی کانولوشنی را در بینایی رایانه‌ای رواج داد. اگرچه این شبکه، بسیار شبیه به LeNet بود، اما دارای لایه‌های کانولوشنی بزرگ‌تر و عمیق‌تر بود که روی هم چیده شده بودند،. AlexNet در سال 2012 به چالش ILSVRC فرستاده شد. این معماری شامل 630 میلیون اتصال، 60 میلیون پارامتر و 630 میلیون نورون است.(شکل 5)

شکل 5: معماری AlexNet [1]

این شبکه GoogleNet در سال 2014 رتبه اول را در چالش تشخیص تصویر در مقیاس بزرگ ImageNet (ILSVRC) کسب کرد. تعداد پارامترها به طور چشمگیری، از 60 میلیون به 4 میلیون در مقایسه با AlexNet کاهش یافت. این معماری، ترکیبی از لایه‌های ادغام و کانولوشن به همراه ماژول‌های آغازین آنها بود. GoogleNet اولین شبکه‌ای است که از معماری مدرن شبکه‌های عصبی کانولوشنی استفاده می‌کند که فقط برای لایه‌های کانولوشن و ادغام استفاده نمی‌شود، بلکه در معماری inception نیز کاربرد دارد. همانطور که در شکل 6 نشان داده شده‌است، به عنوان inception network نیز شناخته می‌شود. علاوه بر این، در مسیرهای موازی با اندازه مختلف نقشه ویژگی‌ها کار می‌کند. مزیت ماژول inception پرش از اتصالات در شبکه و ایجاد مینی ماژول است که از طریق شبکه تکرار می‌شود. هدف این ماژول کاهش تعداد پارامترها در شبکه است. هدف اصلی ماژول قرار دادن تمام بلوک‌های اساسی پردازش در سیستم موازی است. مزیت اصلی معماری GoogleNet ایجاد شبکه بزرگ با انباشتن چندین ماژول در کنار هم است.

VGGNet یکی دیگر از شبکه‌های عصبی کانولوشنی است که در چالش تشخیص تصویری در مقیاس بزرگ ImageNet (ILSVRC) در سال 2014 به عملکرد بالایی دست یافت. در آن زمان، VGGNet به عنوان یک شبکه عصبی پیچیده بسیار عمیق در نظر گرفته می‌شد. این به توضیح عمق شبکه برای افزایش دقت تشخیص یا طبقه‌بندی کمک می‌کند. اگرچه این شبکه بسیار عمیق است، اما سادگی آن قابل توجه است. این معماری شبکه از ابتدا تا انتها فقط از لایه‌های کانولوشن 3*3 و ادغام 2*2 استفاده می‌کند که در شکل 7 نشان داده شده‌است. یکی از بزرگ‌ترین نقاط ضعف VGGNet این است که از حافظه و پارامترهای زیادی (140 میلیون) استفاده می‌کند که به نوبه خود هزینه بیشتری دارد.

شکل 6: معماری ماژول inception [1]

شکل 7: معماری VGG-16 [1]

ResNet یک شبکه عصبی کانولوشنی عمیق است. در چالش تشخیص تصویر در مقیاس بزرگ ImageNet (ILSVRC) در سال 2015 رتبه نخست را کسب کرد. در مجموع از 152 لایه تشکیل شده بود. به دلیل توانایی آن در آموزش یک مدل عمیق 1001 لایه با استفاده از اتصالات باقیمانده تحت عنوان اتصالات باقیمانده شناخته شد. مزیت اصلی استفاده از اتصالات باقیمانده، کسب دانش در حین آموزش و افزایش سرعت زمان آموزش است. ResNet از نرمال‌سازی دسته‌ای بعد از هر لایه استفاده می‌کند و همانطور که در شکل 8 نشان داده شده‌است، از اتصال پرش برای بهینه‌سازی ساده استفاده می‌کند.

شکل 8: معماری ResNet [1]

یادگیری عمیق و تشخیص علائم ترافیکی

حوزه تشخیص علائم ترافیکی در سال‌های اخیر شاهد پیشرفت‌های متعددی بوده‌است و بسیاری از محققان برای توسعه الگوریتم‌های کارآمد و دقیق به تکنیک‌های یادگیری عمیق روی آورده‌اند. در[2] از یک شبکه عصبی کانولوشنی (CNN) با یک مدل از پیش آموزش دیده MobileNet، برای تشخیص علائم ترافیکی استفاده کردند. معماری MobileNet به گونه‌ای طراحی شده‌است که سبک و کارآمد باشد و برای استفاده در برنامه‌های سیار و بینایی سیستم‌های تعبیه شده مناسب باشد. روش پیشنهادی از نرمال‌سازی دسته‌ای، فعال‌سازی ReLU و یک لایه softmax برای محاسبه احتمال اطمینان ورودی به عنوان علامت ترافیک استفاده می‌کند. این مدل بر روی مجموعه داده‌های تشخیص علائم ترافیکی آلمان (GTSRB) با استفاده از بهینه‌ساز Adam با نرخ یادگیری 0.001 آموزش داده شد و آموزش مدل برای 30 دوره بدون افزایش داده و 200 دوره دیگر با تکنیک‌های افزایش داده‌ها مانند چرخش، مقیاس‌گذاری، تغییر و تبدیل‌ انجام شد. نتیجه نهایی دقت، 99.66 درصد بود که نشان دهنده اثربخشی روش پیشنهادی است. در[3] دقت تشخیص علائم ترافیکی با استفاده از دو روش یادگیری عمیق YOLOv5 و SSD مقایسه شدند. YOLOv5 یک الگوریتم تشخیص شی بلادرنگ است که کل تصویر را با یک شبکه عصبی پردازش می‌کند و آن را به بخش‌هایی تقسیم می‌کند تا جعبه‌های مرزی و احتمالات هر قسمت را تخمین بزند. از سوی دیگر، SSD با حذف نیاز به شبکه‌های پیشنهادی منطقه برای هر جزء، روند را تسریع می‌کند. نویسندگان مجموعه داده‌ای از 2182 تصویر علائم ترافیکی را از 8 کلاس مختلف جمع‌آوری کردند که به صورت 64٪ مجموعه آموزشی، 16٪ مجموعه اعتبار سنجی و 20٪ مجموعه آزمون تقسیم کردند. مدل‌ها با استفاده از تکنیک‌های افزایش داده‌ها، مانند چرخش و تغییر اندازه آموزش داده شدند. برای YOLOv5، اندازه تصویر روی 640 × 640 تنظیم شد، اندازه دسته‌ها 16 بود، و مدل برای 200 دوره آموزش داده شد. در[4] یک راه حل مبتنی بر شبکه عصبی کانولوشنی (CNN) برای تشخیص علائم ترافیکی پیشنهاد کردند. معماری شبکه عصبی کانولوشنی پیشنهادی شامل لایه‌های کانولوشن، کاملاً متصل و softmax است. نویسندگان، آزمایش‌هایی را با پیکربندی‌های مختلف معماری شبکه عصبی کانولوشنی انجام دادند که بهترین آنها شامل 3 لایه کانولوشن، 1 لایه کاملاً متصل و یک لایه softmax بود. دقت روش پیشنهادی بر روی مجموعه داده GTSRB، به99.94 درصد دست یافت. در[5] یک سیستم تشخیص علائم ترافیکی را با استفاده از شبکه عصبی کانولوشن LeNet پیشنهاد کردند که ترکیبی از دو مدل از پیش آموزش دیده، VGG16 و LeNet است. این سیستم بر روی مجموعه داده GTSRB آموزش داده شد و به یک مجموعه آموزشی 39209 و یک مجموعه آزمایشی 12630 تقسیم شد. این سیستم با استفاده از بهینه‌ساز Adam با تابع softmax آموزش داده‌شد. این آزمایش نشان داد که مدل LeNet بهتر از مدل VGG16 با سطوح دقت 98.6 درصد و دقت 96.7 درصد عمل کرد. در[6] یک مدل LeNet-5 پیشرفته برای طبقه بندی علائم ترافیکی پیشنهاد کردند. مدل پیشنهادی شامل دو لایه کانولوشن برای استخراج ویژگی‌ها از تصاویر، به دنبال آن دو لایه کانولوشنی و یک لایه کاملاً متصل بود. برای افزایش پایداری و سرعت آموزش مدل، نرمال‌سازی دسته ای و حذف با نرخ 0.5 بعد از لایه کاملا متصل اضافه شد.LeNet-5 بهبودیافته بر روی مجموعه داده‌های GTSRB و BTSD آموزش داده شد و تصاویر با استفاده از متعادل‌سازی هیستوگرام، تبدیل مقیاس خاکستری، تغییر اندازه و نرمال‌سازی، پیش پردازش شدند. این آزمایش، نشان داد که بهینه‌ساز Adam با فعال‌سازی ReLU بهتر از Adadelta با فعال‌سازی LeakyReLU عمل می‌کند و مدل LeNet-5 به دقت 99.84 درصد در مجموعه داده GTSRB و 98.37 درصد در مجموعه داده BTSD دست یافت. در[7]، چندین مدل شبکه عصبی کانولوشنی (CNN) برای عملکرد آنها در طبقه‌بندی علائم ترافیکی ارزیابی شدند. سه مدل ارزیابی شده VGG16، ResNet50 و CNN پیشنهادی نویسندگان بر اساس AlexNet بودند. مدل شبکه عصبی کانولوشنی پیشنهادی با اندازه فیلتر کاهش‌یافته و اندازه گام 1 طراحی شد. همچنین از Maxpool با اندازه گام 2 برای نمونه برداری از نقشه ویژگی، یک لایه مسطح و سه لایه کاملاً متصل استفاده می‌کند. در آخرین لایه کاملاً متصل، از 43 نورون برای نشان دادن هر یک از 43 کلاس مختلف علائم ترافیکی، همراه با یک تابع فعال‌سازی softmax برای طبقه‌بندی استفاده می‌شود. فعال سازی ReLU بعد از هر لایه کانولوشنی برای جلوگیری از میانگین به صفر شدن ویژگی‌های پیچیده استفاده می‌شود. مجموعه داده مورد استفاده، معیار تشخیص علائم ترافیک آلمان (GTSRB) بود. مجموعه آموزشی برای کاهش شدت و کاهش هزینه محاسباتی به مقیاس خاکستری تبدیل شد و به دنبال آن یکسان‌سازی هیستوگرام برای کشش کنتراست برای اطمینان از توزیع یکنواخت شدت پیکسل ها انجام شد. نتایج نشان داد که VGG16 به دقت 95.5 درصد، ResNet50 به دقت 95.4 درصد دست یافت و شبکه عصبی کانولوشنی پیشنهادی با AlexNet به بالاترین دقت 96.0 درصد دست یافت. در[8]، یک روش طبقه‌بندی و تشخیص علائم ترافیکی را با شبکه عصبی کانولوشنی عمیق پیشنهاد کردند. در معماری مدل شبکه عصبی کانولوشنی پیشنهادی، لایه‌های کانولوشنی، یک لایه ادغام و یک لایه تجمیع حداکثری وجود دارد. برای آزمایش از سه مجموعه داده شامل GTSRB، BTSCو TSRD+GTSRB به ترتیب با 43، 62 و 101 کلاس استفاده شد. به منظور جلوگیری از برازش بیش از حد و برای افزایش تعمیم پذیری آموزش، از تکنیک‌های تقویت داده‌ها مانند چرخش، بزرگ‌نمایی و مقیاس استفاده شد. با روش پیشنهادی شبکه عصبی کانولوشنی، GTSRB به دقت 99.76 درصد، BTSC به دقت 99.79 درصد و TSRD+GTSRB به دقت 98.37 درصد دست یافت. در [9]، یک رویکرد با دو شبکه عصبی کانولوشنی برای طبقه‌بندی علائم ترافیکی استفاده شد. مدل MCNN با استفاده از مجموعه داده اصلی، آموزش داده شد، در حالی که مدل CCNN با نمونه‌های افزوده شده، آموزش داده شد. نتایج هر دو مدل با محاسبه احتمالات سوپرکلاس و زیر کلاس علائم ترافیکی و انتخاب برچسب تشخیص واقعی بر اساس وزن احتمال بالاتر مقایسه شد. مجموعه داده مورد استفاده مجموعه داده GTSRB بود و اندازه تصاویر به 32 × 32 تغییر داده شد و برای افزایش حجم نمونه مجموعه داده، از تکنیک‌های تقویت داده‌ها مانند مقیاس‌بندی، چرخش و چرخش استفاده شد. 43 کلاس در مجموعه داده GTSRB به پنج ابر کلاس، از جمله علائم منع دایره‌ای قرمز، علائم خطر مثلثی قرمز، علائم اجباری دایره‌ای آبی، علائم ممنوعیت دایره‌ای سیاه و سایر علائم گروه‌بندی شدند. آزمایش‌ها برای 100 دوره با اندازه دسته‌ای 30 اجرا شد. نتایج نشان داد که CCNN با افزایش داده‌ها به سطح دقت بالاتری (98.26٪) در مقایسه با مدل MCNN (٪97.96) دست یافت. در[10]، یک معماری سبک وزن شبکه عصبی کانولوشنی به نام DeepThin را معرفی کردند که چندین لایه کانولوشنی با اندازه هسته متوسط را روی هم قرار می‌دهد. مجموعه داده‌های مورد استفاده GTSRB و مجموعه داده‌های طبقه‌بندی علائم ترافیکی بلژیکی (BTSC) با اندازه تصاویر به ۴۵×۴۵ پیکسل و تبدیل به مقیاس خاکستری بودند. این روش دقت 99.72 درصد برای GTSRB و 99.29 درصد برای BTSC پس از ترکیب تکنیک‌هایی مانند یادگیری گروهی و تنظیم دقیق را به دست آورد. در[11] روشی را برای طبقه‌بندی علائم ترافیکی با استفاده از MicronNet ارائه کردند. MicronNet یک شبکه عصبی عمیق کوچک است که برای استفاده در دستگاه‌های تعبیه شده طراحی شده است و MicronNet-BF دقت آن را با ادغام آن با نرمال‌سازی دسته ای بهبود بخشیده‌است. مجموعه داده GTSRB استفاده شد و MicronNet-BF با زمان پردازش فقط 1.41 ثانیه به دقت 99.38 درصد دست یافت. گنجاندن نرمال‌سازی دسته‌ای دقت را 1.05٪ در مقایسه با MicronNet اصلی بهبود بخشید. در[12] با استفاده از چندین شبکه عصبی ResNets، از جمله ResNet18، ResNet50 و ResNet152، یک رویکرد جدید برای تشخیص علائم ترافیکی معرفی کردند. این مدل‌ها به ترتیب دارای 18، 50 و 152 لایه پنهان وزن‌دار بودند. مجموعه‌ای با بیش از 40000 تصویر را با استفاده از یک ماشین خودران جمع‌آوری کردند، از 224 تصویر با وضوح بالا برای آزمایش‌ استفاده کردند. مجموعه داده شامل سه کلاس که هر کدام شامل 300 تصویر است. اندازه تصاویر به 224 × 224 پیکسل تغییر یافت و به شرح زیر تقسیم شد: 80٪ آموزش، 20٪ اعتبار سنجی. از پانزده تصویر برای آزمایش استفاده شد. هیچ افزایش داده‌ای برای مجموعه داده اعمال نشد. این مدل برای 10 دوره با اندازه دسته‌ای 10 آموزش داده شد و آخرین لایه کاملاً متصل به خوبی تنظیم شد. بالاترین دقت تست 93% برای ResNet50، 60% برای ResNet18 و 33% برای ResNet152 بود. در[13] یک معماری شبکه عصبی کانولوشنی بهبود یافته LeNet-5 را برای طبقه‌بندی علائم ترافیکی پیشنهاد کردند. معماری LeNet-5 شامل 2 لایه کانولوشنی، 2 لایه ادغام، 2 لایه کاملا متصل و یک لایه طبقه‌بندی بود. برای بهبود عملکرد مدل، یک هسته گابور به عنوان اولین هسته کانولوشنی استفاده شد و نرمال‌سازی دسته‌ای پس از هر لایه ادغام انجام شد. تابع فعال‌سازی ReLU برای رسیدگی به مسائل ناپیدایی گرادیان استفاده شد و نرخ حذف 0.5 در لایه‌های کاملاً متصل اعمال شد. از مجموعه داده GTSRB استفاده کردند که 75٪ برای آموزش و 25٪ برای آزمایش بود و این مدل به دقت 99.75 درصد دست یافت. در[14] یک شبکه کانولوشنی چند مقیاسی (MSCN) و یک شبکه عصبی عمیق با رویکرد چند ستونی (MCDNN) را برای تشخیص علائم ترافیکی پیشنهاد کردند. مجموعه داده TSRD برای آموزش استفاده شد، در حالی که مجموعه داده GTSRB برای آزمایش استفاده شد. برای بهبود عملکرد مدل، افزایش داده و تنظیم دقیق را انجام دادند. با این حال، نتایج نشان داد که دقت در ابتدا افزایش سپس با افزایش تعداد کلاس‌ها کاهش می یابد. روش پیشنهادی به دقت 90.13 درصد دست یافت. در[15]، مطالعه‌ای برای بررسی تأثیر ابعاد مختلف فیلترهای لایه کانولوشنی بر عملکرد یک شبکه عصبی کانولوشنی برای طبقه‌بندی علائم ترافیکی انجام شد. ابعاد در نظر گرفته شده در آزمایش 3، 5، 9، 13، 15، 19، 23، 25 و 31 بود. از مجموعه داده GTSRB برای آزمایش‌ها استفاده شد و تصاویر موجود در مجموعه داده با نرمال‌سازی و تغییر اندازه به 32 × 32 پیکسل پیش پردازش شدند. تابع خطا برای بهینه‌سازی شبکه به کار گرفته شد و 1 گام برای لایه کانولوشنی و 2 گام برای لایه ادغام، استفاده شد. نتایج نشان داد که فیلترهای لایه کانولوشنی با ابعاد 9 × 9 و 19 × 19 به ترتیب بالاترین سطوح دقت 86.4 درصد و 86.8 درصد را با سرعت طبقه‌بندی سریع 0.004472 و 0.002786 ثانیه داشتند. در[16] یک روش مبتنی بر شبکه عصبی کانولوشنی برای طبقه‌بندی علائم ترافیکی پیشنهاد شد. معماری شبکه عصبی کانولوشنی پیشنهادی دارای 12 لایه، شامل 4 لایه کانولوشنی، 2 لایه ادغام حداکثری، 4 لایه حذفی، 1 لایه مسطح و 1 لایه کاملاً متصل است. تابع خطای متقاطع آنتروپی برای بهینه‌سازی شبکه استفاده شد و آزمایش‌ها بر روی مجموعه داده GTSRB انجام شد. اندازه تصاویر به 30×30 تغییر داده شد و از سایز دسته‌ای 30 استفاده شد و روش پیشنهادی به دقت 99.66 درصد دست یافت. به طور مشابه، در[17] از شبکه عصبی کانولوشنی برای طبقه‌بندی علائم ترافیکی استفاده شد. مدل متشکل از 4 لایه کانولوشنی، 2 لایه ادغام حداکثری، یک لایه حذفی، یک لایه مسطح و 2 لایه متراکم بود. اندازه فیلتر کانولوشنی 3×3 در معماری اعمال شد و تابع فعال‌سازی ReLU در لایه‌های مخفی مختلف به کار گرفته شد. همچنین از تابع خطای متقاطع آنتروپی، بهینه‌ساز آدام و نرخ یادگیری 0.001 استفاده شد. مجموعه داده GTSRB و تکنیک‌های افزایش داده‌ها نیز استفاده شد. معماری شبکه عصبی کانولوشنی پیشنهادی به دقت 99.20 درصد با سرعت طبقه‌بندی 6.63 ثانیه برای داده‌های آزمایشی دست یافت. در[18] سه مدل شبکه عصبی کانولوشنی را مقایسه کردند: AlexNet، DarkNet-53، و EfficientNet-b0 . معماری AlexNet از 13 لایه شامل 5 لایه کانولوشنی، 3 لایه ادغام حداکثری، 2 لایه حذفی و 3 لایه کاملاً متصل تشکیل شده است. توابع فعال‌سازی مورد استفاده ReLU و Softmax بودند. معماری DarkNet-53 از 53 لایه، عمدتاً 1 × 1 و 3 × 3 لایه کانولوشنی، یک لایه نرمال‌سازی دسته ای و یک لایه LeakyReLU بعد از هر لایه کانولوشنی تشکیل شده بود. EfficientNet-b0 شامل 7 لایه MBConv، یک لایه کانولوشنی و یک لایه ادغام و کاملاً متصل بود. مجموعه داده GTSRB برای آزمایش استفاده شد و ابعاد تصویر ورودی برای هر الگوریتم متفاوت و AlexNet 227×227، DarkNet-53 416×416 وEfficientNet-b0 224×224 بود. AlexNet با %97.45 و DarkNet-53 با %94.69 وEfficientNet-b0 با 98.64% بالاترین دقت را ارائه دادند. در[19] یک روش طبقه‌بندی علائم ترافیکی با استفاده از شبکه عصبی عمیق (DNN) و شبکه عصبی کوانتومی (QNN) پیشنهاد شد. از مجموعه‌ای از Nفیلتر کوانتومی برای ساختن لایه‌های کانولوشنی کوانتومی استفاده کردند. هر دو شبکه DNN و QNN دارای لایه‌هایی با ویژگی‌های کانولوشنی، ادغام حداکثری، حذف و لایه متراکم بودند. نتایج نشان داد که DNN به دقت 99.86 درصد دست یافت، در حالی که QNN دقت 94.40 درصد را به دست آورد. در[20] همچنین یک روش طبقه‌بندی علائم ترافیکی با استفاده از شبکه عصبی کانولوشنی پیشنهاد شد. شبکه از 3 لایه کاملاً متصل، 3 لایه ادغام حداکثری و 3 لایه کانولوشنی تشکیل شده است. این شبکه برای تبدیل یک تصویر 100 × 100 در مقیاس خاکستری به اندازه کوچکتر و طبقه‌بندی آن به یکی از 41 کلاس علائم ترافیکی طراحی شده است. ReLU به عنوان تابع فعال‌سازی استفاده شد و شبکه برای 10 دوره آموزش داده شد. از مجموعه داده علائم ترافیکی اندونزیایی استفاده شد که شامل 3133 تصویر علائم ترافیکی و 41 طبقه بندی بود. معماری پیشنهادی به دقت 93 درصد دست یافت. در[21] یک مدل طبقه بندی علائم ترافیکی با استفاده از شبکه عصبی کانولوشنی پیشنهاد شد. این مدل از 11 لایه شامل چهار لایه کانولوشنی، دو لایه تجمیع، یک لایه مسطح و چهار لایه کاملاً متصل تشکیل شده است. این مدل با استفاده از مجموعه داده‌های GTSRB و یک مجموعه داده محلی از علائم ترافیکی هندی آموزش داده شد. یک مجموعه داده ترکیبی از ترکیب دو مجموعه داده تشکیل شد که منجر به 102 کلاس در کل و 65810 تصویر شد. مراحل پیش پردازش مانند مقیاس خاکستری، متعادل سازی هیستوگرام، و نرمال سازی، به مجموعه داده اعمال شد. مدل به سطوح دقت 99.85 درصد در مجموعه داده آلمانی، 91.08 درصد در مجموعه داده هندی و 95.45 درصد در مجموعه داده ترکیبی دست یافت.

معماری شبکه عصبی پیشنهادی

این بخش یک شبکه عصبی سبک وزن را برای تشخیص علائم ترافیکی ارائه می‌کند که به صحت و دقت بالایی با پارامترهای قابل آموزش کمتری دست می‌یابد. مدل پیشنهادی بر روی مجموعه داده‌های معیار تشخیص علائم ترافیکی آلمان (GTSRB) آموزش داده شده است. ابتدا تصاویر علائم ترافیکی جمع آوری و به عنوان مجموعه داده استفاده شد. در بلوک اول، تصاویر با استفاده از روش‌های مختلف برای بهبود شناسایی علائم ترافیکی پیش پردازش شدند. سپس، داده های از پیش پردازش شده به مرحله آموزش فرستاده شدند، جایی که مدل پیشنهادی بر روی مجموعه آموزشی با فراپارامترهای بهینه شده آموزش داده شد. در نهایت، عملکرد مدل در مجموعه آزمایشی برای تعیین عملکرد کلی آن مورد ارزیابی قرار گرفت. شکل 9 یک نمایش بصری از گردش کار و مراحل مختلف درگیر در این فرآیند را ارائه می‌کند که درک بهتر روش مورد استفاده در این مطالعه را تسهیل می‌کند.

شکل 9: فلوچارت مراحل اجرایی یک معماری کانولوشنی

پیش پردازش

مرحله پیش پردازش داده‌ها شامل سه مرحله است: تغییر مقیاس تصویر، نرمال‌سازی و تقویت داده‌ها. مجموعه داده‌های مورد استفاده در این مقاله GTSRB شامل تصاویر با نسبت ابعادی بین 15 × 15 تا 250 × 250 پیکسل است. برای سازگاری با شبکه‌های عصبی، داشتن اندازه‌های ثابت تصویر ضروری است. علاوه بر این، ذکر این نکته ضروری است که کاهش اندازه تصویر به نسبت پیکسل کمتر، مانند 80 × 80 یا 50 × 50، پیچیدگی مدل را کاهش می‌دهد. با این حال، ممکن است بر توانایی مدل برای نمایش دقیق اطلاعات بصری تأثیر منفی بگذارد و عملکرد طبقه‌بندی را کاهش دهد. در آزمایش‌های انجام شده، مدل خود را با اندازه‌های تصویر مختلف آزمایش کردیم و دریافتیم که 100 × 100 پیکسل، مبادله بهینه بین پیچیدگی محاسباتی و دقت طبقه‌بندی را فراهم می‌کند. نرمال‌سازی داده‌ها برای اطمینان از توزیع ثابت پارامترهای ورودی (مقادیر پیکسل)، که امکان همگرایی سریع‌تر در طول آموزش شبکه را فراهم می‌کند، حیاتی است. برای دستیابی به این هدف، مقدار میانگین کم می‌شود و نتیجه بر انحراف معیار آن تقسیم می‌شود و در نتیجه یک توزیع گاوسی با مقدار صفر ایجاد می‌شود. افزایش داده‌ها گام مهمی برای رفع نبود تعادل در مجموعه داده است، جایی که برخی از برچسب‌ها در مقایسه با سایر برچسب‌ها دارای تعداد زیادی تصویر هستند. این روش داده‌های اضافی را از نمونه‌های موجود با اعمال تبدیل‌هایی مانند چرخش، بزرگنمایی، تبدیل و تنظیمات روشنایی ایجاد می‌کند. تابع ImageDataGenerator از کتابخانه Keras، امکان می‌دهد پارامترهایی مانند ضریب مقیاس، دامنه تغییر ارتفاع و عرض، محدوده چرخش، چرخش‌های افقی و عمودی و موارد دیگر را تنظیم کنیم تا داده‌های جدید تولید کنیم که می‌تواند آموزش مدل را بهبود بخشد. افزایش به‌کارگیری یادگیری عمیق جامعه تحقیقاتی را بر آن داشته‌است تا برای دقت بهتر در کارهایی مانند طبقه‌بندی تصاویر تلاش کنند. در نتیجه، شاهد ابداع معماری‌های عمیق‌تری بوده‌ایم که دارای 23.8 میلیون پارامتر و دارای 143.6 میلیون پارامتر هستند. با این حال، افزایش عمق همیشه به سادگی منجر به بهبود دقت نمی‌شود. در واقع، استفاده از هسته‌های بیش از حد می‌تواند باعث کاهش عملکرد بدون کاهش مسئله بایاس بالا و واریانس بالا شود. روند تکراری یادگیری ویژگی‌های جدید بر اساس ویژگی‌هایی که قبلاً آموخته‌اند، همیشه بهینه نیست. در پاسخ به چالش تعادل عمق و دقت، یک معماری شبکه عصبی سبک وزن برای تشخیص علائم ترافیکی پیشنهاد می‌شود که ضمن استفاده از پارامترهای آموزش پذیر کمتر، به دقت و صحت بالاتری دست یابد.

لایه‌های شبکه عصبی کانولوشنی با تبدیل اطلاعات خام از تصاویر ورودی به یک تانسور، استخراج ویژگی‌ها را انجام می‌دهند. این فرآیند مدل را قادر می‌سازد تا الگوها و ویژگی‌های مهم را در تصویر شناسایی کند. سپس تانسور با استفاده از لایه ادغام میانگین جهانی به یک دسته علائم ترافیکی خاص طبقه بندی می‌شود. علاوه بر این، پارامترهای متغیر همه این لایه‌ها با به حداقل رساندن خطای طبقه‌بندی در مجموعه آموزشی بهینه می‌شوند. لایه‌های کانولوشنی اجزای اساسی شبکه‌های عصبی هستند که هر یک از نقشه‌های ورودی را با یک فیلتر دوبعدی کانوالو می‌کنند، به‌طوری که x و y ابعاد ورودی را نشان می‌دهند. هر لایه کانولوشنی شامل نورون‌هایی با بایاس و وزن‌های قابل یادگیری است که به لایه اجازه می‌دهد در طول زمان یاد بگیرد و سازگار شود. نقشه خروجی لایه n با جمع کردن پاسخ‌های کانولوشنیی n-1 لایه ایجاد می‌شود. وزن‌های ω فیلتری را نشان می‌دهند که نقشه ورودی و نقشه‌های خروجی را به هم متصل می‌کند، در حالی که β نشان‌دهنده بایاس نقشه خروجی است. هدف اصلی لایه‌های کانولوشنی استخراج و شناسایی ویژگی‌های خاص از نقشه‌های ورودی و ایجاد انتزاعات سطح بالاتر از این ویژگی‌ها با ترکیب فعال‌سازی فیلتر با استفاده از معادله زیر است.

در روش پیشنهادی، از تابع فعال‌سازی واحد خطی اصلاح‌شده (ReLU) به دلیل غیر خطی بودن، کارایی محاسباتی و توانایی مدیریت ورودی‌های غیرمنفی مانند مقادیر پیکسل استفاده می‌کنیم. معادلات زیر نمایش ریاضی تابع فعال‌سازی ReLU را با شرایط نشان می‌دهد. با صفر کردن مقادیر منفی، تابع فعال‌سازی ReLU به جلوگیری از ناپدید شدن گرادیان‌ها و بهبود عملکرد مدل کمک می‌کند.

لایه‌های ادغام حداکثری با کاهش اندازه فضایی نقشه‌های ویژگی، نقش مهمی در شبکه عصبی کانولوشنی ایفا می‌کنند و در نتیجه تعداد پارامترها و هزینه‌های محاسباتی را کاهش می‌دهند. علاوه بر آن، می‌توانند با انتخاب ویژگی‌های ثابت برتر-که توانایی تعمیم مدل را بهبود می‌بخشد، به جلوگیری از برازش بیش از حد کمک کنند. حداکثر فعال‌سازی روی مناطق غیرهمپوشان، خروجی لایه ادغام حداکثری را تعیین می‌کند. در طول این فرآیند، نقشه ورودی نمونه‌برداری و بعد عمق حفظ می‌شود. برای شناسایی خودکار علائم و سیستم‌های کمک رانندگی در وسایل نقلیه خودران که در آن توانایی تشخیص و طبقه‌بندی دقیق علائم ترافیکی برای ایمنی جاده بسیار مهم است، نرمال‌سازی دسته‌ای می‌تواند بسیار سودمند باشد. فعال‌سازی هر لایه را در یک سری کوچک از نمونه‌های آموزشی نرمال‌سازی می‌کند، در نتیجه وابستگی به تغییرات داخلی را کاهش می‌دهد و به مدل پیشنهادی اجازه می‌دهد تا به طور مؤثرتری یاد بگیرد. علاوه بر این، با بهبود پایداری و کارایی آموزش، مدل پیشنهادی می‌تواند به همگرایی سریع‌تر و عملکرد تعمیم بهتر منجر شود. در چهارچوب پیشنهادی‌، ادغام میانگین سراسری را قبل از لایه‌های مسطح و متراکم قراردادیم تا ضمن بهبود عملکرد تعمیم، هزینه‌های اضافی و محاسباتی را کاهش دهیم. این تکنیک، مقدار میانگین هر نقشه ویژگی را محاسبه، یک بردار ویژگی واحد برای کل تصویر برای طبقه‌بندی ایجاد و از بیش از حد برازش جلوگیری می‎کند و در این حال معماری را ساده می‌کند و پارامترهای قابل آموزش را کاهش می‌دهد. استفاده از ادغام میانگین سراسری، بهبود عملکرد کلی مدل و کاهش هزینه‌های محاسباتی را در برنامه‌های مختلف بینایی ماشین نشان داده‌است. چهارچوب پیشنهادی از طریق یک فرآیند تکراری که هدف آن متعادل کردن پیچیدگی محاسباتی و عملکرد مدل و به حداقل رساندن خطای طبقه‌بندی در مجموعه آموزشی است، بهینه می‌شود. برای انتخاب مقادیر بهینه برای هایپرپارامترها، مانند اندازه هسته و اندازه خروجی، یک جست‌وجو در طیفی از مقادیر انجام و مدل را برای هر ترکیبی از هایپرپارامترها آموزش دادیم و ارزیابی کردیم و مجموعه ای را انتخاب کردیم که بالاترین دقت را در مجموعه اعتبار سنجی از یک تکنیک جست‌وجو با اعتبارسنجی متقابل برای ارزیابی عملکرد هر ترکیبی از هایپرپارامترها و انتخاب پیکربندی بهینه دارد. با این حال، انتخاب تعداد و اندازه لایه‌های کانولوشنی مشکل است که می‌تواند به طور قابل‌توجهی بر عملکرد یک معماری شبکه عصبی کانولوشنی تأثیر بگذارد. پیکربندی معماری پیشنهادی از جمله توابع فعال‌سازی، اندازه‌های هسته، گام‌ها و شکل‌های خروجی هر لایه در شکل 10 نشان داده شده‌است.

شکل 10: پیکربندی معماری شبکه پیشنهادی

به طور خلاصه، روش پیشنهادی شامل مراحل مختلفی از جمله پیش پردازش داده‌ها، طراحی معماری مدل و آموزش و ارزیابی است. با استفاده از تابع فعال سازی ReLU، نرمال‌سازی دسته‌ای و فراپارامترهای مناسب، دقت بهبود یافته در تشخیص علائم ترافیکی به دست آمده‌است.

تابع خطا و الگوریتم بهینه‌سازی

از بهینه‌ساز آدام و تابع خطای متقاطع آنتروپی در طول آموزش استفاده می‌کنیم. بهینه‌ساز آدام یک الگوریتم بهینه‌سازی پرکاربرد است که از نرخ‌های یادگیری تطبیقی برای همگرایی مؤثرتر به حداقل سراسری نسبت به الگوریتم شیب نزولی تصادفی استفاده می‌کند. از سوی دیگر، آنتروپی متقاطع به عنوان تابع ضرر برای مقایسه توزیع‌های پیش‌بینی‌شده و واقعی مسئله طبقه‌بندی انتخاب می‌شود. این تابع، احتمال 1 را به کلاس واقعی و احتمال 0 را به کلاس‌های دیگر اختصاص می‌دهد. مدل پیشنهادی شامل یک طبقه‌بندی‌کننده softmax در آخرین لایه است که از تابع خطای آنتروپی متقاطع استفاده می‌کند، همانطور که در رابطه زیر نشان داده شده است. در این معادله، k نشان‌دهنده کلاس‌های مختلف، ℘ توزیع احتمال پیش‌بینی‌شده، و ˆ℘ توزیع واقعی است که به‌عنوان یک بردار One-hot نشان داده می‌شود.

همانطور که در معادله زیر نشان داده شده است، تابع Softmax σ برای محاسبه y اعمال می‌شود که یک بردار K بعدی از امتیازهای با ارزش واقعی دلخواه z را می‌گیرد و آن را به یک بردار K بعدی σ(zk ) از مقادیر نگاشت می‌کند. بین مقادیر 0 و 1، که جمع آنها 1 می‌شود. در آزمایش‌های انجام شده، ترکیب بهینه‌ساز آدام و تابع خطای متقاطع آنتروپی، نتایج مطلوبی را در افزایش دقت مدل نشان می‌دهد.

مجموعه داده

مجموعه داده‌های معیار تشخیص علائم ترافیک آلمان (GTSRB) شامل 51922 تصویر است که در قالبPNG ذخیره شده‌اند. ابعاد تصاویر در این مجموعه داده از 15 × 15 پیکسل تا 250 × 250 پیکسل است. مجموعه داده GTSRB برای آموزش، اعتبارسنجی و آزمایش مدل به سه گروه تقسیم شده‌است: 31433 تصویر برای آموزش، 7859 تصویر برای اعتبارسنجی و 12630 تصویر برای آزمایش. این مجموعه داده شامل 43 دسته متمایز (شکل 11) است. لذا معیار تشخیص علائم ترافیکی آلمان، یک مجموعه داده از علائم ترافیکی است که به طور گسترده در زمینه تشخیص و شناسایی علائم ترافیکی استفاده می‌شود. GTSRB یک منبع جامع و قابل اعتماد برای ارزیابی عملکرد الگوریتم‌های تشخیص علائم ترافیکی ارائه می‌دهد. با این حال، توجه به این نکته مهم است که مجموعه داده GTSRB در درجه اول از علائم ترافیکی آلمانی تشکیل شده‌است که ممکن است به طور دقیق تنوع علائم ترافیکی مورد استفاده در مناطق دیگر را نشان ندهند. این امر تعمیم مدل‌های آموزش‌دیده شده بر روی مجموعه داده GTSRB را محدود می‌کند و ممکن است منجر به کاهش عملکرد هنگام اعمال در مناطق دیگر شود. با وجود این محدودیت، مجموعه داده GTSRB به دلیل اندازه، حاشیه‌نویسی با کیفیت بالا و نمایش سناریوهای واقعی، منبعی عالی را برای محققان در زمینه تشخیص علائم ترافیکی تبدیل می‌کند.

جزئیات پیاده‌سازی

هدف، دستیابی به دقت بالا، به حداقل رساندن زمان آموزش و استفاده از منابع است. علاوه بر این، مدل پیشنهادی برای استقرار در دنیای واقعی طراحی شده است، به‌طوری که دقت و قابلیت اطمینان در اولویت هستند. استفاده از تصاویر با وضوح بالاتر منجر به تشخیص و طبقه‌بندی دقیقتر علائم ترافیکی می‌شود که در تضمین ایمنی رانندگان و عابران پیاده بسیار مهم است. در طول فرآیند آموزش، از بهینه‌ساز آدام با نرخ یادگیری 0.00025 و اندازه دسته‌ای 128 استفاده کردیم. علاوه بر این، تکنیک‌های مختلف افزایش داده‌ها را برای گسترش اندازه مجموعه آموزشی و بهبود توانایی تعمیم مدل بر رویJupyter که مجهز به GPU GeForce RTX 1080 Ti بود انجام و با استفاده از پایتون 3.8 پیاده‌سازی شده‌است. مدل را با اندازه‌های تصویر مختلف آزمایش کردیم تا بهترین تعادل بین پیچیدگی محاسباتی(زمان و منابع) و عملکرد طبقه‌بندی را پیدا کنیم. وضوح تصویر 100×100 تعادل خوبی بین دقت طبقه‌بندی و پیچیدگی مدل ایجاد می‌کند. یافته‌ها نشان می‌دهد که وضوح پایین‌تر تأثیر منفی بر دقت مدل در طبقه‌بندی علائم ترافیکی دارد، در حالی که وضوح بالاتر منجر به افزایش پیچیدگی مدل و زمان‌های آموزشی طولانی‌تر می‌شود.(همانطور که در جدول 1 نشان داده شده است.)

شکل 11: مجموعه داده‌های معیار تشخیص علائم ترافیکی آلمان (GTSRB).

جدول 1: اندازه‌های تصویر ورودی و تعادل بین پیچیدگی محاسباتی(زمان و حافظه) و عملکرد طبقه‌بندی

امتیاز F1	دقت	میزان حافظه مصرفی	زمان محاسبه	وضوح تصویر
97.1	96.9	18.3MB	935s	70X70
98.43	98.31	21.6MB	1217s	100X100
98.64	98.63	28.7MB	2184s	150X150

معیارهای ارزیابی

معمولاً از شاخص‌های کلیدی عملکرد مدل برای ارزیابی اثربخشی مدل‌های طبقه‌بندی استفاده می‌شود. معیار صحت پیش‌بینی‌های انجام شده توسط مدل را اندازه‌گیری می‌کند و -همانطور که در روابط زیر نشان داده شده است- به عنوان نسبت تعداد نمونه‌های طبقه‌بندی شده صحیح به تعداد کل نمونه‌ها محاسبه می‌شود،. از سوی دیگر، معیار دقت، نسبت مثبت‌های واقعی را در بین تمام پیش‌بینی‌های مثبت انجام‌شده توسط مدل، اندازه‌گیری می‌کند. معیار یادآوری نسبت مثبت های واقعی را در بین تمام نمونه‌های مثبت واقعی در مجموعه داده اندازه‎گیری می‌کند. معیار امتیاز F1 میانگین هارمونیک دقت و یادآوری است که تعادلی بین دو معیار ایجاد می‌کند. از شاخص‌های کلیدی عملکرد فوق‌الذکر برای اندازه‌گیری اثربخشی مدل پیشنهادی استفاده می‌کنیم. این معیارها توانایی مدل را در طبقه‌بندی دقیق علائم ترافیکی ارزیابی می‌کند.

نتایج ارزیابی

برای ارزیابی کارایی و قابلیت اطمینان مدل پیشنهادی مبتنی بر شبکه عصبی کانولوشنی برای شناسایی علائم ترافیکی، آزمایش‌های گسترده‌ای را بر روی مجموعه داده GTSRB انجام دادیم. برای ایجاد یک معیار، نتایج را با چند تکنیک پیشرفته از جمله VGG16، MobileNetv2و ResNet50 مقایسه کردیم. نتایج نشان داد که مدل پیشنهادی به عملکرد خوبی دست یافته است و بر پتانسیل آن برای استقرار مدل شناسایی علائم ترافیکی بلادرنگ و سیستم‌های کمک رانندگی تاکید می‌کند. مقایسه مدل پیشنهادی با سایر مدل‌های پیشرفته در مجموعه داده‌های GTSRB در جدول 2 ارائه شده‌است. مدل پیشنهادی در مقایسه باVGG16، MobileNetv2و ResNet50 به دقت خوبی دست یافت. لازم به ذکر است که راندمان محاسباتی و اندازه کوچک مدل پیشنهادی، آن را برای شناسایی علائم ترافیکی بلادرنگ کاربردی‌تر و مناسب‌تر می‌کند.

جدول 2: مقایسه مدل پیشنهادی با سایر مدل‌های پیشرفته بر روی مجموعه داده‌ GTSRB

حافظه مصرفی	زمان آموزش	تعداد پارامتر	امتیاز F1	فراخوانی	دقت	صحت	مدل معماری
32.7MB	2543s	22.40M	97.44	97.28	97.61	97.32	VGG16
30.2MB	1419s	12.77M	97.22	97.11	97.33	97.17	MobileNetv2
33.2MB	2058s	40.37M	96.48	96.32	96.64	96.41	ResNet50
28.7MB	2184s	2.78M	97.13	96.99	97.27	97.01	روش پیشنهادی

با مقایسه عملکرد مدل پیشنهادی و مدل‌های فوق‌الذکر، قابل مشاهده‌است که مدل پیشنهادی از نظر زمان اجرا و مصرف حافظه به ترتیب با مقادیر زمان اجرای 2184 ثانیه و حافظه مصرفی 28.7 مگابایتی قابل مقایسه با معماری‌های پیشرفته است و تعادل خوبی بین زمان اجرا و حافظه مصرفی به‌دست آمده‌است و آن را به یک راه‌حل جذاب برای استقرار در دنیای واقعی بر روی دستگاه‌های تعبیه‌شده با توان محاسباتی و حافظه محدود تبدیل می‌کند. در شکل 12 بررسی عملکرد مدل پیشنهادی با سایر مدل‌های پیشرفته بر روی مجموعه داده‌ GTSRB نشان داده شده‌است. لذا عملکرد کلی آن از نظر زمان آموزش، تعداد پارامترها و مصرف حافظه، آن را به یک راهکار مناسب برای استقرار بلادرنگ در سیستم‌های تعبیه‌شده تبدیل می‌کند. روش پیشنهادی به گونه‌ای طراحی شد که سبک و کارآمد باشد و از مهندسی ویژگی‌های پیشرفته و شبکه عصبی کانولوشنی برای بهبود دقت و استحکام کلی و در عین حال کاهش تعداد پارامترهای مورد نیاز برای آموزش و استنتاج استفاده ‌کند.

شکل 12: بررسی عملکرد مدل پیشنهادی با سایر مدل‌های پیشرفته بر روی مجموعه داده‌ GTSRB

نتیجه‌گیری

مدل پیشنهادی در این مقاله به طور موثر، طیف متنوعی از علائم ترافیکی را با اشکال، اندازه‌ها و رنگ‌های مختلف شناسایی و طبقه‌بندی می‌کند که نشان‌دهنده استحکام و سازگاری آن در سناریوهای دنیای واقعی است. موفقیت این مدل در تشخیص و طبقه‌بندی انواع علائم ترافیکی، پتانسیل آن را برای افزایش اقدامات ایمنی در مدیریت ترافیک و سیستم‌های رانندگی خودمختار برجسته می‌کند. علاوه بر این، عملکرد مطلوب این مدل پیشنهادی در تشخیص و طبقه‌بندی علائم ترافیکی، پتانسیل کاربرد آن را در مناطق حیاتی ایمنی، مانند وسایل نقلیه خودران، که در آن تشخیص و طبقه‌بندی دقیق و سریع علائم ترافیکی ضروری است، نشان می‌دهد. هنگام طراحی مدل‌های یادگیری ماشین برای کاربردهای عملی مانند تشخیص علائم ترافیکی، توجه به کارایی محاسباتی و اندازه مدل بسیار مهم است. علاوه بر آن، در نظر گرفتن رابطه بین تعداد پارامترها/عملیات و زمان اجرا هنگام طراحی چنین مدل‌هایی نیز مهم است. به طور کلی، انتظار می رود مدلی با پارامترها و عملیات کمتر نسبت به مدل پیچیده‌تر، زمان پاسخگویی سریع‌تری داشته باشد؛ علت این است که یک مدل ساده‌تر به محاسبات کمتری نیاز دارد و پیش‌بینی‌های سریع‌تری را ممکن می‌سازد. در کاربردهای حیاتی ایمنی مانند سیستم‌های خودرو، طراحی چنین چهارچوب‌هایی که چهارچوب‌هایی دقیق و کارآمد با سربار محاسباتی کم و حداقل نیاز به حافظه هستند، ضروری است. این را می توان با کاهش تعداد پارامترها و عملیات قابل آموزش با حفظ دقت بالا به دست آورد و اطمینان حاصل کرد که مدل‌ها می‌توانند بر روی دستگاه‌های تعبیه شده با قدرت محاسباتی و حافظه محدود مستقر شوند که عملکردی قابل اعتماد و سریع را نیز ارائه می‌دهند. مدل پیشنهادی دارای اندازه مدل کوچک و راندمان محاسباتی بالایی است که آن را برای استقرار بلادرنگ کاربردی و مناسب می‌سازد. با افزایش تعداد پارامترها و عملیات در مدل‌های یادگیری ماشین، مدل، پیچیده‌تر می‌شود و به منابع محاسباتی بیشتری برای آموزش نیاز دارد. بنابراین، برای اطمینان از دقت بالا و زمان پاسخ کم، لازم است بین پیچیدگی و عملکرد، متعادل شود. هدف، توسعه یک سیستم سبک و کارآمد است که از تکنیک‌های یادگیری عمیق مانند شبکه عصبی کانولوشنی و مهندسی ویژگی‌های پیشرفته برای بهبود دقت و در عین حال کاهش تعداد پارامترهای مورد نیاز برای آموزش و استنتاج استفاده می‌کند. این سیستم در سناریوهای دنیای واقعی با منابع محاسباتی کم به طور موثر عمل خواهد کرد. آزمایش‌ها نشان می‌دهد که مدل پیشنهادی مبتنی بر شبکه عصبی کانولوشنی بسیار مؤثر و قابل اعتماد است و از نظر دقت با چندین تکنیک پیشرفته مانند VGG16، MobileNetv2 و ResNetv2 قابل مقایسه‌است. دقت، فراخوانی و امتیاز F1 در مجموعه داده GTSRB همانطور که در جدول 2 نشان داده شده‌است. مدل پیشنهادی به نتایج تشخیص و طبقه‌بندی مطلوبی برای علائم ترافیکی با اشکال، اندازه‌ها و رنگ‌های مختلف دست یافت که استحکام و سازگاری آن را در شرایط دنیای واقعی نشان می‌دهد. علاوه بر این، مدل پیشنهادی، سبک وزن و از نظر محاسباتی کارآمد است و آن را برای برنامه‌های بلادرنگ که استفاده از منابع، یک محدودیت است، مناسب می‌کند.

مراجع

[1] L. Jiao et al., “A Survey of Deep Learning-Based Object Detection,” IEEE Access, vol. 7, pp. 128837–128868, 2019.

[2] Li, J.; Wang, Z. Real-time traffic sign recognition based on efficient CNNs in the wild. IEEE Trans. Intell. Transp. Syst. 2018, 20, 975–984.

[3] Zhu, Y.; Yan, W.Q. Traffic sign recognition based on deep learning. Multimed. Tools Appl. 2022, 81, 17779–17791.

[4] Shustanov, A.; Yakimov, P. CNN design for real-time traffic sign recognition. Procedia Eng. 2017, 201, 718–725.

[5] Bangquan, X.; Xiong, W.X. Real-time embedded traffic sign recognition using efficient convolutional neural network. IEEE Access 2019, 7, 53330–53346.

[6] Zaibi, A.; Ladgham, A.; Sakly, A. A lightweight model for traffic sign classification based on enhanced LeNet-5 network. J. Sensors 2021, 2021, 8870529.

[7] Sokipriala, J.; Orike, S. Traffic sign classification comparison between various convolution neural network models. Int. J. Sci. Eng. Res. 2021, 12, 165–171.

[8] Mishra, J.; Goyal, S. An effective automatic traffic sign classification and recognition deep convolutional networks. Multimed. Tools Appl. 2022, 81, 18915–18934.

[9] Chen, L.; Zhao, G.; Zhou, J.; Kuang, L. Real-time traffic sign classification using combined convolutional neural networks. In Proceedings of the 2017 4th IAPR Asian Conference on Pattern Recognition (ACPR), Nanjing, China, 26–29 November 2017; pp. 399–404.

[10] Haque, W.A.; Arefin, S.; Shihavuddin, A.; Hasan, M.A. DeepThin: A novel lightweight CNN architecture for traffic sign recognition without GPU requirements. Expert Syst. Appl. 2021, 168, 114481.

[11] Fang, H.F.; Cao, J.; Li, Z.Y. A small network MicronNet-BF of traffic sign classification. Comput. Intell. Neurosci. 2022, 2022, 3995209.

[12] Sarku, E.; Steele, J.; Ruffin, T.; Gokaraju, B.; Karimodini, A. Reducing Data Costs-Transfer Learning Based Traffic Sign Classification Approach. In Proceedings of the SoutheastCon 2021, Atlanta, GA, USA, 10–13 March 2021; pp. 1–5.

[13] Cao, J.; Song, C.; Peng, S.; Xiao, F.; Song, S. Improved traffic sign detection and recognition algorithm for intelligent vehicles. Sensors 2019, 19, 4021.

[14] Fu, H.; Wang, H. Traffic Sign Classification Based on Prototypes. In Proceedings of the 2021 16th International Conference on Intelligent Systems and Knowledge Engineering (ISKE), Chengdu, China, 26–28 November 2021; pp. 7–10.

[15] Sichkar, V.; Kolyubin, S. Effect of various dimension convolutional layer filters on traffic sign classification accuracy. Sci. Tech. J. Inf. Technol. Mech. Opt. 2019, 19, 546–552.

[16] Agarwal, S.; X, C.; Kumar, R. Convolutional Neural Network for Traffic Sign Classification. Int. J. Inf. Technol. Proj. Manag. 2022, 9.

[17] Youssouf, N. Traffic sign classification using CNN and detection using faster-RCNN and YOLOV4. Heliyon 2022, 8, e11792.

[18] Gökberk, A.; Durdu, A.; Nesimio ˘glu, B.S. Accuracy Comparison of CNN Networks on GTSRB Dataset. J. Artif. Intell. Data Sci. 2022, 2, 63–68.

[19] Kuros, S.; Kryjak, T. Traffic Sign Classification Using Deep and Quantum Neural Networks. 2022.

[20] Pradana, A.I.; Rustad, S.; Shidik, G.F.; Santoso, H.A. Indonesian Traffic Signs Recognition Using Convolutional Neural Network. In Proceedings of the 2022 International Seminar on Application for Technology of Information and Communication (iSemantic), Semarang, Indonesia, 17–18 September 2022; pp. 426–430.

[21] Bhatt, N.; Laldas, P.; Lobo, V.B. A Real-Time Traffic Sign Detection and Recognition System on Hybrid Dataset using CNN. In Proceedings of the 2022 7th International Conference on Communication and Electronics Systems (ICCES), India, June 2022; pp. 1354–1358.

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية

شارک

عنوان URL للمقالة

تشخیص و شناسایی علائم ترافیکی مبتنی بر یادگیری عمیق با سیستمهای تعبیه شده

سند