بهبود قطعهبندی تصاویر پزشکی با استفاده از یادگیری ماشین: نقش بهینهسازی ویژگیهای استخراجشده در شبکههای عصبی کانولوشنی
محورهای موضوعی : فناوری های نوین در سیستم های توزیع شده و محاسبات الگوریتمی
مسلم کاویانی
1
,
ام الکلثوم شهریاری
2
1 - گروه مهندسی کامپیوتر، واحد سنندج، دانشگاه آزاد اسلامی، سنندج، ایران
2 - گروه مهندسی کامپیوتر، واحد سنندج، دانشگاه آزاد اسلامی، سنندج، ایران
کلید واژه: یادگیری ماشین, قطعهبندی تصاویر پزشکی, یادگیری فدرال, معماری قطعهبندی عمیق با فشردگی ویژگیها,
چکیده مقاله :
در سالهای اخیر، شبکههای عصبی کانولوشنی مبتنی بر یادگیری عمیق به پیشرفتهای چشمگیری، بهویژه در حوزه قطعهبندی تصاویر پزشکی، دست یافتهاند. با این حال، عواملی مانند طراحی یکنواخت لایهها، بهرهگیری ناکافی از اطلاعات چندمقیاسی و افزایش پیچیدگی مدلها به دلیل تعداد بالای پارامترها، عملکرد این روشها را در شرایط پیچیده محدود کرده است. افزون بر این، امنیت دادهها و حفظ حریم خصوصی از چالشهای اساسی در پردازش دادههای پزشکی محسوب میشوند. در این پژوهش، یک مدل کانولوشنی رمزگذار-رمزگشا بهبودیافته معرفی شده است که از استراتژیهایی برای بهینهسازی ویژگیهای استخراجشده و کاهش تعداد پارامترها بهره میبرد. این مدل با بهکارگیری سازوکارهای حفظ اطلاعات پایه و ماژولهای توجه متراکم، توانایی استخراج اطلاعات چندسطحی را ارتقا داده و بهعنوان یک گزینه بهینه برای استفاده در ساختار یادگیری فدرال، امنیت و کارایی بیشتری را ارائه میدهد. ارزیابی مدل پیشنهادی بر روی مجموعه داده ClinicDB-CVC نشان میدهد که این روش در مقایسه با سایر روشهای پیشرفته، عملکرد بهتری را از نظر معیار میانگین تقاطع بر روی اتحاد ارائه میدهد.
In recent years, deep learning-based convolutional neural networks have made significant progress, especially in the field of medical image segmentation. However, factors such as uniform layer design, insufficient utilization of multi-scale information, and increased model complexity due to the large number of parameters have limited the performance of these methods in complex situations. In addition, data security and privacy are major challenges in medical data processing. In this study, an improved convolutional encoder-decoder model is introduced that uses strategies to optimize the extracted features and reduce the number of parameters. By employing basic information preservation mechanisms and dense attention modules, this model improves the ability to extract multi-level information and offers greater security and efficiency as an optimal option for use in a federated learning structure. Evaluation of the proposed model on the ClinicDB-CVC dataset shows that this method provides better performance in terms of intersection mean criteria on alliance and Dice coefficient compared to other state-of-the-art methods.
[1] Abdel-Nabi. Heba, Ali. Mostafa and Awajan. Arafat, “A comprehensive review of the deep learning-based tumor analysis approaches in histopathological images: segmentation, classification and multi-learning tasks,” Cluster ComputingVolume 26, Issue 5, Pages 3145 - 3185October 2023 , doi: 10.1007/s10586-022-03951-2
[2] Manju A. Arivukarasi, “AEDAMIDL: An Enhanced and Discriminant Analysis of Medical Images using Deep Learning,” Proceedings of the 3rd International Conference on Smart Technologies in Computing, Electrical and Electronics, ICSTCEE 2022Bengaluru16 December 2022through 17 December 2022 , doi: 10.1109/ICSTCEE56972.2022.10100240
[3] Yang. Mengzhu, Wang. Yongfang and Li, Guoqiang, “SU-Net: A retinal segmentation model based on improved U-Net network,” ACM International Conference Proceeding SeriesPages 946 - 95016 December 2022, doi: 10.1145/3584376.3584545
[4] Shu. Xiu, Yang. Yunyun and Liu. Jun, “ALVLS: Adaptive local variances-Based levelset framework for medical images segmentation,” Pattern RecognitionVolume 136April 2023, doi: 10.1016/j.patcog.2022.109257
[5] Hussain. Tahir and Shouno. Hayaru, “MAGRes-UNet: Improved Medical Image Segmentation Through a Deep Learning Paradigm of Multi-Attention Gated Residual U-Net,” IEEE AccessOpen AccessVolume 12, Pages 40290 – 403102024, doi: 10.1109/ACCESS.2024.3374108
[6] Choubineh. Abouzar, Chen. Jie and Coenen. Frans, “A Quantitative Insight Into the Role of Skip Connections in Deep Neural Networks of Low Complexity: A Case Study Directed at Fluid Flow Modeling,” Journal of Computing and Information Science in EngineeringVolume 23, Issue 1February 2023, doi: 10.1115/1.4054868
[7] Saoudi. Rania, Boudechiche. Djameleddine and Messali. Zoubeida, “Brain MRI Scans Super-Resolution With Wavelet and Attention Mechanisms,” 2nd International Conference on Electrical Engineering and Automatic Control, ICEEAC 2024, doi: 10.1109/ICEEAC61226.2024.10576395
[8] Caicedo. Juan et al, Cimini, Beth A, “Nucleus segmentation across imaging experiments: the 2018 Data Science Bowl,” Nature MethodsOpen AccessVolume 2019, doi: 10.1038/s41592-019-0612-7
[9] Zhang. Rong, Zhang. Rongguo and Ma. Jiechao, “Analysis of different encoder-decoder-based approaches for biomedical imaging segmentation,” ACM International Conference Proceeding SeriesPages 105 - 11320 November 2020 Article number 34493206th International Conference on Robotics and Artificial Intelligence, ICRAI 2020, doi: 10.1145/3449301.3449320
[10] Kaur Buttar. Preetpal and Sachan. Manoj Kumar, “Semantic segmentation of clouds in satellite images based on U-Net++ architecture and attention mechanism,” Expert Systems with ApplicationsVolume 20915 December 2022, doi: 10.1016/j.eswa.2022.118380
[11] Xu. Hanwen, Tang. Xinming and Yang. Fanlin, “Feature-Selection High-Resolution Network With Hypersphere Embedding for Semantic Segmentation of VHR Remote Sensing Images,” IEEE Transactions on Geoscience and Remote SensingVolume 602022, doi: 10.1109/TGRS.2022.3183144
[12] Jha. Debesh and Riegler. Michael A, “DoubleU-Net: A deep convolutional neural network for medical image segmentation,” Proceedings - IEEE Symposium on Computer-Based Medical SystemsOpen AccessVolume 2020-July, Pages 558 – 564, doi: 10.1109/CBMS49503.2020.00111
[13] Shen. Zhixi and Liu. Yong, “A novel connectivity of deep convolutional neural networks,” Proceedings - 2017 Chinese Automation Congress, CAC 2017Volume 2017-January, Pages 7779 - 778329 December 2017, doi: 10.1109/CAC.2017.8244187
[14] Jha. Debesh et al, “A Comprehensive Study on Colorectal Polyp Segmentation with ResUNet++, Conditional Random Field and Test-Time Augmentation,” IEEE Journal of Biomedical and Health InformaticsOpen AccessVolume 25, Issue 6, Pages 2029 - 2040June 2021, doi: 10.1109/JBHI.2021.3049304
[15] Daza. Laura and Gómez. Catalina, “Cerberus: A Multi-headed Network for Brain Tumor Segmentation,” Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)Volume 12659 LNCS, Pages 342 – 3512021, doi: 10.1007/978-3-030-72087-2_30
[16] Sabrowsky. Hirsch, Bertram. Thumfart, “A Content-Driven Architecture for Medical Image Segmentation,” ACM International Conference Proceeding SeriesPages 89 - 9627 November 2020, doi: 10.1145/3442555.3442570
[17] Wang. Zekun, Liu. Peter X and Zou, Yanni, “Hybrid dilation and attention residual U-Net for medical image segmentation,” Computers in Biology and MedicineVolume 134July 2021, doi: 10.1016/j.compbiomed.2021.104449
[18] Lu. Chengsong, “Performance analysis of attention mechanism and teacher forcing ratio based on machine translation,” Journal of Physics: Conference SeriesOpen AccessVolume 2580, Issue 12023, doi: 10.1088/1742-6596/2580/1/012006
[19] Basyal. Ganga et al, “Comparative study of CNN models for brain tumor classification: Computational efficiency versus accuracy,” 27th Annual Americas Conference on Information Systems, AMCIS 2021, ISBN: 978-173363258-4
[20] Li. Daihui, Ma. Chengxu and Zeng. Shangyou, “Design of efficient convolutional neural module based on an improved module,” Advances in Science, Technology and Engineering SystemsOpen AccessVolume 5, Issue 1, Pages 340 – 3452020,doi: 10.25046/aj050143
[21] Pengyu. Li et al, “Improving CNN Model for Residential Building Image Classification: Enhancing Parameter Estimation Accuracy Through Transfer Learning and Reducing Model Complexity with MobileNet,” Proceedings - 2023 3rd International Signal Processing, Communications and Engineering Management Conference, ISPCEM 2023Pages 50 – 542023, doi: 10.1109/ISPCEM60569.2023.00016
[22] Vats. Satvik et al, ” Advanced Image Classification on Intel Datasets Using Optimized EfficientNet and MobileNetV2,” 2024 IEEE 9th International Conference for Convergence in Technology, I2CT 2024, doi: 10.1109/I2CT61223.2024.10543649
[23] Zhou. Yingzi, Huang. Kun and Guo, Xiaoying, “End-to-end deep residual network for semantic segmentation,” Journal of Physics: Conference SeriesOpen AccessVolume 1684, Issue 130 November 2020, doi: 10.1088/1742-6596/1684/1/012053
Journal of New Technologies in Distributed Systems and Algorithmic Computing
Islamic Azad University of Sabzevar
E-ISSN: 3115-705X
https://sanad.iau.ir/journal/ntds
Reaserch Article |
Improving Medical Image Segmentation Using Machine Learning: The Role of Optimization of Extracted Features in Convolutional Neural Networks
Moslem Kaviani 1 | Omokolsoom Shahryari *2
1Department of Computer Engineering, Sa.C, Islamic Azad University, Sanandaj, Iran, Mo.kaviani@iau.ac.ir
2Department of Computer Engineering, Sa.C, Islamic Azad University, Sanandaj, Iran, Shahryari.k@iausdj.ac.ir
Corresponding Author *Omokolsoom Shahryari ,Assistant Professor, Department of Computer Engineering, Sa.C, Islamic Azad University, Sanandaj, Iran, Shahryari.k@iausdj.ac.ir |
Abstract
Main Subjects: Medical Image Segmentation Received: 15 March 2025 Revised: 18 May 2025 Accepted: 28 May 2025
|
Keywords: Machine learning, Medical Image Segmentation, Federated Learning, Deep Segmentation Architecture with Feature Compression.
پژوهشی |
بهبود قطعهبندی تصاویر پزشکی با استفاده از یادگیری ماشین: نقش بهینهسازی ویژگیهای استخراجشده در شبکههای عصبی کانولوشنی
مسلم کاویانی1| امکلثوم شهریاری*2
1گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی واحد سنندج، سنندج، ایران، Mo.kaviani@iau.ac.ir
2گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی واحد سنندج، سنندج، ایران، Shahryari.k@iausdj.ac.ir
نویسنده مسئول *امکلثوم شهریاری، استادیار گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی واحد سنندج، سنندج، ایران، Shahryari.k@iausdj.ac.ir
|
موضوع اصلی: قطعهبندی تصاویر پزشکی تاریخ دریافت: 25/12/1403 تاریخ بازنگری: 28/2/1404 تاریخ پذیرش: 7/3/1404
|
کلیدواژهها: یادگیری ماشین، قطعهبندی تصاویر پزشکی، یادگیری فدرال، معماری قطعهبندی عمیق با فشردگی ویژگیها
1-مقدمه
تحلیل تصاویر پزشکی نقش مهمی در تشخیص و درمان سرطان ایفا میکند. تصاویر میکروسکوپی میتوانند اطلاعات ارزشمندی درباره مراحل بیماری، تمایز انواع تومورها، مکانیسمهای ژنتیکی سلولی و مولکولی، و همچنین کاربردهای مرتبط با بیماریهای مزمن و سرطان ارائه دهند]1[. به طور سنتی، تحلیل این تصاویر بهصورت دستی توسط پاتولوژیستها انجام میشود، فرایندی که وابسته به تجربه پزشکان است، زمان زیادی میبرد و درعینحال مستعد خطا و وابستگی به فرد است. ازاینرو، سیستمهای تشخیص رایانهای به دلیل نقش کلیدی خود در تشخیص پزشکی و تحلیل تصاویر، توجه بسیاری از محققان و کاربردهای بالینی را به خود جلب کردهاند. این سیستمها عمدتاً بر اساس قطعهبندی تصاویر پزشکی عمل میکنند]2[. برخلاف وظایف طبقهبندی و تشخیص، هدف اصلی قطعهبندی تصاویر پزشکی، جداسازی دقیق اشیای خاص از پسزمینه تصویر است که منجر به تحلیل دقیقتر بیماریها میشود]3[.
الگوریتمهای کلاسیک و فازی مورداستفاده در قطعهبندی تصاویر پزشکی هر یک دارای پارامترهای خاصی هستند که آنها را برای کاربردهای متفاوت مناسب میسازد. بااینحال، این روشها معمولاً در تعمیمپذیری روی دادههای پیچیده با محدودیتهایی مواجهاند. علاوه بر این، کیفیت تصاویر پزشکی تأثیر مستقیمی بر عملکرد این الگوریتمها دارد؛ بنابراین، توسعه مدلهایی که در برابر چالشهای مختلف مقاومت بالایی داشته باشند، امری ضروری است]4[.
در سالهای اخیر، شبکههای عصبی کانولوشنی با معماریهای رمزگذار - رمزگشا توانستهاند عملکرد بهتری در قطعهبندی تصاویر پزشکی نسبت به روشهای سنتی ارائه دهند]5[. موفقیت این مدلها عمدتاً به دلیل بهرهگیری از اتصالهای میانبر است که اطلاعات معنایی سطح پایین را با اطلاعات سطح بالا ترکیب کرده و به تولید ماسک نهایی کمک میکند]6[. بااینحال، بسیاری از معماریهای پیشرفته تنها بر بهینهسازی الگوریتمهای استخراج ویژگیهای عمیق متمرکز هستند و اهمیت اطلاعات با وضوحبالا در مراحل اولیه رمزگذاری را نادیده میگیرند. این اطلاعات میتوانند با جبران افت اطلاعات مکانی که طی عملیات کاهش اندازه رخ میدهد، دقت مدل را بهبود بخشند]7[.
در این مقاله، یک معماری رمزگذار - رمزگشا برای قطعهبندی تصاویر پزشکی با عنوان شبکه قطعهبندی عمیق با فشردگی ویژگیها معرفی شده است. این معماری باهدف توسعه مدلی سبک و فشرده طراحی شده است که ضمن حفظ کارایی، تعداد پارامترها و پیچیدگی را کاهش دهد.
در بخش رمزگذار، مدل پیشنهادی از مکانیزم حفاظت اطلاعات پایه استفاده میکند که علاوه بر کاهش تعداد پارامترها، اطلاعات مکانی بلندمدت را در لایههای معنایی سطح پایین حفظ کرده و به بلوک توجه تقسیم فشرده ارسال میکند. این بلوک با بهرهگیری از یک ساختار توجه چندمسیره، نمایش ویژگیهای کانالهای مختلف را تقویت میکند.
در بخش رمزگشا، ویژگیهای رمزگذاری شده در هر لایه کاهشیافته با ویژگیهای افزایشیافته از طریق اتصالهای میانبر ادغام میشوند و همان بلوک توجه تقسیم فشرده برای استخراج ویژگیهای ترکیبی به کار گرفته میشود.
طراحی این مدل بهگونهای است که در مواجهه با دادههای پیچیده، عملکرد پایداری داشته باشد. همچنین، کاهش وابستگی به کیفیت تصاویر ورودی، آن را برای کاربردهای پزشکی مختلف، از جمله دادههای پر نویز یا با کنتراست پایین، قابلاعتماد میسازد. ارزیابی مدل پیشنهادی روی مجموعهداده ClinicDB-CVC ]8[. انجام شده است. نتایج این ارزیابی نشان میدهد که مدل پیشنهادی در مقایسه با سایر روشهای پیشرفته، عملکرد بهتری از نظر معیارهای میانگین تقاطع بر روی اتحاد و ضریب دایس ارائه میدهد.
۱-۱-انگیزه پژوهش
با پیشرفت فناوری و افزایش استفاده از سیستمهای تحلیل تصاویر پزشکی، نیاز به روشهای دقیق و کارآمد برای قطعهبندی این تصاویر بیش از گذشته احساس میشود. روشهای سنتی مانند آستانهگذاری و الگوریتمهای مبتنی بر ویژگیهای پیکسلی، در مواجهه با تصاویر پیچیده و کمکیفیت دچار محدودیتهایی هستند که میتواند به تشخیصهای نادرست و در نهایت درمانهای ناموفق منجر شود.
علاوه بر این، با رشد فزاینده حجم دادههای پزشکی، تبادل این اطلاعات میان مراکز درمانی و پژوهشی برای بهبود مدلهای یادگیری ماشینی امری ضروری است. بااینحال، چنین تبادلی چالشهای قابلتوجهی را در زمینه حفظ امنیت و حریم خصوصی دادهها به همراه دارد. دادههای پزشکی به دلیل حساسیت بالای خود، در صورت افشا میتوانند پیامدهای جدی قانونی و اخلاقی داشته باشند. ازاینرو، توسعه روشهایی که علاوه بر بهبود دقت قطعهبندی، امنیت دادهها را نیز تضمین کنند، یک ضرورت محسوب میشود.
این پژوهش باهدف رفع این خلأ انجام شده است و تلاش میکند مدلی پیشرفته و ایمن ارائه دهد که ضمن حفظ حریم خصوصی دادهها، عملکرد بهینهای در قطعهبندی تصاویر پزشکی داشته باشد. این مدل باید قادر باشد با چالشهای مرتبط با دادههای پیچیده، متنوع و پر نویز سازگار بوده و در کاربردهای گوناگون پزشکی مورداستفاده قرار گیرد.
۲-۱-هدف پژوهش
هدف اصلی این پژوهش، طراحی و ارائه یک مدل پیشرفته مبتنی بر معماری رمزگذار - رمزگشا است که با بهرهگیری از حفظ دقت قطعهبندی تصاویر پزشکی، از امنیت دادهها و حریم خصوصی بیماران نیز محافظت کند. مدل پیشنهادی با استفاده از تکنیکهای نوینی مانند مکانیزم حفاظت اطلاعات پایه و بلوک توجه تقسیم فشرده، توانایی مقابله با چالشهای تصاویر پیچیده را افزایش داده و عملکرد مطلوبی را در سناریوهای مختلف پزشکی ارائه میدهد.
روشهای یادگیری عمیق مبتنی بر شبکههای عصبی کانولوشنی توانستهاند عملکرد قابلتوجهی در قطعهبندی تصاویر پزشکی ارائه دهند. معماری شبکههای کانولوشنی رمزگذار-رمزگشا ]9[که شامل دو بخش رمزگذار و رمزگشا است، در قطعهبندی انواع تصاویر پزشکی نتایج مطلوبی به همراه داشته است. کائور و همکاران ]10[نسخهای پیشرفته از این مدل تحت عنوان U-Net++ را معرفی کردند که با اضافه کردن مسیرهای تو در تو و اتصالهای میانبر، میزان از دست رفتن اطلاعات معنایی را در هنگام ترکیب ویژگیهای رمزگذار و رمزگشا کاهش میدهد. در همین راستا، ژو و همکاران ]11[رویکردی مبتنی بر اتصالات میانبر تماممقیاس ارائه دادند که اطلاعات با وضوح بالا و پایین را در سطوح مختلف ترکیب میکند.
DoubleU-Net که توسط ژا و همکاران ]12[توسعه یافت، از دو شبکه کانولوشنی رمزگذار - رمزگشا تشکیل شده است که بهصورت ترتیبی عمل میکنند. در این مدل، بخش رمزگذار وظیفه استخراج و تجزیهوتحلیل ویژگیهای پیچیده تصویر را بر عهده دارد و در پایان هر مرحله از کاهش نمونهبرداری، اطلاعات متنی را جمعآوری میکند.
برای حل مشکل محوشدن گرادیان در شبکههای عمیق، شن و همکاران ]13[معماری ResNet را معرفی کردند که در بسیاری از مدلهای قطعهبندی مورداستفاده قرار گرفته است. در زمینه قطعهبندی پزشکی، ژا و همکاران ]14[نسخه پیشرفتهای از این معماری به نام ResUNet++ را برای قطعهبندی پولیپ ارائه دادند که شامل ماژول فشردهسازی و تحریک و مکانیزم توجه است. دازا و همکاران ]15[نیز نسخههای سبکوزنی از معماری شبکههای کانولوشنی رمزگذار - رمزگشا را برای قطعهبندی تومور مغزی طراحی کردند که در آن، از ماژولهای گسترش و بلوکهای متراکم در بخش رمزگذار و رمزگشا استفاده شده است.
برخلاف تلاشهایی که بر بهینهسازی معماری شبکه متمرکز بودند، سابروسکی و همکاران]16[مدل nnU-Net را معرفی کردند که بهجای تغییر در ساختار شبکه، اهمیت پیشپردازش دادهها، استراتژیهای آموزش مدل و فرایند استنتاج نتایج را برجسته میکند.
1-2-ماژولهای توجه متراکم
در سالهای اخیر، مکانیزم توجه بهسرعت در حوزه بینایی کامپیوتر گسترشیافته است و بهعنوان یکی از رویکردهای کلیدی در قطعهبندی تصاویر پزشکی مورداستفاده قرار گرفته است. یکی از این مدلها، مکانیزم توجه کانالی است که شامل یک ماژول فشردهسازی برای جمعآوری اطلاعات مکانی کلی و یک ماژول تحریک برای استخراج روابط بین کانالهای نقشه ویژگی میشود]17[.
علاوه بر توجه کانالی، توجه مکانی نیز بهعنوان یک مکانیزم انتخاب تطبیقی موقعیتهای مکانی شناخته میشود. بهعنوانمثال، لو چنگ]18[مدل شبکههای رمزگذار - رمزگشای توجهی را معرفی کرد که از یک دروازه توجه پایینبهبالا برای تمرکز دقیقتر بر نواحی خاص تصویر بهره میبرد.
علاوه بر این، ادغام مدلهای انتقالی با شبکههای عصبی کانولوشنی عملکرد قابلتوجهی در قطعهبندی تصاویر پزشکی نشان داده است. برای نمونه، باسیال و همکاران ]19[مدل شبکه عصبی انتقالی پیچشی را پیشنهاد کردند که در آن، شبکههای عصبی کانولوشنی برای استخراج پچهای تصویری در نیمه اول رمزگذار به کار گرفته شده و مدلهای انتقالی برای استخراج زمینههای جهانی استفاده میشوند.
ماژول دورانی پیشرفته یکی از معماریهای کارآمد در شبکههای عصبی است که توسط لی و همکاران ]20[ معرفی شد. در این ساختار، هر فیلتر کانولوشن مسئول پردازش یک کانال ورودی است. برخلاف کانولوشن استاندارد، این روش قادر است عملکرد مشابهی را با کاهش قابلتوجه تعداد پارامترها و محاسبات ارائه دهد.
مدل MobileNets با بهرهگیری از این تکنیک، بهعنوان یک معماری نوآورانه در یادگیری عمیق مطرح شد. در زمینه دستهبندی تصاویر، پنگیو و همکاران ]21[ از ماژول دورانی پیشرفته برای توسعه مدلهایی استفاده کردند که نهتنها از روشهای پیشین کارآمدتر بودند، بلکه پیچیدگی محاسباتی کمتری نیز داشتند.
بااینحال، واتس و همکاران ]22[ دریافتند که ماژول دورانی پیشرفته در نقشههای ویژگی با تعداد کانالهای کم عملکرد مطلوبی ندارد. برای رفع این محدودیت، آنها مدل MobileNetV2 را ارائه دادند که در آن، یک کانولوشن 1×1 پیش از عملیات دورانی پیشرفته به کار گرفته میشود تا ابعاد ویژگیها افزایش یابد و عملکرد مدل بهبود پیدا کند.
|
شکل 1: مدل حفظ اطلاعات پایه
Figure 1: Base information retention model
3-مدل پیشنهادی
1-3-حفظ اطلاعات پایه
در اکثر مدلهای قطعهبندی تصاویر پزشکی، عملیات کانولوشن در اولین بلوک نمونهبرداری به پایین برای استخراج اطلاعات معنایی سطح پایین از تصاویر استفاده میشود. معماری مدل کانولوشنی رمزگذار - رمزگشا به طور گسترده در مدلهای مختلف مورداستفاده قرار گرفته است. مدل بلاک اولیه معمولاً بهگونهای طراحی میشود که میدان دید مؤثر مشابه با کانولوشن 7×7 را فراهم کند و تعداد پارامترها را کاهش دهد.
در مدل ResUNet++ لایه اول نمونهبرداری به پایین شامل استراتژی اتصال میانبری است تا اثرات منفی ناپدیدشدن گرادیان را کاهش دهد، هرچند افزودن بلوکهای کانولوشنی بیشتر میتواند میدان دید مؤثر شبکه را گسترش دهد، اما این کار منجر به افزایش سریع تعداد پارامترها و محاسبات میشود و ممکن است پایداری مدل را تحتتأثیر قرار دهد. همچنین، تحقیقات اخیر نشان دادهاند که میدان دید مؤثر در صورت افزایش تعداد کانولوشنهای 3×3 پیاپی، ممکن است تا حدی کاهش یابد.
برای رفع این مسئله، ما یک استراتژی جدید به نام حفظ اطلاعات پایه را در اولین بلوک نمونهبرداری به پایین معرفی میکنیم که در شکل 1 ارائه شده است. اصلاح اصلی این ماژول استفاده از کانولوشن جداسازی عمقی است، که شامل یک کانولوشن عمقی 7×7 بهدنبال یک کانولوشن نقطهای 1×1 میباشد. از آنجا که کانولوشن جداسازی عمقی هزینه محاسباتی و تعداد پارامترها را در مقایسه با کانولوشن استاندارد کاهش میدهد، این امکان فراهم میشود که از اندازههای بزرگ هسته در کانولوشن عمقی استفاده کنیم تا اطلاعات مکانی دوردست را ادغام کرده و اطلاعات پایه را تا حد امکان در لایه معنایی سطح پایین حفظ کنیم. برای بهبود ویژگیهای کانال، یک کانولوشن 3×3 در ابتدای این ماژول اضافه شده است، زیرا عملکرد کانولوشن جداسازی عمقی در ویژگیهای کمبعد کاهش مییابد در نهایت، ماژول پیشنهادی حفظ اطلاعات پایه میتواند بدون افزایش تعداد پارامترها و هزینه محاسباتی، عملکرد شبکه را بهبود بخشد.
2-3-ماژول فشردهسازی توزیعشده
مدلهایی مانند DoubleUnet و ساختارهای مبتنی بر اتصالات باقیمانده در بسیاری از روشهای قطعهبندی معنایی مورداستفاده قرار گرفتهاند. بااینحال، در برخی از شبکههای کلاسیک، لایههای کانولوشنی بهصورت متوالی رویهم قرار میگیرند که این موضوع باعث میشود هر لایه تنها میدان دید ثابتی داشته باشد. در قطعهبندی تصاویر پزشکی، ضایعات میتوانند اندازههای متنوعی داشته باشند، بنابراین نمایش ویژگیهای چند مقیاسی نقش مهمی در بهبود عملکرد مدل ایفا میکند. به همین دلیل، در سالهای اخیر رویکردهای جدیدی برای بهرهگیری از ویژگیهای بین کانالی در فرایند یادگیری مدلها پیشنهاد شدهاند ]23[.
با الهام از این روشها، ما معماری جدیدی به نام ماژول فشردهسازی توزیعشده توسعه دادهایم. یک نمای کلی از بلوک پیشنهادی جدید در شکل 2 نشان داده شده است. این مدل برای بهینهسازی استخراج ویژگیهای چندمقیاسی و کاهش تعداد پارامترها، از سه گروه با نرخ گسترش متفاوتd=1، d=2 و d=4 استفاده میکند. این سه گروه از ویژگیهای ورودی تقسیمشده، ابتدا از یک فیلتر کانولوشنی 1×1 برای کاهش ابعاد عبور میکنند و سپس وارد فیلترهای کانولوشنهای 3×3 با نرخ گسترشهای متفاوت میشوند تا ویژگیهای چندمقیاسی را استخراج کنند. ویژگیهای خروجی هر سه گروه با یکدیگر جمع شده و وارد یک مکانیسم توجه فضایی با کانولوشن 7×7 میشوند که اطلاعات مناطق مهم نقشه ویژگی را تقویت میکند. همچنین، یک اتصال باقیمانده همراه با تطابق ابعاد با استفاده از کانولوشن 1×1 به خروجی نهایی اضافه میشود. این طراحی جدید توانایی بالاتری در استخراج اطلاعات جهانی و محلی از نقشههای ویژگی ارائه میدهد و با پردازش چندمقیاسی، عملکرد بهتری در قطعهبندی تصاویر پزشکی بهویژه برای شناسایی ضایعات با اندازههای مختلف دارد.
|
شکل 2: ماژول فشردهسازی توزیعشده
Figure 2: Distributed compression module
3-3-معماری مدل پیشنهادی
در این پژوهش، مدلی مبتنی بر استراتژی حفظ اطلاعات پایه و بلوک فشرده تقسیمشده ارائه شده است که از معماری رمزگذار - رمزگشا پیروی کرده و تحت عنوان شبکه قطعهبندی عمیق با فشردگی ویژگیها شناخته میشود. طرح کلی این مدل در شکل ۳ نمایشدادهشده است.
بخش رمزگذار: در مرحله رمزگذاری، استراتژی حفظ اطلاعات پایه برای استخراج اطلاعات معنایی سطح پایین از تصاویر ورودی مورداستفاده قرار میگیرد. در این فرایند، کانولوشن عمقی جداشدنی با یک کرنل ۷×۷ به کار گرفته میشود تا میدان دید شبکه گسترش یابد و اطلاعات پایه بدون افزایش تعداد پارامترها حفظ شوند.
ماژول فشردهسازی توزیعشده، متشکل از گروههای ویژگی چندمسیره با تعداد متنوعی از کانولوشنها و مکانیزم توجه است که اطلاعات کانالی را در مقیاسهای مختلف میدان دید ترکیب کرده و ویژگیهای معنایی معنادار را برجسته میسازد. در ادامه، هر بلوک با عملیات مکس پولینگ ۲×۲ همراه با گام ۲ دنبال میشود تا عملیات کاهش مقیاس صورت گیرد.
بخش رمزگشا: در مرحله رمزگشایی، هر زیرشبکه ابتدا با یک عملگر افزایش مقیاس آغاز میشود که بهتدریج اندازه تصویر ورودی را بازیابی میکند. برای حفظ اطلاعات کلیدی، اتصالات میانبر میان نقشههای ویژگی رمزگشا و لایههای متناظر رمزگذار برقرار میشود. این فرایند باعث میشود که اطلاعات سطح پایین و سطح بالا ترکیب شوند و در نتیجه، ماسک خروجی بادقت بالاتری ایجاد شود. پس از این مرحله، بلوکهای فشرده تقسیمشده اضافه میشوند تا مشکل ناپدیدشدن گرادیان برطرف شده و ویژگیهای مؤثرتری استخراج شوند. در مرحله نهایی، یک کانولوشن ۱×۱ به همراه لایه سیگموید یا سافت مکس به کار گرفته میشود تا ماسک قطعهبندی باینری یا چند کلاسه تولید گردد.
این طراحی باعث میشود که مدل یادگیری عمیق برای قطعهبندی با ادغام ویژگیها از توانایی بالایی در استخراج و ترکیب اطلاعات معنایی تصاویر پزشکی برخوردار باشد و نتایج دقیقی ارائه دهد. علاوه بر این، ساختار این مدل بهگونهای بهینهسازی شده است که برای یادگیری فدرال مناسب باشد. با بهرهگیری از مدل دادههای فشرده و کاهش تعداد پارامترها، زیرساختی کارآمد برای پردازش غیرمتمرکز دادههای پزشکی فراهم میشود.
|
شکل 3: شبکه قطعهبندی عمیق با فشردگی ویژگیها
Figure 3: Deep segmentation network with feature compression
4-نتیجهگیری
1-4-دیتاست
آزمایشها و نتایج دیتاست برای ارزیابی اثربخشی مدل حفظ اطلاعات پایه و ماژول فشردهسازی توزیعشده، این مدل را بر روی یک دیتاست پزشکی عمومی تست میکنیم. دیتاست CVC-ClinicDB یکی از دیتاستهای پرکاربرد برای قطعهبندی پولیپ است این دیتاست به طور دقیق هر سلول را در تصاویر میکروسکوپی برچسبگذاری میکند.
2-4-معیارهای ارزیابی
برای ارزیابی عملکرد مدلها در قطعهبندی تصاویر پزشکی، از معیارهای استاندارد مانند میانگین تقاطع بر اتحاد (mIoU)، دقت (Accuracy)، یادآوری (Recall)و دقت پیشبینی (Precision) استفاده میشود. میانگین تقاطع بر اتحاد (mIoU) بهعنوان یک معیار رایج در مسابقات برای مقایسه عملکرد مدلها مورداستفاده قرار میگیرد.
نتایج کمی روی دیتاست CVC-ClinicDB در جدول 1 نمایش داده شده است. در قطعهبندی تصاویر پزشکی، عملکرد شبکه بر اساس متریک mIoU معمولاً بیشتر مورد توجه قرار میگیرد. از جدول 1 مشخص میشود که مدل حفظ اطلاعات پایه با بلوک فشرده موفق به بهبود عملکرد قابلتوجهی در مقایسه با مدلهای مشابه شده است.
جدول 1: مقایسه مدل پیشنهادی با چند مدل مطرح بر روی دیتاست Cvc-CliniC-DB
Table 1: Comparison of the proposed model with several prominent models on the Cvc-CliniC-DB dataset
.
|
در یادگیری فدرال و با تأکید بر حفظ امنیت دادهها، استفاده از معماریهای رمزگذار - رمزگشا برای قطعهبندی معنایی تصاویر پزشکی به دلیل ویژگیهای قدرتمند در استخراج و تحلیل اطلاعات، امری رایج است. روش پیشنهادی ما، با استفاده از کانولوشنهای عمقی جداشدنی با کرنلهای بزرگ، اطلاعات پایه تصاویر را حفظ کرده و بر اساس ماژول فشردهسازی توزیعشده و مکانیزم حفظ اطلاعات پایه برای کاهش پهنای باند و هزینههای ارتباطی، وزنها و گرادیانهای ارسالی از کلاینتها به سرور بهصورت فشرده کاربرد دارد. امکان ارسال سبک و امن پارامترها را فراهم میکنند. این فشردهسازی بدون افت دقت مدل، کارایی ارتباطات را بهبود میبخشد.
ویژگی حریم خصوصی بهویژه در سناریوهای پزشکی که حریم خصوصی بیماران اهمیت بالایی دارد، کارایی خود را نشان میدهد. استفاده از این روشها در یادگیری فدرال، تضمینکننده امنیت دادهها بدون کاهش عملکرد مدل است. در فرایند یادگیری فدرال، امنیت ارتباطات بین کلاینتها و سرور مرکزی از اهمیت بالایی برخوردار است. رمزنگاری انتها به انتها اطمینان میدهد که دادهها و مدلها در طول انتقال غیرقابلدسترسی باشند. علاوه بر این، تکنیکهای جمعآوری امن امکان ترکیب مدلهای محلی را بدون افشای اطلاعات هر کلاینت فراهم میکنند. این روشها، حریم خصوصی و امنیت دادهها را به طور همزمان تضمین میکنند.
نوآوریهای اصلی این تحقیق، طراحی ماژول فشردهسازی توزیعشده است که با تقویت اتصال میان کانالها و بهکارگیری مکانیزم توجه، ویژگیهای چند مقیاسی را بهینه میکند. این بلوکها در محیط یادگیری فدرال بسیار مؤثر هستند، زیرا میتوانند اطلاعات عمیق را بدون انتقال دادههای حساس بین کلاینتها و سرور استخراج کنند.
مدل پیشنهادی ما، با تعداد پارامترهای کمتر و زمان استنتاج قابلقبول، برای پیادهسازی در دستگاههای با حافظه محدود و در شرایط یادگیری فدرال مناسب است. همچنین، این مدل میتواند در سناریوهایی که تصاویر دارای کیفیت پایین، نویز بالا یا شرایط چالشبرانگیز هستند، عملکرد قابلتوجهی داشته باشد.
برای آینده، چندین مسیر پژوهشی پیشنهاد میشود:
-گسترش چارچوب به تصاویر سهبعدی پزشکی برای بهرهبرداری
-ارزیابی عملکرد یادگیری فدرال روی دادههای واقعی بیمارستانی، بهمنظور تحلیل اثربخشی در سناریوهای واقعی.
-استفاده از الگوریتمهای ترکیب پیشرفته برای مدیریت دادههای غیرهمگن بین کلاینتها.
-ادغام یادگیری فدرال با مدلهای انتقالی برای بهبود دقت در سناریوهای با دادههای کم.
بهطورکلی، مدل پیشنهادی ما نشاندهنده عملکرد برجستهای در قطعهبندی تصاویر پزشکی است و میتواند بهعنوان یک مدل امن و کارآمد برای کاربردهای مختلف در محیطهای یادگیری فدرال مورداستفاده قرار گیرد.
مراجع:
[1] Abdel-Nabi. Heba, Ali. Mostafa and Awajan. Arafat, “A comprehensive review of the deep learning-based tumor analysis approaches in histopathological images: segmentation, classification and multi-learning tasks,” Cluster ComputingVolume 26, Issue 5, Pages 3145 - 3185October 2023 , doi: 10.1007/s10586-022-03951-2
[2] Manju A. Arivukarasi, “AEDAMIDL: An Enhanced and Discriminant Analysis of Medical Images using Deep Learning,” Proceedings of the 3rd International Conference on Smart Technologies in Computing, Electrical and Electronics, ICSTCEE 2022Bengaluru16 December 2022through 17 December 2022 , doi: 10.1109/ICSTCEE56972.2022.10100240
[3] Yang. Mengzhu, Wang. Yongfang and Li, Guoqiang, “SU-Net: A retinal segmentation model based on improved U-Net network,” ACM International Conference Proceeding SeriesPages 946 - 95016 December 2022, doi: 10.1145/3584376.3584545
[4] Shu. Xiu, Yang. Yunyun and Liu. Jun, “ALVLS: Adaptive local variances-Based levelset framework for medical images segmentation,” Pattern RecognitionVolume 136April 2023, doi: 10.1016/j.patcog.2022.109257
[5] Hussain. Tahir and Shouno. Hayaru, “MAGRes-UNet: Improved Medical Image Segmentation Through a Deep Learning Paradigm of Multi-Attention Gated Residual U-Net,” IEEE AccessOpen AccessVolume 12, Pages 40290 – 403102024, doi: 10.1109/ACCESS.2024.3374108
[6] Choubineh. Abouzar, Chen. Jie and Coenen. Frans, “A Quantitative Insight Into the Role of Skip Connections in Deep Neural Networks of Low Complexity: A Case Study Directed at Fluid Flow Modeling,” Journal of Computing and Information Science in EngineeringVolume 23, Issue 1February 2023, doi: 10.1115/1.4054868
[7] Saoudi. Rania, Boudechiche. Djameleddine and Messali. Zoubeida, “Brain MRI Scans Super-Resolution With Wavelet and Attention Mechanisms,” 2nd International Conference on Electrical Engineering and Automatic Control, ICEEAC 2024, doi: 10.1109/ICEEAC61226.2024.10576395
[8] Caicedo. Juan et al, Cimini, Beth A, “Nucleus segmentation across imaging experiments: the 2018 Data Science Bowl,” Nature MethodsOpen AccessVolume 2019, doi: 10.1038/s41592-019-0612-7
[9] Zhang. Rong, Zhang. Rongguo and Ma. Jiechao, “Analysis of different encoder-decoder-based approaches for biomedical imaging segmentation,” ACM International Conference Proceeding SeriesPages 105 - 11320 November 2020 Article number 34493206th International Conference on Robotics and Artificial Intelligence, ICRAI 2020, doi: 10.1145/3449301.3449320
[10] Kaur Buttar. Preetpal and Sachan. Manoj Kumar, “Semantic segmentation of clouds in satellite images based on U-Net++ architecture and attention mechanism,” Expert Systems with ApplicationsVolume 20915 December 2022, doi: 10.1016/j.eswa.2022.118380
[11] Xu. Hanwen, Tang. Xinming and Yang. Fanlin, “Feature-Selection High-Resolution Network With Hypersphere Embedding for Semantic Segmentation of VHR Remote Sensing Images,” IEEE Transactions on Geoscience and Remote SensingVolume 602022, doi: 10.1109/TGRS.2022.3183144
[12] Jha. Debesh and Riegler. Michael A, “DoubleU-Net: A deep convolutional neural network for medical image segmentation,” Proceedings - IEEE Symposium on Computer-Based Medical SystemsOpen AccessVolume 2020-July, Pages 558 – 564, doi: 10.1109/CBMS49503.2020.00111
[13] Shen. Zhixi and Liu. Yong, “A novel connectivity of deep convolutional neural networks,” Proceedings - 2017 Chinese Automation Congress, CAC 2017Volume 2017-January, Pages 7779 - 778329 December 2017, doi: 10.1109/CAC.2017.8244187
[14] Jha. Debesh et al, “A Comprehensive Study on Colorectal Polyp Segmentation with ResUNet++, Conditional Random Field and Test-Time Augmentation,” IEEE Journal of Biomedical and Health InformaticsOpen AccessVolume 25, Issue 6, Pages 2029 - 2040June 2021, doi: 10.1109/JBHI.2021.3049304
[15] Daza. Laura and Gómez. Catalina, “Cerberus: A Multi-headed Network for Brain Tumor Segmentation,” Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)Volume 12659 LNCS, Pages 342 – 3512021, doi: 10.1007/978-3-030-72087-2_30
[16] Sabrowsky. Hirsch, Bertram. Thumfart, “A Content-Driven Architecture for Medical Image Segmentation,” ACM International Conference Proceeding SeriesPages 89 - 9627 November 2020, doi: 10.1145/3442555.3442570
[17] Wang. Zekun, Liu. Peter X and Zou, Yanni, “Hybrid dilation and attention residual U-Net for medical image segmentation,” Computers in Biology and MedicineVolume 134July 2021, doi: 10.1016/j.compbiomed.2021.104449
[18] Lu. Chengsong, “Performance analysis of attention mechanism and teacher forcing ratio based on machine translation,” Journal of Physics: Conference SeriesOpen AccessVolume 2580, Issue 12023, doi: 10.1088/1742-6596/2580/1/012006
[19] Basyal. Ganga et al, “Comparative study of CNN models for brain tumor classification: Computational efficiency versus accuracy,” 27th Annual Americas Conference on Information Systems, AMCIS 2021, ISBN: 978-173363258-4
[20] Li. Daihui, Ma. Chengxu and Zeng. Shangyou, “Design of efficient convolutional neural module based on an improved module,” Advances in Science, Technology and Engineering SystemsOpen AccessVolume 5, Issue 1, Pages 340 – 3452020,doi: 10.25046/aj050143
[21] Pengyu. Li et al, “Improving CNN Model for Residential Building Image Classification: Enhancing Parameter Estimation Accuracy Through Transfer Learning and Reducing Model Complexity with MobileNet,” Proceedings - 2023 3rd International Signal Processing, Communications and Engineering Management Conference, ISPCEM 2023Pages 50 – 542023, doi: 10.1109/ISPCEM60569.2023.00016
[22] Vats. Satvik et al, ” Advanced Image Classification on Intel Datasets Using Optimized EfficientNet and MobileNetV2,” 2024 IEEE 9th International Conference for Convergence in Technology, I2CT 2024, doi: 10.1109/I2CT61223.2024.10543649
[23] Zhou. Yingzi, Huang. Kun and Guo, Xiaoying, “End-to-end deep residual network for semantic segmentation,” Journal of Physics: Conference SeriesOpen AccessVolume 1684, Issue 130 November 2020, doi: 10.1088/1742-6596/1684/1/012053