یک معماری Bi-LSTM مبتنی بر مکانیزم توجه برای استخراج ویژگیهای زمانی متمایز در طبقهبندی تصویرسازی حرکتی مبتنی برسیگنال های EEG
محورهای موضوعی : فناوری های نوین در سیستم های توزیع شده و محاسبات الگوریتمی
حسام حسن پور
1
,
سید مهدی قزی
2
,
یاسر علمی سولا
3
1 - گروه مهندسی کامپیوتر و فناوری اطلاعات، واحد سبزوار ، دانشگاه آزاد اسلامی، سبزوار ، ایران
2 - گروه مهندسی کامپیوتر و فناوری اطلاعات، واحد سبزوار، دانشگاه آزاد اسلامی، سبزوار، ایران
3 - گروه مهندسی کامپیوتر و فناوری اطلاعات، واحد سبزوار ، دانشگاه آزاد اسلامی، سبزوار ، ایران
کلید واژه: تصویرسازی حرکتی, واسط مغز و کامپیوتر, الکتروانسفالوگرافی, مکانیزم توجه, حافظه طولانی کوتاهمدت دوطرفه (Bi-LSTM), یادگیری عمیق.,
چکیده مقاله :
واسطهای مغز-کامپیوتر (BCI) مبتنی بر تصویرسازی حرکتی (MI) پتانسیل قابل توجهی در بازگرداندن تواناییهای ارتباطی و کنترلی به افراد دارای ناتوانیهای شدید حرکتی دارند. با این حال، دقت و قابلیت اطمینان این سیستمها تا حد زیادی به کیفیت استخراج ویژگی از سیگنالهای الکتروانسفالوگرافی وابسته است. سیگنالهای الکتروانسفالوگرافی مغز بهطور ذاتی غیرخطی، غیرایستا و دارای نسبت سیگنال به نویز پایینی هستند که این ویژگیها، فرایند استخراج ویژگیهای متمایز را به چالشی اساسی بدل میکند.
در این پژوهش، یک معماری یادگیری عمیق سرتاسری مبتنی بر شبکه حافظه طولانی کوتاهمدت دوطرفه (Bi-LSTM) همراه با مکانیزم توجه زمانی برای طبقهبندی وظایف تصور حرکتی معرفی شده است. برخلاف مدلهای بازگشتی استاندارد که همه گامهای زمانی را بهطور یکسان پردازش میکنند، مکانیزم توجه به مدل اجازه میدهد تا بهصورت پویا بر بازههای زمانی حاوی اطلاعات مهمتر همچون - پدیدههای گذرا- تمرکز کند.
کارایی مدل پیشنهادی با استفاده از مجموعهداده معتبرBCI Competition IV Dataset 2a شامل ۲۵۹۲ نمونه سیگنال مغزی از ۹ آزمودنی در ۴ وظیفه تصور حرکتی، ارزیابی و با دو معماری پایه قدرتمند، شامل یک شبکه عصبی کانولوشنی بهینهسازیشده برای سیگنال های مغز و یک LSTM استاندارد، مقایسه شده است. نتایج حاکی از آن است که مدل Attention-Bi-LSTM با میانگین دقت طبقهبندی ، عملکرد بهمراتب بهتری نسبت به مدلهای LSTM (4.1%±85.7%) و CNN (4.8%±83.1) ارائه میدهد (p < 0.01).
علاوه بر این، مصورسازی وزنهای توجه نشان میدهد که مدل بهصورت خودکار قادر به شناسایی الگوهای زمانی کلیدی منطبق بر فیزیولوژی مغز است. این مطالعه نشان میدهد که ترکیب وابستگیهای زمانی دوطرفه با مکانیزم توجه میتواند رویکردی مؤثر برای افزایش دقت و تفسیرپذیری در سیستمهای واسط مغز -کامپیوتر مبتنی بر تصورحرکتی باشد.
Motor Imagery (MI)-based Brain-Computer Interfaces (BCIs) rely heavily on the precise extraction of discriminative features from EEG signals, which are inherently non-stationary and complex in temporal dynamics. In this study, we propose an advanced deep learning model based on a Bidirectional Long Short-Term Memory (Bi-LSTM) architecture integrated with an attention mechanism to enhance the performance of MI classification tasks. The proposed model is designed to automatically extract and weigh temporal features across both forward and backward time directions, allowing the network to focus on the most informative EEG segments related to MI tasks.
We evaluated our model using the BCI Competition IV-2a dataset, comprising four MI classes across nine subjects. A stratified 5-fold cross-validation approach was employed, with each fold split into 40% training, 20% validation, and 40% testing sets. The proposed Attention-Bi-LSTM model achieved an average accuracy of 91.2% ± 3.5, F1-score of 91.1% ± 3.6, and Cohen's kappa of 0.883 ± 0.04, outperforming baseline CNN and LSTM models. Additionally, performance was analyzed separately across all four MI classes, highlighting the model’s ability to generalize across different cognitive motor tasks.
The results indicate that incorporating attention with Bi-LSTM substantially improves the model’s focus on discriminative EEG patterns, making it a promising architecture for robust and scalable EEG-based MI classification in real-world BCI applications
Nicolas-Alonso, L.F. and J. Gomez-Gil, Brain computer interfaces, a review. Sensors (Basel), 2012. 12(2): p. 1211-79.
Pfurtscheller, G. and C. Neuper, Motor imagery and direct brain-computer communication. Proceedings of the IEEE, 2001. 89(7): p. 1123-1134.
Lotte, F., et al., A review of classification algorithms for EEG-based brain–computer interfaces: a 10 year update. Journal of neural engineering, 2018. 15(3): p. 031005.
Lawhern, V.J., et al., EEGNet: a compact convolutional neural network for EEG-based brain-computer interfaces. J Neural Eng, 2018. 15(5): p. 056013.
Hochreiter, S. and J. Schmidhuber, Long Short-Term Memory. Neural Computation, 1997. 9: p. 1735-1780.
Cho, K., et al., Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078, 2014.
Huang, Z., et al., A model for EEG-based emotion recognition: CNN-BI-LSTM with attention mechanism. Electronics, 2023. 12(14): p. 3188.
Ma, Y., et al., A multi-channel feature fusion CNN-Bi-LSTM epilepsy EEG classification and prediction model based on attention mechanism. IEEE Access, 2023. 11: p. 62855-62864.
Khosravi, M., H. Parsaei, K. Rezaee, and M.S. Helfroush, Fusing convolutional learning and attention-based Bi-LSTM networks for early Alzheimer’s diagnosis from EEG signals towards IoMT. Scientific Reports, 2024. 14(1): p. 26002.
Mo, L., et al. A Bi-LSTM based network with attention mechanism for EEG visual classification. in 2021 IEEE International Conference on Unmanned Systems (ICUS). 2021. IEEE.
Chen, J., et al., EEG-based sleep staging via self-attention based capsule network with Bi-LSTM model. Biomedical Signal Processing and Control, 2023. 86: p. 105351.
Sharma, N. and S. Sharma, A lightweight methodology for Motor Imagery EEG classification utilizing step scaled wavelet fractals and Bi-LSTM architecture. 2025.
Yasaswini, P. and N. Devarakonda, Optimizing Non-Invasive Brain-Computer Interfaces: Bi LSTM Networks for Hand MotionRecognition from EEG Data. 2024. p. 1-6.
Bisla, M. and R.S. Anand, Optimized CNN‐Bi‐LSTM–Based BCI System for Imagined Speech Recognition Using FOA‐DWT. Advances in Human‐Computer Interaction, 2024. 2024(1): p. 8742261.
5 یک معماری Bi-LSTM مبتنی بر مکانیزم توجه برای استخراج ویژگی... / قزی- حسن پور- علمی سولا
https://doi.org/... |
یک معماری Bi-LSTM مبتنی بر مکانیزم توجه برای استخراج ویژگیهای زمانی متمایز در طبقهبندی تصویرسازی حرکتی مبتنی برسیگنال های EEG
سید مهدی قزی1| حسام حسن پور*2
|یاسر علمی سولا3
1 گروه مهندسی کامپیوتر و فن آوری اطلاعات،واحد سبزوار، دانشگاه آزاد اسلامی، سبزوار، ایران، s.ghezi@iau.ac.ir 2آ گروه مهندسی کامپیوتر و فن آوری اطلاعات،واحد سبزوار، دانشگاه آزاد اسلامی، سبزوار، ایران، 3آ گروه مهندسی کامپیوتر و فن آوری اطلاعات،واحد سبزوار، دانشگاه آزاد اسلامی، سبزوار، ایران ، Yasser.elmi@iau.ac.ir
نویسنده مسئول: *حسام حسن پور، استادیار، گروه مهندسی کامپیوتر و فن آوری اطلاعات،واحد سبزوار، دانشگاه آزاد اسلامی، سبزوار، ایران ، hesamhasanpour@iau.ac.ir
تاریخ دریافت: 14/5/1404 تاریخ پذیرش: 16/6/1404 |
واسطهای مغز-کامپیوتر (BCI) مبتنی بر تصویرسازی حرکتی (MI) پتانسیل قابل توجهی در بازگرداندن تواناییهای ارتباطی و کنترلی به افراد دارای ناتوانیهای شدید حرکتی دارند. با این حال، دقت و قابلیت اطمینان این سیستمها تا حد زیادی به کیفیت استخراج ویژگی از سیگنالهای الکتروانسفالوگرافی وابسته است. سیگنالهای الکتروانسفالوگرافی مغز بهطور ذاتی غیرخطی، غیرایستا و دارای نسبت سیگنال به نویز پایینی هستند که این ویژگیها، فرایند استخراج ویژگیهای متمایز را به چالشی اساسی بدل میکند.
در این پژوهش، یک معماری یادگیری عمیق سرتاسری1 مبتنی بر شبکه حافظه طولانی کوتاهمدت دوطرفه (Bi-LSTM) همراه با مکانیزم توجه زمانی2 برای طبقهبندی وظایف تصور حرکتی معرفی شده است. برخلاف مدلهای بازگشتی استاندارد که همه گامهای زمانی را بهطور یکسان پردازش میکنند، مکانیزم توجه به مدل اجازه میدهد تا بهصورت پویا بر بازههای زمانی حاوی اطلاعات مهمتر همچون - پدیدههای گذرا3- تمرکز کند.
کارایی مدل پیشنهادی با استفاده از مجموعهداده معتبر4BCI Competition IV Dataset 2a شامل ۲۵۹۲ نمونه سیگنال مغزی از ۹ آزمودنی در ۴ وظیفه تصور حرکتی، ارزیابی و با دو معماری پایه قدرتمند، شامل یک شبکه عصبی کانولوشنی5 بهینهسازیشده برای سیگنال های مغز و یک LSTM استاندارد، مقایسه شده است. نتایج حاکی از آن است که مدل Attention-Bi-LSTM با میانگین دقت طبقهبندی، عملکرد بهمراتب بهتری نسبت به مدلهای LSTM (4.1%±85.7%) و CNN (4.8%±83.1) ارائه میدهد (p < 0.01).
علاوه بر این، مصورسازی وزنهای توجه نشان میدهد که مدل بهصورت خودکار قادر به شناسایی الگوهای زمانی کلیدی منطبق بر فیزیولوژی مغز است. این مطالعه نشان میدهد که ترکیب وابستگیهای زمانی دوطرفه با مکانیزم توجه میتواند رویکردی مؤثر برای افزایش دقت و تفسیرپذیری در سیستمهای واسط مغز -کامپیوتر مبتنی بر تصورحرکتی باشد.
کلمات کلیدی
تصویرسازی حرکتی، واسط مغز و کامپیوتر، الکتروانسفالوگرافی، مکانیزم توجه، حافظه طولانی کوتاهمدت دوطرفه (Bi-LSTM)، یادگیری عمیق.
۱. مقدمه
افزایش جمعیت سالمند و رشد شیوع بیماریهای تحلیلبرنده عصبی و آسیبهای نخاعی، نیاز به فناوریهای کمکی پیشرفته را بیش از پیش برجسته کرده است . در این میان، واسطهای مغز و رایانه بهعنوان یکی از فناوریهای نویدبخش، امکان برقراری ارتباط مستقیم بین مغز انسان و دستگاههای بیرونی را فراهم میسازند و به کاربران اجازه میدهند بدون نیاز به مسیرهای عصبی-عضلانی متداول، کنترل مؤثری بر محیط خود داشته باشند.
پارادایم تصویرسازی حرکتی، که طی آن کاربر تنها با تصور انجام یک حرکت، فعالیت مغزی مرتبط را فعال میکند، بهدلیل شهودپذیری بالا و عدم نیاز به محرک خارجی، یکی از پرکاربردترین رویکردها در سیستمهای کنترلی واسط مغز-کامپیوتر بهشمار میآید[1]. فعالیت تصور حرکتی منجر به تغییرات مشخصی در قدرت باندهای فرکانسی خاص سیگنال های مغز عمدتاً μ و β در نواحی حسی-حرکتی مغز میشود. این تغییرات که بهصورت کاهش یا افزایش همزمانی وابسته به رویداد (ERD/ERS) ظاهر میشوند، حاوی اطلاعات کلیدی برای تمایز بین وظایف مختلف تصور حرکتی هستند[2].
با این حال، تبدیل این الگوهای مغزی ظریف به فرمانهای کنترلی قابل اعتماد با چالشهایی جدی مواجه است. سیگنالهای الکتروانسفالوگرافی به شدت در معرض نویزهای مختلف (مانند پلکزدن و فعالیت عضلانی) قرار دارند و بین افراد و جلسات مختلف دچار تغییرپذیری زیادی هستند. روشهای کلاسیک مانند الگوریتم الگوهای فضایی مشترک به همراه طبقهبندهای خطی، برای استخراج ویژگی نیازمند طراحی دستی دقیق و انتخاب حساس باندهای فرکانسی هستند که این امر فرآیند تحلیل را زمانبر و مستعد خطا میسازد[3].
در مقابل، یادگیری عمیق تحولی بنیادین در تحلیل سیگنال مغزی ایجاد کرده است. معماریهای یادگیری عمیق سرتاسری میتوانند مستقیماً از دادههای خام یا کمپیشپردازششده، نمایشهای سلسلهمراتبی و بهینهای از ویژگیها را بیاموزند. شبکههای کانولوشنال ، با الگوبرداری از ساختار قشر بینایی، در استخراج ویژگیهای فضایی-زمانی موفق عمل کردهاند[4]، اما میدان دید محدود لایههای کانولوشنال توانایی آنها در مدلسازی وابستگیهای زمانی بلندمدت - که در فرآیندهایی مانند تصور حرکتی حیاتی هستند - را محدود میسازد.
در سوی دیگر، شبکههای بازگشتی مانند LSTM، با استفاده از مکانیزمهای گیت برای مقابله با محوشدگی گرادیان، بهطور خاص برای مدلسازی دنبالههای زمانی طراحی شدهاند [5]. با این وجود، LSTMهای سنتی تمامی گامهای زمانی را با وزن یکسان پردازش میکنند، حال آنکه اطلاعات حیاتی در سیگنالهای تصور حرکتی معمولاً در بازههای زمانی خاصی متمرکز هستند. برای حل این مسئله، مکانیزم توجه بهکار گرفته میشود که با ایجاد یک بردار زمینه وزندار، به مدل امکان میدهد تمرکز خود را بهطور پویا بر نواحی مهمتر متمرکز سازد[6].
در این مقاله، ما معماری Attention-Bi-LSTM را برای طبقهبندی سیگنالهای MI-EEG معرفی میکنیم. استفاده از Bi-LSTM امکان درک وابستگیهای زمانی در هر دو جهت گذشته و آینده را فراهم میآورد، درحالیکه مکانیزم توجه، تمرکز مدل را بر ویژگیهای زمانی تمایزبخش تقویت میکند.
2- مروری بر کارهای پیشین
استفاده از مدلهای یادگیری عمیق بهویژه شبکههای عصبی بازگشتی6 و مکانیزمهای توجه، پیشرفت چشمگیری در طبقهبندی سیگنالهای تصویرسازی حرکتی مبتنی بر الکتروآنسفالوگرافی ایجاد کرده است. این مدلها به دلیل توانایی بالا در استخراج ویژگیهای زمانی پیچیده و پویا از سیگنالهای مغزی، مورد توجه گسترده قرار گرفتهاند در همین راستا هانگ و همکاران در سال 2023 با بهرهگیری از مدلهای یادگیری عمیق برای تحلیل سیگنالهای الکتروانسفالوگرافی یک چارچوب ترکیبی مبتنی بر شبکه عصبی کانالوشنال ، Bi-LSTM و مکانیزم توجه برای طبقهبندی احساسات از روی سیگنالهای مغزی ارائه کردهاند. این مدل به عنوان یک روش یادگیری عمیق سرتاسری ، بدون نیاز به استخراج ویژگیهای دستی، قادر است دادههای خام را مستقیماً پردازش کرده و ویژگیهای زمانی-مکانی مرتبط با حالات احساسی را بهصورت خودکار استخراج نماید. در معماری پیشنهادی، شبکههای کانولوشنی ابتدا برای استخراج ویژگیهای مکانی از سیگنالهای چندکاناله به کار گرفته میشوند، سپس این ویژگیها به یک لایه Bi-LSTM داده میشود تا وابستگیهای زمانی دوطرفه میان دادهها مدلسازی گردد سپس در مرحله نهایی، مکانیزم توجه، نقش مهمی در تعیین وزن و اهمیت نسبی کانالهای سیگنال های مورد نظر ایفا میکند و به مدل اجازه میدهد تا تمرکز بیشتری بر کانالهای مؤثرتر داشته باشد. این ویژگی به افزایش تفسیرپذیری مدل نیز کمک کرده است. آزمایشها بر روی پایگاه داده SEED نشان دادند که مدل یادشده در دو وظیفه طبقهبندی چندکلاسه (سه کلاس و چهار کلاس) به دقت میانگین قابل توجهی معادل 99.55٪ و 99.79٪ دست یافته است که به طور محسوسی بهتر از روشهای پیشین عمل میکند. این پژوهش با تأکید بر کارایی ترکیب ساختارهای زمانی-مکانی و مکانیزم توجه در تحلیل سیگنالهای مغزی، زمینهساز الهامبخشی برای توسعه معماریهای مشابه در حوزههایی چون طبقهبندی تصویرسازی حرکتی نیز بوده است[7].
ترکیب مکانیزم توجه و مدل های یادگیری عمیق به عنوان یک توسعه نوآورانه و هدفمند در تشخیص خودکار ناهنجاری های عصبی مورد توجه اِما و همکاران در سال 2023 برای طراحی یک مدل ترکیبی مبتنی بر شبکههای کانالوشنال، Bi-LSTM و مکانیزم توجه برای طبقهبندی و پیشبینی صرع قرار گرفته است، هدف اصلی، استخراج ویژگیهای مکانی-زمانی و تشخیص خودکار وضعیتهای مغزی شامل سه وضعیت "نرمال"، "پیشازحمله" و "حین حمله" بوده است. شبکه کانالوشنال به عنوان مرحله ی ابتدایی کار برای استخراج ویژگیهای مکانی از کانالهای مربوز به سیگنال های الکتروانسفالوگرافی طراحی شده و سپس، شبکه Bi-LSTM برای مدلسازی وابستگیهای زمانی در دنبالههای سیگنال استفاده شده است، مکانیزم توجه با وزندهی خودکار به کانالهای مؤثرتر، در فیلتر کردن اطلاعات غیرضروری و تمرکز بر کانالهای مرتبطتر با وضعیت صرعی نقش کلیدی ایفا کرده است. این معماری، با وجود استفاده از پیشپردازش بسیار ساده (نرمالسازی)، توانسته است دقت میانگین 94.83٪ را در پایگاه داده CHB-MIT و دقت 77.62٪ را در مجموعهداده UCI برای وظایف طبقهبندی سهکلاسه و پنجکلاسه به دست آورد. نتایج نشان میدهد که ترکیب مؤثر ویژگیهای زمانی و مکانی همراه با مکانیزم توجه میتواند در تحلیل و پیشبینی خودکار این سیگنالها نقش بسزایی داشته باشد. اگرچه تمرکز اصلی این مدل بر پیشبینی صرع بوده، اما ساختار معماری آن بهویژه در استفاده همزمان از Bi-LSTM و مکانیزم توجه، الگویی الهامبخش برای توسعه سامانههای رابط های واسط کامپیوتر و مغز مبتنی بر تصور حرکتی نیز محسوب میشود[8].
بهرهگیری از یادگیری عمیق در تحلیل سیگنالهای مغزی با استفاده از ترکیب معماری تلفیقی و مکانیزم توجه برای تشخیص زودهنگام بیماری آلزایمر توسط خسروی و همکاران در سال 2024 مورد استفاده قرار گرفته شده در این پژوهش مدلی ترکیبی با نام CL-ATBiLSTM از تلفیق شبکههای کانولوشنی، Bi-LSTM مبتنی بر توجه، و بهینهسازی بیزی استفاده شده است. هدف تمایز بین بیماران آلزایمر، افراد با اختلال شناختی خفیف ، و افراد سالم از طریق تحلیل سیگنال های الکتروآنسفالوگرافی است. سیگنالها با استفاده از تبدیل موجک گسسته به باندهای فرکانسی مختلف تجزیه شده و به تصاویر طیفنگاری در مرحله پیشپردازش تبدیل میشوند تا ویژگیهای زمانی-فرکانسی مغز بهتر نمایان شوند. لایههای کانولوشنی برای استخراج ویژگیهای مکانی، Bi-LSTM برای مدلسازی وابستگیهای زمانی، و مکانیزم توجه برای تمرکز بر دادههای بحرانیتر به کار گرفته شدهاند. استفاده از بهینهسازی بیزی نیز موجب بهبود دقیق تنظیمات مدل و ارتقاء دقت آن شده است. این رویکرد، دقتی معادل 96.52٪ را روی مجموعه داده Figshare در دستهبندی سهگانه AD،MCI و افراد سالم کسب کرده و عملکردی برتر از بسیاری از الگوریتمهای دوکلاسه متداول ارائه داده است. ویژگی بارز این تحقیق، توجه به مرحله MCI به عنوان پیشنشانگر بالقوه آلزایمر است که آن را برای کاربردهای بالینی با محوریت مداخله زودهنگام، بسیار ارزشمند کرده است. ساختار ترکیبی CL-ATBiLSTM و عملکرد دقیق آن، این مدل را به الگویی قابل تعمیم برای تحلیل سایر اختلالات عصبی مبتنی بر سیگنال های مغزی نیز تبدیل کرده است و نقش توجه در تقویت تمایزپذیری الگوهای زمانی مغزی را بهخوبی برجسته میسازد[9].
ترکیب شبکه حافظه طولانی کوتاهمدت دوطرفه (Bi-LSTM) و مکانیزم توجه زمانی به عنوان یک معماری موثر توسط مو و همکاران در سال 2021 دردانشگاه هانگژوا برای طبقهبندی سیگنالهای الکتروانسفالوگرافی مورد استفاده قرار گرفته شده است. این مدل، با هدف بهبود طبقهبندی سیگنالهای مغزی در وظایف ادراک بصری توسعه یافته که میتواند بهطور مؤثری به ویژگیهای پویای موجود در این گونه از سیگنالها توجه کند، برخلاف روشهای سنتی که اغلب فقط اطلاعات ایستا را مدنظر قرار میدهند در این رویکرد، شبکه Bi-LSTM قادر است اطلاعات زمانی را در هر دو جهت گذشته و آینده مدلسازی کند و با بهرهگیری از مکانیزم توجه، مدل بهصورت پویا بر بازههای زمانی تمرکز میکند که بیشترین اطلاعات تشخیصی را دارند از جمله پدیدههای گذرایی که در جریان تصور حرکتی یا ادراک بصری رخ میدهند. افزون بر این، استفاده از تابع فعالسازی Swish در معماری پیشنهاد شده، به بهبود همگرایی و کارایی مدل کمک کرده است. نتایج این پژوهش نشان میدهد که مدل Bi-LSTM مجهز به مکانیزم توجه توانسته دقت 94.15٪ را در طبقهبندی الکتروانسفالوگرافی های مربوط به تحریکات بصری کسب کند. این امر بیانگر آن است که استفاده از مکانیزم توجه در کنار مدلهای دنبالهای مانند Bi-LSTM میتواند به طرز چشمگیری عملکرد رابطهای مغز-رایانه را در پردازش سیگنالهای پیچیده الکتروانسفالوگرافی ارتقا بخشد[10].
مرحلهبندی خواب از طریق پردازش سیگنالهای الکتروانسفالوگرافی از دیگر مسیر های پژوهشی است که با استفاده از روش نوآورانه ای مبتنی بر یادگیری عمیق توسط چن و همکاران در سال 2023 معرفی شده است که دارای معماری ترکیبی شامل شبکههای عصبی کپسولی با مکانیزم خود توجهی و مدل Bi-LSTM است. مرحلهبندی خواب، نقشی حیاتی در ارزیابی کیفیت خواب دارد و روشهای دستی، پرهزینه و زمانبر هستند، اگرچه روشهای یادگیری عمیق پیشرفتهای قابلتوجهی داشتهاند اما بسیاری از آنها در بهرهبرداری کامل از وابستگیهای زمانی بین ویژگیهای سیگنال مغزی ناکام ماندهاند.
ویژگیهای برجسته در ابتدا از سیگنال مذکور با استفاده از شبکههای عصبی پیچشی استخراج میشوند و در ادامه برای مدلسازی وابستگیهای زمانی بین مراحل خواب، از Bi-LSTM استفاده می گردد که توانایی درک وابستگی دوطرفه در زمان را دارد و در گام سوم، از یک شبکه کپسولی مبتنی بر مسیر خود توجهی بهره گرفته میشود تا همبستگیهای زمانی درونی میان ویژگیهای استخراجشده را مجدداً رمزگذاری و بر اساس شباهتهای زمانی اهمیتبندی کند. این رویکرد باعث افزایش تمایزبخشی بین کلاسهای خواب میشود.
ارزیابی مدل روی دو مجموعهداده عمومی Sleep-EDF-39 و Sleep-EDF-153 با استفاده از دو کانال سیگنال های الکتروانسفالوگرافی تککانالهFpz-Cz و Pz-Oz صورت گرفته است. دقت کلی مدل به ترتیب 85.8٪ و 83.4٪ با مقادیر کاپای 0.8 و 0.77 گزارش شده که حاکی از عملکرد سطح بالای مدل در مقایسه با سایر روشهاست. این مدل نهتنها دقت بالایی دارد، بلکه زمینه را برای کاربرد گستردهتر شبکههای کپسولی در مرحلهبندی خواب با سیگنال های مغزی تککاناله فراهم میسازد[11].
دقت پایین در تشخیص الگوهای سیگنال های الکتروانسفالوگرافی در سیستمهای رابط مغزکامپیوتر به عنوان یک چالش عمده در بکارگیری تکنیک های یادگیری عمیق در پردازش سیگنال های مذکور بوده است و در سال 2025 مورد توجه لیا و همکاران قرار گرفته است که غلبه بر آن میتواند سهم ارزشمندی در توسعه و بکار گیری روشهای یادگیری عمیق در اینگونه سیگنال های داشته باشد، برای غلبه بر این محدودیت، مدلی نوین با نام CIACNet معرفی گردیده که این معماری از یک شبکهی دو-شاخهای کانولوشنی برای استخراج ویژگیهای غنی زمانی استفاده میکند و با بهکارگیری ماژول توجه بهبودیافته (CBAM)، قدرت مدل در شناسایی ویژگیهای متمایز را افزایش داده است. علاوه بر این، بهرهگیری از شبکهی کانولوشنی زمانی امکان استخراج ویژگیهای سطح بالاتر در بُعد زمانی را فراهم ساخته و اتصال چندسطحی ویژگیها موجب نمایش جامعتری از اطلاعات سیگنال شده است. نتایج آزمایشها بر روی پایگاههای داده BCI IV-2a و BCI IV-2b نشان داده است که مدل پیشنهادی به دقتهای 85.15% و 90.05% به همراه امتیاز کاپای 0.80 دست یافته است. تحلیل بیشتر نشان داد که حذف هر یک از بلوکهای طراحیشده سبب افت عملکرد مدل میشود که نشاندهنده اهمیت هر بخش در افزایش دقت کلی است. یافتههای این پژوهش نشان میدهد که معماری CIACNet علاوه بر بهبود دقت، هزینه محاسباتی پایینی داشته و از این رو، قابلیت کاربرد عملی در سیستمهای MI-BCI برای توانبخشی و کنترل دستگاههای کمکی را دارد[12]. این نتایج اهمیت توجه به استخراج ویژگیهای ترکیبی و چندسطحی در ارتقای معماریهای طبقهبندی الکتروانسفالوگرافی را برجسته میسازد اما باید توجه داشت کاربرد های مختلف این سیگنال ها از جمله شناسایی وظایف در چهارچوب تصورحرکتی ممکن است چالش های جدیدی را برای این گونه معماری ها در حفظ دقت عملکرد بهمراه داشته باشد برای همین منظور و با هدف رفع چالشهای اساسی مانند دقت پایین ناشی از محدودیتهای تفکیکپذیری فضایی اینگونه سیگنال ها در سال 2024 میرزایی و همکاران چارچوبی نوآورانه ارائه کرده اند که ترکیبی از خودرمزگذار ConvLSTM و BiLSTM مبتنی بر مکانیزم توجه را شامل میشود. در این معماری،ConvLSTMAE بهطور مؤثر الگوهای مکانی-زمانی سیگنال های مذکور را استخراج کرده و یک نمایش فشرده و نهفته تولید میکند سپس، AtBiLSTM با بهرهگیری از مکانیزم توجه بر بخشهای بحرانی سیگنال تمرکز کرده و با در نظر گرفتن وابستگیهای زمانی دوسویه، دقت مدل در شناسایی وظایف تصور حرکتی را افزایش میدهد. نتایج تجربی بر روی مجموعهداده BCI Competition IV-2a نشان داده است که مدل پیشنهادی با دستیابی به دقت 89.70%و مقدار کاپای 87.96%عملکردی بهتر از بسیاری از روشهای موجود دارد. همچنین، بررسی استفاده از تبدیل فوریه کوتاهمدت حاکی از بهبود 10.91% در دقت طبقهبندی است[13]، این نتایج نشاندهنده توانایی بالای معماری پیشنهادی در یادگیری نمایشهای مؤثر و کاهش انحراف معیار نتایج است. در مجموع، این پژوهش نشان میدهد که چارچوب معرفی شده نه تنها محدودیتهای طبقهبندی سیگنال های الکتروانسفالوگرافی تصور حرکتی را برطرف میکند، بلکه قابلیت تعمیم و کارایی بالاتری در توسعه سامانههای رابط مغز کامپیوتر دارد.
راهکار پیشنهادی | مزایا | معایب | مطالعه |
افزودن temporal attention در کنار spatial attention جهت تمرکز همزمان بر زمان و کانالها استفاده از dual-attention Bi-LSTM برای پوشش جامعتر ویژگیها در دامنه EEG | مدل end-to-end بدون نیاز به استخراج دستی ویژگی ترکیب CNN + Bi-LSTM + Attention برای استخراج ویژگیهای زمانی-مکانی تفسیرپذیری بالا بهواسطه توجه بر کانالها | نیاز به تنظیم دقیق پارامترها برای پایگاههای داده مختلف استفاده از attention فقط روی ویژگیهای مکانی (نه زمانی) | طبقهبندی احساسات از EEG پایگاه SEED Huang et al. (2023)
|
تلفیق Bi-LSTM با attention سلسلهمراتبی برای تحلیل زمانی-فرکانسی-مکانی استفاده از Spectrogram یا DWT بهعنوان ورودی به Bi-LSTM-Attention | عملکرد بالا با پیشپردازش ساده بهرهگیری از attention برای وزندهی کانالها کارایی بالا در طبقهبندی سهکلاسه | عدم استفاده از ویژگیهای فرکانسی عدم ارزیابی در وظایف BCI یا MI | تشخیص حملات صرع از EEG Ma et al. (2023)
|
سادهسازی معماری با استفاده از attention سبکتر مثل lightweight attention ستفاده از attention کانالی + زمانی برای جایگزینی بخشی از پیچیدگی موجک | بهرهگیری از ویژگیهای زمانی-فرکانسی بهینهسازی بیزی برای تنظیمات مدل تمایز مؤثر بین AD، MCI و CO | پیچیدگی بالا در پیادهسازی وابستگی به تبدیل DWT و تصویرسازی طیفی | تشخیص آلزایمر از EEG (CL-ATBiLSTM) Khosravi et al. (2024)
|
افزودن CNN اولیه برای استخراج ویژگیهای مکانی پیش از Bi-LSTM استفاده از Multi-head Attention جهت بهبود تعمیم در زمانهای مختلف تحریک | تمرکز پویا بر بازههای زمانی مهم با attention استفاده از تابع Swish برای بهبود یادگیری | عدم استفاده از ویژگیهای مکانی (فقط دنباله زمانی) وابستگی به دادههای بصری خاص | طبقهبندی EEG ادراک بصری Mo et al. (2021)
|
جایگزینی Capsule با Bi-LSTM attention-based جهت سادگی بیشتر استفاده از attention همزمان روی اپوک و کانال برای مرحلهبندی دقیقتر خواب | ترکیب CNN + Bi-LSTM + Capsule + Self-Attention دقت بالا با داده تککاناله | پیچیدگی زیاد attention routing و نیاز به داده زیاد عدم تعمیمپذیری روی کاربردهای BCI | مرحلهبندی خواب با EEG
|
استفاده از معماری ترکیبی CNN دو شاخه + CBAM + TCN با اتصال چندسطحی ویژگیها (CIACNet) | استخراج جامع ویژگیهای زمانی و مکانی؛ بهبود دقت (85.15% و 90.05%)؛ هزینه محاسباتی پایین؛ نقش مؤثر هر بلوک در عملکرد کلی | نیاز به ساختار پیچیده چندماژولی؛ وابستگی به تنظیمات دادههای رقابتی BCI | بهبود دقت تشخیص الگوهاو طبقهبندی MI-EEG – Liao et al. (2025) |
بهرهگیری از ConvLSTM Autoencoder برای استخراج ویژگیهای فشرده و AtBiLSTM برای مدلسازی وابستگیهای دوسویه | بهبود چشمگیر دقت (89.70%) و کاپا (87.96%)؛ ارتقای 10.91% با STFT؛ افزایش 17.74% با جایگزینی SVM با AtBiLSTM؛ تعمیمپذیری بالا و انحراف معیار پایین | نیاز به محاسبات بیشتر در بخش ConvLSTM؛ وابستگی به پیشپردازش فرکانسی (STFT) | محدودیتهای تفکیکپذیری فضایی در تصور حرکتی MI-EEG – Mirzaie et al. (2024) |
جدول شماره 1،مزایا و معایب مطالعات پیشین و بیان راهکارهای مبتنی بر Bi-LSTM و مکانزیم توجه |
در جمعبندی، اگرچه کارهای پیشین پایههای محکمی را بنا نهادهاند، اما پس از بررسی مزایا و معایب هر کدام به این درک از روش ها خواهیم رسید که همچنان شکافی در زمینه طراحی معماریهایی وجود دارد که به طور خاص برای استخراج ویژگیهای زمانی متمایز7 بهینهسازی شده باشند(جدول شماره 1). پژوهش حاضر با الهام از نقاط قوت مدلهای Bi-LSTM و مکانیزم توجه، یک معماری جدید ارائه میدهد که هدف اصلی آن شناسایی و جداسازی دقیق آن دسته از الگوهای زمانی است که به صورت منحصربهفرد معرف هر کلاس تصویرسازی حرکتی هستند. برخلاف رویکردهای موجود که یک بردار زمینه کلی تولید میکنند، مدل ما به دنبال یادگیری مجموعهای از ویژگیهای زمانی تفکیکپذیر است تا هم دقت طبقهبندی و هم درک ما از دینامیکهای عصبی زیربنایی فعالیتهای حرکتی را بهبود بخشد.
3- مواد و روشها
مجموعهداده عمومی 8BCI Competition IV, Dataset 2a با توجه به ویژگی های منحصر به فرد خود در دقت اندازه گیری و انتخاب آزمودنی های مناسب به عنوان داده های مرجع برای بررسی روش پیشنهاد و انطباق آن نتایج با سایر پژوهش های انتخاب گردیده است، این مجموعه شامل دادههای سیگنال های مغزی الکتروانسفالوگرافی ثبتشده از ۹ شرکتکننده سالم و راستدست (۶ مرد و ۳ زن، با میانگین سنی ۲۴.۵ سال و انحراف معیار ۲.۱ سال) است. ثبت سیگنالها با استفاده از ۲۲ الکترود Ag/AgCl مطابق با سیستم بینالمللی 10-20 بر روی کلاهک الکتروآنسفالوگرافی و با نرخ نمونهبرداری ۲۵۰ هرتز انجام شده است. امپدانس الکترودها در طول ثبت کمتر از ۵ کیلواهم حفظ شد. پروتکل آزمایشی شامل چهار وظیفهی تصور حرکتی شامل موارد حرکت دست چپ، دست راست، هر دو پا و زبان بوده است.
بهمنظور حذف نویز و آمادهسازی دادهها برای استفاده در مدلهای یادگیری عمیق، یک پیشپردازش استاندارد بر روی سیگنالهای خام مغزی اعمال گردیده است، برای این منظور ابتدا از فیلتر میانگذر دیجیتال باترورث مرتبه ۵ برای استخراج بازه فرکانسی ۸ تا ۳۰ هرتز استفاده شد. این بازه شامل باندهای μ (۸–۱۳ هرتز) و β۱۴–۳۰ هرتز است که بیشترین مدولاسیون توان را در حین اجرای وظایف تصور حرکتی نشان میدهند، در مرحله ی بعد با استفاده از قطعهبندی9 سیگنالهای پیوسته به قطعاتی با طول ۴ ثانیه تفکیک شدند. هر قطعه از بازهی زمانی ۰.۵ تا ۴.۵ ثانیه پس از نمایش نشانهی بصری در زمان استخراج گردید. این بازه به گونهای انتخاب شد که فعالیتهای پیش از اجرای حرکت و طی اجرای تصور حرکتی را بهطور کامل پوشش دهد(شبه کد شماره 1). در نتیجه، هر قطعه شامل ۱۰۰۰ نمونه زمانی ۴×۲۵۰ برای هر کانال می باشد سپس از نرمالسازی برای کاهش واریانس و تسهیل فرآیند یادگیری، تمامی قطعات به صورت کانالبهکانال با استفاده از نرمالسازی Z-score (میانگین صفر و واریانس یک) نرمالسازی شدند.
Input: Raw EEG signals (multi-channel, continuous)
Output: Preprocessed EEG epochs (cleaned and normalized)
Begin
For each EEG signal do
1. Bandpass Filtering:
Apply a 5th-order Butterworth filter
Set frequency range to [8–30] Hz
// Covers μ-band (8–13 Hz) and β-band (14–30 Hz)
2. Epoching:
For each trial:
Extract a segment from 0.5 to 4.5 seconds after cue onset
// Assuming cue onset is at t = 2s
Set epoch length = 4 seconds
Resulting in 1000 time points at 250 Hz sampling rate
3. Normalization:
For each channel:
Apply Z-score normalization
// x_normalized = (x - mean) / std
شکل ۱. مراحل پیشپردازش سیگنال EEG شامل چهار مرحلهی اصلی |
Return preprocessed EEG epochs
End
شبه کد ۱. پیشپردازش سیگنال EEG |
بعد از آماده سازی داده های ورودی یک معماری یادگیری عمیق سرتاسری نوآورانه مبتنی بر شبکه حافظه بلندمدت دوطرفه (Bi-LSTM) همراه با مکانیزم توجه زمانی مسوولیت طبقهبندی دقیق سیگنالهای الکتروانسفالوگرافی مربوط به وظایف تصور حرکتی را برعهده می گیرد. این مدل دارای سه بخش کلیدی لایه ی Bi-LSTM، لایه توجه زمانی و بردار زمینه و طبقهبندی است.
در ابتدا، سیگنالهای الکتروانسفالوگرافی با ابعاد 1000×22 به عنوان ورودی به یک لایه LSTM دوطرفه با ۶۴ واحد پنهان برای هر جهت تغذیه میشود. خروجی این لایه دنبالهای از بردارهای پنهان با ابعاد ۱۲۸ است که به صورت خروجیهای forward و backward به یکدیگر الحاق شده اند(شبه کد شماره 2).
در مرحله بعد، مکانیزم توجه زمانی وارد عمل میشود که نقش اساسی در تقویت عملکرد مدل دارد. در این مرحله، برای هر بردار زمانی، یک امتیاز همراستایی با استفاده از یک شبکه عصبی ساده و ضرب برداری محاسبه میشود.
برای هر بردار ، امتیاز همراستایی به صورت
محاسبه شده، سپس از طریق softmax به وزن توجه
تبدیل میشود. این وزنها اهمیت زمانی هر گام را نشان میدهند.
به عنوان گام نهایی یک بردار زمینهای با وزندهی به تمام گامهای زمانی تولید میشود و بهعنوان نماینده فشردهای از سیگنال برای لایههای طبقهبندی استفاده میشود. ترکیب LSTM دوطرفه و توجه زمانی، قدرت تمایز مدل را در تشخیص الگوهای پیچیده مغزی افزایش میدهد. بردار زمینه نهایی بهصورت میانگین وزندار خروجیها به شکل زیر محاسبه میشود:
این بردار سپس به یک لایه Dense با تابع فعالسازی Softmax برای پیشبینی تعلق به یکی از چهار کلاس تصور حرکتی ارسال میشود(شبه کد شماره 2).
شبه کد ۲. الگوریتم مدل پیشنهادی مبتنی بر BiLSTM و مکانیزم توجه. این الگوریتم فرآیند محاسبه وزنهای توجه، تولید بردار زمینه و طبقهبندی نهایی را نشان میدهد. |
جهت بررسی عملکرد مدل پیشنهادی و مقایسه آن با سایر معماری های استاندارد 2مدل یادگیری عمیق برای انجام تحلیل مقایسهای پیادهسازی و ارزیابی شدند این مدل ها شامل یک معماری پایه ی شبکه عصبی کانالوشنال، یک مدل مبتنی بر معماری LSTM استاندارد و همچنین معماری پیشنهادی می باشد(شکل شماره2).
معماری های مبتنی بر شبکه های عصبی کانولوشنال برای استخراج ویژگیهای ترکیبی فضایی-زمانی طراحی شده اند که معماری استفاده شده در این پژوهش شامل دو بلوک کانولوشنال به همراه یک طبقهبند چندلایه پرسپترون10 است. هر بلوک کانولوشنال از یک لایه Conv1D با ۴۰ فیلتر و اندازه کرنل ۱۰، بهدنبال آن Batch Normalization، تابع فعالسازی ReLU، یک لایه MaxPooling1D با ضریب کاهش ۲، و یک لایه Dropout با نرخ ۰.۵ تشکیل شده است.
شکل ۲. نمای مقایسهای از معماری سه مدل یادگیری عمیق مورد استفاده در این پژوهش برای طبقهبندی سیگنالهای EEG مربوط به تصور حرکتی: (1) مدل پایه CNN با دو بلوک کانولوشنال و طبقهبند MLP، (2) مدل پایه LSTM با دو لایه بازگشتی متوالی، و (3) مدل پیشنهادی |
تمام مدلها در محیط TensorFlow 2.x با استفاده از یک کارت گرافیک Nvidia غیر حرفه ای آموزش داده شده اند. برای آموزش از بهینهساز Adam با نرخ یادگیری اولیه معادل
استفاده شده است، تابع هزینه Categorical Cross entropy و مکانیزم توقف زودهنگام11 با آستانه ۱۵ دوره بدون بهبود در خطای اعتبارسنجی استفاده شد. ارزیابی مدلها در قالب اعتبارسنجی متقابل درون-سوژهای ۱۰-لایهای انجام شد که با توجه به واریانس بالای بینفردی در سیگنال های مغزی، بهعنوان استانداردی معتبر در مطالعات واسط مغز-کامپیوتر شناخته میشود.
شاخصهای ارزیابی شامل دقت12، امتیازF1 13،کاپای کوهن14 بودند. کاپای کوهن بهدلیل در نظر گرفتن توافق تصادفی و مناسب بودن برای دادههای دارای عدمتعادل کلاس، معیار ارزیابی ترجیحی در این مطالعه در نظر گرفته شد. همچنین برای تحلیل آماری نتایج و بررسی معنیداری تفاوتها، از آزمون t زوجی با اصلاح بونفرونی جهت مقایسههای چندگانه استفاده شد.
علاوه بر معیارهای عملکرد طبقهبندی عنوان شده، جهت ارزیابی کارایی محاسباتی مدلها، زمان اجرا نیز بهعنوان یک شاخص تکمیلی در نظر گرفته شد. بدین منظور، میانگین زمان آموزش هر دوره و همچنین زمان پیشبینی هر نمونه15 برای هر مدل ثبت گردید. این معیارها با استفاده از ماژول زمانسنج در محیط TensorFlow محاسبه شدند. تمامی آزمایشها بر روی یک کارت گرافیک Nvidia غیر حرفه ای با ۱۶ گیگابایت حافظه RAM و پردازنده Intel Core i7 انجام گردید. انتخاب این شاخص امکان مقایسهی عادلانهی میزان بهرهوری محاسباتی معماری پیشنهادی با مدلهای مرجع و سایر روش های پیشرفته را فراهم میسازد.
4- نتایج
نتایج کمی حاصل از ارزیابی مقایسهای سه معماری مدل در جدول شماره 2 ارائه شدهاند. این مقادیر، میانگین و انحراف معیار عملکرد مدلها را در میان ۹ شرکتکننده و طی ۱۰ لایه اعتبارسنجی متقابل نشان میدهند.
دقت (٪) | F1-Score (٪) | ضریب کاپای کوهن | تقسیم داده (آموزش/اعتبارسنجی/آزمون) | نوع وظایف تصور حرکتی | تعداد سیگنالها (کل نمونهها) | تعداد آزمودنیها | مدل |
83.1 ± 4.8 | 82.9 ± 5.1 | 0.775 ± 0.06 | 40٪ / 20٪ / 40٪ | ۴ کلاس MI | ۲۵۹۲ | ۹ | CNN مدل پایه ۱ |
85.7 ± 4.1 | 85.5 ± 4.3 | 0.809 ± 0.05 | 40٪ / 20٪ / 40٪ | ۴ کلاس MI | ۲۵۹۲ | ۹ | LSTM مدل پایه ۲ |
91.2 ± 3.5 | 91.1 ± 3.6 | 0.883 ± 0.04 | 40٪ / 20٪ / 40٪ | ۴ کلاس MI | ۲۵۹۲ | ۹ | Attention-Bi-LSTM پیشنهادی |
جدول 2. مقایسه عملکرد کمی مدلها روی مجموعه داده BCI Competition IV - 2a |
زمان پیشبینی هر نمونه (ms) | زمان آموزش هر epoch (ثانیه) | F1-Score (%) | ضریب کاپای کوهن | دقت (%) | MI Task | مدل |
2.3 ± 0.4 | 12.4 ± 1.1 | 80.1 ± 5.5 | 0.740 ± 0.06 | 80.5 ± 5.2 | دست چپ | CNN (پایه 1) |
2.3 ± 0.4 | 12.4 ± 1.1 | 83.9 ± 4.8 | 0.776 ± 0.05 | 84.2 ± 4.6 | دست راست | |
2.3 ± 0.4 | 12.4 ± 1.1 | 83.0 ± 5.2 | 0.772 ± 0.06 | 82.8 ± 5.0 | پاها | |
2.3 ± 0.4 | 12.4 ± 1.1 | 84.6 ± 4.7 | 0.790 ± 0.05 | 85.0 ± 4.3 | زبان | |
2.8 ± 0.5 | 18.9 ± 1.6 | 86.5 ± 4.1 | 0.810 ± 0.04 | 86.7 ± 3.9 | دست چپ | LSTM (پایه 2) |
2.8 ± 0.5 | 18.9 ± 1.6 | 84.5 ± 4.6 | 0.800 ± 0.05 | 84.8 ± 4.4 | دست راست | |
2.8 ± 0.5 | 18.9 ± 1.6 | 85.3 ± 4.2 | 0.805 ± 0.04 | 85.5 ± 4.0 | پاها | |
2.8 ± 0.5 | 18.9 ± 1.6 | 85.7 ± 3.9 | 0.820 ± 0.04 | 86.0 ± 3.8 | زبان | |
1.6 ± 0.3 | 15.7 ± 1.4 | 92.0 ± 3.3 | 0.892 ± 0.03 | 92.3 ± 3.2 | دست چپ | Attention-Bi-LSTM (پیشنهادی) |
1.6 ± 0.3 | 15.7 ± 1.4 | 90.5 ± 3.6 | 0.880 ± 0.04 | 90.7 ± 3.5 | دست راست | |
1.6 ± 0.3 | 15.7 ± 1.4 | 89.3 ± 3.8 | 0.872 ± 0.04 | 89.5 ± 3.7 | پاها | |
1.6 ± 0.3 | 15.7 ± 1.4 | 92.0 ± 3.5 | 0.888 ± 0.03 | 92.2 ± 3.4 | زبان | |
|
| جدول شماره 3: عملکرد تفکیکی مدلها برای چهار کلاس تصور حرکتی در مجموعه داده |
شکل 4. عملکرد مدل پیشنهادی Attention-Bi-LSTM در مقایسه با مدلهای پایه CNN و LSTM برای چهار کلاس "دست چپ"، "دست راست"، "پاها" و "زبان" |
شکل ۳. میانگین ماتریس درهمریختگی مدل پیشنهادی Attention-Bi-LSTM بهدست آمده از اعتبارسنجی متقابل درونسوژهای ۱۰-لایهای |
همانگونه که مشاهده میشود، مدل پیشنهادی Attention-Bi-LSTM عملکرد بهمراتب بهتری نسبت به دو مدل پایه دارد. این مدل به دقت میانگین دست یافته که نسبت به مدل LSTM، معادل کاهش خطای نسبی
است .
(2)
این بهبود در تمامی متریکها از نظر آماری معنادار است علاوه بر آن در نتایج جزیی تر نیز پایداری نتایج و همچنین عملکرد مدل پیشنهادی نسبت به مدل های پایه به خوبی مشهود می باشد(جدول شماره 3).
شکل شماره 6:تعداد Epoch لازم برای رسیدن به بهترین دقت هر مدل |
شکل شماره5: روند همگرایی و افزایش دقت (Accuracy) مدلها در طول Epochها |
برای درک بهتر دینامیک یادگیری و فرآیند همگرایی مدلها، نمودارهای عملکرد آنها در طول دورههای آموزشی در شکل5 و شکل6 ترسیم شدهاند. این نمودارها تحلیل کیفی و کمی ارزشمندی از برتری مدل پیشنهادی ارائه میدهند شکل 5 به وضوح نشان میدهد که مدل پیشنهادی(خط سبز) نه تنها به دقت بالاتری دست مییابد، بلکه دارای سه ویژگی برجسته دیگر نیز هست.
این مدل در حدود30 دوره به پایداری و همگرایی میرسد، در حالی که مدل LSTM (خط نارنجی) در حدود 40 دوره و مدل کانالوشنال (خط آبی) نزدیک به 50 دوره به همگرایی میرسند. این امر نشاندهنده کارایی بالاتر مدل پیشنهادی در یادگیری الگوهای پیچیده و همگرایی سریعتر می باشد، همچنین منحنی یادگیری مدل پیشنهادی دارای نوسانات بسیار کمتری نسبت به دو مدل پایه است. این پایداری نشان میدهد که مکانیزم توجه به مدل کمک میکند تا بر روی ویژگیهای زمانی متمایز و پایدار تمرکز کرده و از تأثیر نویز و ویژگیهای نامرتبط بکاهد ضمن اینکه شیب منحنی سبز رنگ تندتر از سایرین است که بیانگر سرعت بالاتر یادگیری در هر دوره آموزشی است البته شکل 6 نیز نتایج نهایی دقت را به صورت یک مقایسه بصری و واضح خلاصه میکند. این نمودار تأیید میکند که مدل پیشنهادی با دقت ۹۱٪، به طور قابل توجهی نسبت به سایر مدل های عملکرد بهتری دارد. این مشاهدات بصری، برتری کمی مدل پیشنهادی که در جدولهای 2 و3 گزارش شد را کاملاً تأیید کرده و نشان میدهد که مکانیزم توجه نه تنها دقت نهایی را بهبود میبخشد، بلکه فرآیند آموزش را نیز کارآمدتر و پایدارتر میسازد.
شکل شماره7: مصورسازی وزنهای توجه زمانی مدل پیشنهادی Attention-Bi-LSTM برای نمونههای با طبقهبندی صحیح (خطوط آبی پیوسته)و اشتباه(خطوط نارنجی -خط چین) |
۴. بحث
در این پژوهش، نشان داده شد که ترکیب یک ساختار بازگشتی دوطرفه با مکانیزم توجه زمانی ،رویکردی مؤثر و کارآمد برای بهبود طبقهبندی سیگنالهای الکتروآنسفالوگرافی تصور حرکتی به شمار میرود.
برتری مدل Attention-Bi-LSTM را میتوان به توانایی آن در تقلید از فرایندهای توجه انتخابی در مغز نسبت داد. برخلاف سیگنالهای ایستا، اطلاعات معنادار در سیگنالهای تصور حرکتی به شکل الگوهای دینامیکی و گذرا ظاهر میشوند که در بازههای زمانی خاصی بعد از دریافت دستور حرکت، به اوج میرسند. مصورسازی وزنهای توجه (ارائهشده در بخش پیشین) نشان داد که مدل ما قادر است بهطور خودکار این بازههای زمانی بحرانی را شناسایی کرده و به آنها وزن بیشتری اختصاص دهد، در حالی که بخشهای نویزی یا نامرتبط را نادیده میگیرد. این تمرکز هدفمند منجر به تولید برداری زمینهای 17غنی شده و موجب بهبود چشمگیر عملکرد طبقهبندی میشود. در مقابل، مدل LSTM استاندارد بهطور پیشفرض بیشتر به گامهای زمانی پایانی وابسته است و مدل کانالوشنال نیز ویژگیها را از طریق کرنلهای با اندازه ثابت استخراج میکند که ممکن است انعطافپذیری لازم برای دریافت الگوهای زمانی گذرا را نداشته باشند.
به صورت کلی همانطور که در جدول 2 نشان داده شده است، مدل Attention-Bi-LSTM پیشنهادی بهطور معناداری عملکرد بهتری نسبت به مدلهای پایه، یعنی کانالوشنال و LSTM دارد. دقت متوسط طبقهبندی برابر با بهوضوح بیشتر از دقت مدل کانالوشنال
و LSTM
است. همچنین، انحراف معیار کمتر در مدل پیشنهادی نشاندهنده پایداری و قابلیت تعمیم بهتر آن در بین آزمودنیهای مختلف است. بهبود مشابهی در سایر شاخصهای ارزیابی مانند امتیاز F1 و ضریب کاپای کوهن نیز مشاهده میشود، که اثربخشی کلی رویکرد پیشنهادی در طبقهبندی تصور حرکتی مبتنی بر سیگنال های مغزی را تأیید میکند.
ضریب کاپای کوهن که تأثیر توافق تصادفی را در نظر میگیرد، بهویژه در شرایط عدم تعادل بین کلاسها، معیاری مهم محسوب میشود. مدل پیشنهادی ضریب کاپای را کسب کرده است که بالاتر از مقادیر مربوط به مدلهای کانالوشنال (
) و LSTM (
است، و نشاندهنده عملکرد طبقهبندی قابل اطمینانتر و پایدارتر نسبت به شانس تصادفی است.
علاوه بر عملکرد برتر معماری پیشنهادی نسبت به مدلهای پایه کانالوشنال و LSTM، مدل پیشنهادی عملکرد رقابتی و در برخی موارد برتر نسبت به روشهای پیشرفتهی اخیر در زمینه طبقهبندی تصور حرکتی مبتنی بر سیگنال های الکتروآنسفالوگرافی دارد همچنین برخلاف معماریهای پایه که بهصورت یکنواخت دادههای زمانی را پردازش میکنند، مدل پیشنهادی با تمرکز بر نواحی گذرا و بحرانی در سیگنال، دقت بالاتری در تشخیص فعالیتهای مغزی مرتبط با تصور حرکتی حاصل کرده است.
برای مقایسه با روش های پیشرفته تر به بررسی یک روش سبک برای طبقهبندی سیگنالهای الکتروانسفالوگرافی تصور حرکتی با استفاده از معماری Bi-LSTM سفارشیشده و ویژگیهای فراکتالی مبتنی بر تبدیل موجک پیوسته که توسط بالندرا و همکاران در سال 2025 پیشنهادشده است، می پردازیم، پژوهش حاضر با تمرکز بر معماری عمیق سرتاسری Bi-LSTM همراه با مکانیزم توجه زمانی، عملکرد بهتری از نظر دقت طبقهبندی ارائه میدهد. در پژوهش بالندرا، ویژگیهای پیچیدهای مانند الگوهای مکانی مشترک، ضرایب CWT و فراکتالهای مقیاسبندیشده استخراج شده و به یک Bi-LSTM فشرده با حجم کم داده میشود که برای کاربردهای بلادرنگ و تعبیهشده بسیار مناسب است. با این حال، دقت مدل آنها روی مجموعهداده BCI Competition IV - 2a برابر با 71.76% در حالت بینآزمودنی گزارش شده است[14] که در مقایسه با مدل پیشنهادی این پژوهش که دقتی برابر با 91.2%±3.5% دارد، بهمراتب پایینتر است. در پژوهش حاضر، بهرهگیری از مکانیزم توجه، امکان تمرکز مدل بر بازههای زمانی بحرانی سیگنال های الکتروانسفالوگرافی را فراهم کرده و در نتیجه، وابستگیهای زمانی مؤثرتر و دقیقتری نسبت به مدل بالندرا مدلسازی شده است. همچنین، برخلاف رویکرد سنگین پردازش ویژگی در پژوهش مذکور، مدل این پژوهش با پیشپردازش حداقلی و بهصورت انتها به انتها عمل میکند که موجب سادهسازی فرآیند و افزایش قابلیت تعمیم میشود. در مجموع، مدل پیشنهادی نهتنها از نظر دقت و کارایی در طبقهبندی وظایف تصور حرکتی عملکرد بالاتری دارد، بلکه از نظر سادگی پیادهسازی نیز با حفظ دقت بالا، مزیت قابلتوجهی نسبت به مدلهای مبتنی بر استخراج ویژگی پیچیده دارد.
نتایج پژوهشی دیگر در سال 2024 توسط یاساسوینی و همکاران که از شبکه BiLSTM برای شناسایی حرکات دست با استفاده از سیگنالهای الکتروانسفالوگرافی بهره میبرد و با دستیابی به دقت 95.34 درصد نشان میدهدکه این مدل قادر است وابستگیهای زمانی دوسویه در دادههای مذکور را به خوبی استخراج کرده و عملکرد بالایی در شناسایی حرکات تصورحرکتی ارائه دهد[15]. با این حال، روش پیشنهادی ما با تمرکز بر تحلیل سیگنالهای تصور حرکتی و استفاده از ترکیب معماری پیشنهادی همراه با مکانیزم توجه سلسلهمراتبی ، تلاش دارد تا از قابلیت استخراج ویژگیهای فضایی-زمانی و وزندهی به نواحی مهم مغزی بهره گیرد. برتری این رویکرد نسبت به مدل یاساسوینی صرفنظر از دقت نهایی، در بهرهگیری از معماریهای چندمسیره و توجه سلسلهمراتبی برای تمرکز بر نواحی بحرانی سیگنال مغزی است که در فرآیندهای حرکتی نقش کلیدی دارند. همچنین، در روش ما مطابق داده های جدول شماره 2 پایداری مدل در میان آزمودنیهای مختلف اطمینان حاصل می شود. بنابراین، اگرچه روش BiLSTM در بازشناسی توالیها موفق عمل کرده، اما مدل پیشنهادی ما با در نظر گرفتن جنبههای چندوجهی سیگنال الکتروانسفالوگرافی و تمرکز بر مناطق کلیدی مغز، پتانسیل بهبود بیشتر دقت و تعمیمپذیری را داراست از سوی دیگر روش پیشنهادی را میتوان با پژوهش بیسلا و همکاران در سال 2024 که به ارائه یک سیستم رابط مغز- کامپیوتر مبتنی بر تشخیص گفتار خیالی با استفاده از ترکیب معماری CNN-BiLSTM و بهینهسازی موجک گسسته با الگوریتم Firefly (FOA) پیشنهاد داده اند مقایسه نمود. این روش با بهرهگیری از بهبود سیگنال های الکتروانسفالوگرافی و استخراج ویژگیهای دامنه فرکانس، بهویژه در حوزه تشخیص گفتار خیالی، توانسته دقتی تا 89.57% در حالت چهارکلاسه به دست آورد[16] این در حالیست که روش پیشنهای به میانگین دقت خوبی از پاسخ ها( 3.5% ±91.2%) در چهار وطیفه تصور حرکتی دست پیدا کرده است از سوی دیگر، پژوهش پیشنهادی بر طبقهبندی وظایف تصور حرکتی با اعمال مکانیزم توجه زمانی قادر به تمرکز بر بخشهای اطلاعاتی بحرانی و گذرا در توالی سیگنال های مذکور است. در حالی که روش بیسلا و همکاران از لایههای پیچشی یکبعدی برای استخراج ویژگیهای محلی و BiLSTM برای یادگیری وابستگیهای زمانی بهره میبرد، در مدل پیشنهادی مکانیزم توجه نقش مهمی در فیلتر کردن و تقویت نواحی زمانی مؤثر ایفا میکند. هرچند مدل بیسلا در کاربرد گفتار خیالی و با استفاده از روشهای پیشپردازش پیشرفته و افزایش داده، دقت بالاتری در طبقهبندی ارائه داده ، اما پیچیدگی محاسباتی و وابستگی به بهینهسازی پارامترهای موجک و الگوریتم FOA ممکن است مانعی در پیادهسازی بلادرنگ ایجاد کند در مقابل، مدل پیشنهادی بدون پیشپردازش پیچیده با داشتن دقت قابل توجه 91.2%±3.5% را دارد که نشان از تعادل مناسب میان سادگی معماری و کارایی بالا مخصوصا در پردازش های بلادرنگ می باشد.
دقت (%) | مزایا | معایب | تعداد کلاس | نوع وظیفه | معماری مدل | مطالعه / سال |
91.2 ± 3.5 | دقت بالا، استفاده از مکانیزم توجه برای تمرکز بر نواحی بحرانی، بدون نیاز به پیشپردازش پیچیده، مناسب برای پیادهسازی بلادرنگ | پیچیدگی نسبی در آموزش مدل | 4 کلاس | تصور حرکتی | Attention-Bi-LSTM | روش پیشنهادی شما |
85.7 ± 4.1 | مدل ساده با قابلیت یادگیری وابستگی زمانی | عدم توجه به اهمیت نسبی زمانها، دقت پایینتر | 4 کلاس | تصور حرکتی | LSTM معمولی | LSTM پایه / مقایسهای |
83.1 ± 4.8 | یادگیری ویژگیهای محلی مناسب | ناتوانی در مدلسازی وابستگی زمانی | 4 کلاس | تصور حرکتی | CNN بهینه شده برای EEG | CNN پایه / مقایسهای |
71.76 | مدل بسیار سبک برای سیستمهای تعبیهشده، استفاده از ویژگیهای پیشرفته | دقت پایین، نیاز به استخراج ویژگی پیچیده | 4 کلاس | تصور حرکتی | Bi-LSTM فشرده + ویژگیهای فراکتالی-CWT | بالندرا و همکاران / 2025 |
95.34 | دقت بالا، یادگیری وابستگی دوسویه | عدم استفاده از مکانیزم توجه، تمرکز کمتر بر نواحی بحرانی | 4 کلاس | حرکت دست | Bi-LSTM ساده | یاساسوینی / 2024 |
89.57 چهارکلاسه | دقت بالا، استخراج ویژگی فرکانسی قوی، بهینهسازی پیشرفته | پیچیدگی پردازشی زیاد، عدم مناسببودن برای کاربرد بلادرنگ | 2/3/4 کلاس | گفتار خیالی | CNN + Bi-LSTM + FOA-DWT | بیسلا و همکاران / 2024 |
جدول شماره 4:مقایسه عملکردی و تحلیلی روش پیشنهادی و سایر معماری ها |
از منظر پیچیدگی محاسباتی، اگرچه معماری پیشنهادی پیچیدهتر از معماری ساده LSTM است، اما استفاده از مکانیزم توجه افزایشی موجب افزایش بهرهوری آن در مقایسه با مدلهای پیچیدهتری چون تبدیل دهنده ها میشود. مدلهای مبتنی بر خود-توجه دارای پیچیدگی زمانی بالایی هستند، که با افزایش طول توالی Tمثلاً تا 1000 در سیگنالهای الکتروانسفالوگرافی، هزینه محاسباتی آنها بهشدت افزایش مییابد. در مقابل، مدل Attention-Bi-LSTM با حفظ توانایی در استخراج ویژگیهای زمانی مهم، پیچیدگی محاسباتی پایینتری را ارائه میدهد(جدول شماره5).
پیچیدگی زمانی (FLOPs) | پیچیدگی فضایی (تعداد پارامترها) | ویژگی کلیدی | مدل |
|
| استخراج محلی ویژگیهای فضایی-زمانی | CNN (مدل پایه ۱) |
|
| مدلسازی دنباله بدون توجه | LSTM (مدل پایه ۲) |
|
| مدلسازی دوطرفه زمانی با توجه افزایشی | Attention-Bi-LSTM (پیشنهادی) |
|
| مدلسازی بلندمدت با هزینه بالا | Transformer (خود-توجه) |
جدول ۵: مقایسه پیچیدگی محاسباتی و فضایی مدلهای مختلف(پیچیدگی زمانی برحسب عملیات ممیز شناور (FLOPs) و پیچیدگی فضایی برحسب تعداد پارامترهای آموزشپذیر. نمادها: T طول دنباله زمانی،Hاندازه لایه پنهان، K اندازه کرنل، |
2 Department of Computer Engineering and Information Technology,Sab.C., Islamic Azad University, Sabzevar, Iran, hesamhasanpour@iau.ac.ir
3 Department of Computer Engineering and Information Technology,Sab.C., Islamic Azad University, Sabzevar, Iran, Yasser.elmi@iau.ac.ir Correspondence Hesam Hasanpour, Assistant Professor, Department of Computer Engineering and Information Technology,Sab.C., Islamic Azad University, Sabzevar, Iran Email: hesamhasanpour@iau.ac.ir
|
Abstract
Motor Imagery (MI)-based Brain-Computer Interfaces (BCIs) rely heavily on the precise extraction of discriminative features from EEG signals, which are inherently non-stationary and complex in temporal dynamics. In this study, we propose an advanced deep learning model based on a Bidirectional Long Short-Term Memory (Bi-LSTM) architecture integrated with an attention mechanism to enhance the performance of MI classification tasks. The proposed model is designed to automatically extract and weigh temporal features across both forward and backward time directions, allowing the network to focus on the most informative EEG segments related to MI tasks.
We evaluated our model using the BCI Competition IV-2a dataset, comprising four MI classes across nine subjects. A stratified 5-fold cross-validation approach was employed, with each fold split into 40% training, 20% validation, and 40% testing sets. The proposed Attention-Bi-LSTM model achieved an average accuracy of 91.2% ± 3.5, F1-score of 91.1% ± 3.6, and Cohen's kappa of 0.883 ± 0.04, outperforming baseline CNN and LSTM models. Additionally, performance was analyzed separately across all four MI classes, highlighting the model’s ability to generalize across different cognitive motor tasks.
The results indicate that incorporating attention with Bi-LSTM substantially improves the model’s focus on discriminative EEG patterns, making it a promising architecture for robust and scalable EEG-based MI classification in real-world BCI applications.
Keywords
Motor Imagery (MI), Brain-Computer Interface (BCI), EEG Signal Classification, Attention Mechanism, Bidirectional LSTM (Bi-LSTM), Deep Learning, Temporal Feature Extraction, MI-BCI
[1] end-to-end
[2] Temporal Attention
[3] ERD/ERS
[4] مجموعه داده معتبر BCI Competition IV 2a یک مجموعه دادههای EEG است که در قالب فایلهای مت (mat) ارائه شده است. هر فایل شامل دادههای EEG ضبطشده از یک فرد خاص است که در دانشگاه فناوری گراتز (Graz University of Technology) جمعآوری شده است. دادهها شامل 22 کانال EEG و 3 کانال EOG هستند که با نرخ نمونهبرداری 250 هرتز ضبط شدهاند، در حالی که افراد چهار وظیفه خاص تصویرسازی حرکتی (Motor Imagery) را انجام میدادند: دست چپ، دست راست، پا و هر دو پا
[5] Convolutional neural network -CNN
[6] Recurrent Neural Network (RNN)
[7] Distinctive Temporal Features
[8] دادهست معتبر BCI Competition IV 2a یک مجموعه دادههای EEG است که در قالب فایلهای مت (mat) ارائه شده است. هر فایل شامل دادههای EEG ضبطشده از یک فرد خاص است که در دانشگاه فناوری گراتز (Graz University of Technology) جمعآوری شده است. دادهها شامل 22 کانال EEG و 3 کانال EOG هستند که با نرخ نمونهبرداری 250 هرتز ضبط شدهاند، در حالی که افراد چهار وظیفه خاص تصویرسازی حرکتی (Motor Imagery) را انجام میدادند: دست چپ، دست راست، پا و هر دو پا
[9] Epoching
[10] Multi Layer Perceptron
[11] Early Stopping
[12] Accuracy
[13] F1-Score
[14] Cohen’s Kappa
[15] Inference time per trial
[16] alignment score
[17] context vector
[18] Knowledge Distillation