Predictability of Tehran Stock Exchange using deep learning models (CNN-LSTM model)
Subject Areas :Mehdi Heidarzadeh 1 , Mozhgan Safa 2 , mirfeiz fallahshams 3 , Hossein Jahangir nia 4
1 - Ph.D. Student of Financial Management, Qom Branch, Islamic Azad University, Qom, Iran
2 - گروه حسابداری و مالی- واحد قم- دانشگاه ازاد اسلامی قم- ایران
3 - Associate Professor, Islamic Azad University Central Tehran Branch, Tehran, Iran
4 - Islamic AZAD University of Qom Branch
Keywords: Predictability, Deep Learning Models, Tehran Stock Exchange,
Abstract :
Deep learning is a subset of the broader class of neural network based machine learning methods that has recently gained much attention in many fields, including time series prediction in financial markets. In this research, first, using deep learning models based on LSTM and CNN networks, the movement of Tehran Stock Exchange index is predicted. Then, by combining the two models, the hybrid CNN-LSTM deep learning model is used to predict the Tehran Stock Exchange index. In the next step, in order to evaluate the performance of the aforementioned forecasting models, three performance measures symmetric mean absolute error percentage (SMAPE), mean absolute error percentage (MAPE) and root mean square error (RMSE) were used. In this research, the daily data of the Tehran Stock Exchange Index was used in the period of 2016-07-13 until 2021-01-26. The estimation results of the models in predicting the Tehran Stock Exchange index with a one day step and comparing the efficiency measurement criteria indicate the superiority of the proposed CNN-LSTM model compared to the other two models. The LSTM model ranks next in accuracy and forecasting efficiency. According to the results that be presented in this research, financial market participants in Iran are suggested to pay attention to integrated deep learning models in order to increase the efficiency and accuracy of their predictions.
Adebiyi, A. A., Adewumi, A. O., & Ayo, C. K. (2014). Comparison of arima and artifi- cial neural networks models for stock price prediction. Journal of Applied Math- ematics, 2014.#
Andrew Ang & Geert Bekaert (2007). "Stock Return Predictability: Is it There?" Review of Financial Studies, Society for Financial Studies, vol. 20(3), pages 651-707.#
Bollerslev, T., Marrone, J., Xu, L., & Zhou, H. (2014). Stock return predictability and variance risk premia: Statistical inference and international evidence. Journal of Financial and Quantitative Analysis, 49 (03), 633–661.#
Christopher Krauss; Xuan Anh Do and Nicolas Huck, (2017), Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500, European Journal of Operational Research, 259, (2), 689-702.#
Gonçalves, R., Miguel,R. V, Pereira. F., Rocha. A., (2019). Deep learning in exchange markets. Information Economics and Policy.#
Kara, Y. and O. Baykan (2011). “Predicting Direction of Stock Price Index Changes Using Artificial Neural Networks and Support Vector Machines: The Sample of the Istanbul Stock Exchange”, Expert Systems with Applications, Vol. 36, No. 2, pp. 3355-3366.#
Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500. European Journal of Operational Research 259(2), 689–702.#
R.C. Cavalcante, R.C. Brasileiro, V.L.F. Souza, J.P. Nobrega, A.L.I. Oliveira, (2016). Computational Intelligence and Financial Markets: A Survey and Future Directions, Expert Systems with Applications, 55,194-211.#
Tipirisetty, Abhinav, "Stock Price Prediction using Deep Learning" (2018). Master's Projects. 636. DOI: https://doi.org/10.31979/etd.bzmm-36m7.#
Tipirisetty, Abhinav, (2018). Stock Price Prediction using Deep Learning, Master's Projects. 636.#
Vadiei, Mohammad Hossein, & Hosseini, Seyyed Mohammad. (2012). The relationship between performance evaluation criteria and abnormal stock return. journal of empirical research in accounting, 1(4), 73-87. #
W. Long, Z. Lu and L. Cui, (2018). Deep learning-based feature engineering for stock price movement prediction, Knowledge-Based Systems .#
Yan, L.; Zhang, H. T.; Goncalves, J.; Xiao, Y.; Wang, M. et al. (2020): A machine learning-based model for survival prediction in patients with severe COVID-19 infection. MedRxiv: 2020.2002.2027.20028027#
Yang Liu, (2019). Novel Volatility Forecasting Using Deep Learning – Long Short Term Memory Recurrent Neural Networks, Expert Systems with Applications.#
فصلنامه مهندسی مدیریت نوین
سال دهم ، شماره سوم، پاییز 1403
پیشبینیپذیری بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق (مدل هیبریدی CNN-LSTM)
مهدی حیدرزاده1، مژگان صفا2، میرفیض فلاح شمس3، حسین جهانگیرنیا4
چکیده
یادگیری عمیق، زیرمجموعهای از کلاس گستردهتر از روشهای یادگیری ماشین مبتنی شبکههای عصبی است که اخیراً در حوزههای مختلفی ازجمله پیشبینی سریهای زمانی در بازارهای مالی، توجهات زیادی را به خود جلب کرده است. در این تحقیق، ابتدا بر اساس مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM و CNN حرکت شاخص بورس اوراق بهادار تهران پیشبینی میشود. در ادامه با ترکیب دو مدل مذکور، مدل هیبریدی یادگیری عمیق CNN-LSTM بهمنظور پیشبینی شاخص بورس اوراق بهادار تهران مورد استفاده قرار گرفت. در مرحلۀ بعد، بهمنظور ارزیابی عملکرد مدلهای پیشبینی مذکور، سه معیار سنجش کارایی میانگین درصد قدر مطلق خطای متقارن (SMAPE)، میانگین مطلق درصد خطا (MAPE) و ریشه میانگین مربع خطا (RMSE) مورد استفاده قرار گرفت. در این تحقیق از دادههای روزانه شاخص بورس اوراق بهادار تهران در دورۀ زمانی 23/4/1395 - 26/1/1400 استفاده شده است. نتایج برآورد مدلها در پیشبینی شاخص بورس اوراق بهادار تهران با گام یکروزه و مقایسه معیارهای سنجش کارایی، حاکی از برتری عملکرد مدل پیشنهادی CNN-LSTM در مقایسه با دو مدل دیگر است. مدل LSTM در رتبه بعدی دقت و کارایی پیشبینی قرار میگیرد. با توجه به نتایج ارائهشده در این تحقیق، به فعالین بازارهای مالی در ایران پیشنهاد میگردد مدلهای تلفیقی یادگیری عمیق را بهمنظور افزایش کارایی و دقت پیشبینیهای خود مورد توجه قرار دهند.
کلیدواژگان: پیشبینیپذیری، مدلهای یادگیری عمیق (Deep Learning)، بورس اوراق بهادار تهران.
طبقهبندی JEL:G17, D10, L10
1- مقدمه
تأثیر بازار بورس در تأمین مالي و توسعۀ كشور بر کسی پوشیده نیست؛ بنابراین يافتن روشي مناسب براي پيشبيني بازار سهام اهمیت بالایی یافته است. شوكهاي ناگهاني بازار، ریزش و سقوط قیمتها باعث میشود تعداد زيادي از سرمايهگذاران بازار را ترک کنند. افزايش ابزارهاي کارای مرتبط با متغیرهای مالي، دامنه فرصتهاي سرمايهگذاري جهاني را براي فعالین بازارهای مالی گسترش میدهد. دلايل اصلي براي پيشرفت اين ابزارها را میتوان چنین بیان نمود؛ اولاً، این ابزارها، روشهای مؤثری براي سرمايهگذاران بهمنظور محافظت از ريسكهاي بالقوه بازار فراهم ميآورند. دوماً، فرصتهاي كسب سود را نیز براي كساني كه از موقعيتهاي بازار استفاده میکنند، فراهم ميكنند؛ بنابراين ارائۀ مدلهای کارا براي پيشبيني شاخصها و متغیرهای بورس از اهميت و كاربرد خاصی برخوردار است. متغیرهای مالي و اقتصادي (مخصوصاً در بازار سهام) عمدتاً با روابط غیرخطی سروکار داشته؛ بنابراین پيشبيني وضعيت آتی بازار سهام با استفاده از مدلهاي مرسوم خطي قابل اتکا نیست.
پیشبینیپذیری بازارهای مالی از سابقۀ طولانی مطالعاتی و تجربی برخوردار است (Ang & Bekaert, 2007). علیرغم اختلافنظر در مورد کارایی بازارها، مطالعات نشاندهندۀ این است که بازارهای مالی تا حدودی دارای ویژگی پیشبینیپذیری است (Bollerslev et al, 2014). در بین رویکردهای پیشبینی روند آتی سهام، روشهای اقتصادسنجی یا آماری مبتنی بر تجزیهوتحلیل متغیرهای بازار بر اساس دادههای تاریخی، بهطور گسترده مورد استفاده فعالان و متخصصین قرار گرفته است. در این رویکردها، روشهای مختلف خطی و غیرخطی برای پیشبینی وضعیت آتی بازار سهام استفاده میشود. در این روشها، فرض نرمال بودن تابع چگالی و همچنین مستقل و یکسان بودن تابع توزیع حیاتی است؛ بااینحال شواهدی از ویژگیهایی مانند دنبالۀ پهن و قلۀ بلند، بازگشت به میانگین واریانس ناهمسان، خوشهای بودن تلاطمها، اثر اهرمی و حافظۀ بلندمدت نشان میدهد که این فرضها در مورد سریهای زمانی بازده سهام و متغیرهای مالی برقرار نیستند (Vadiei & Hosseini, 2012).
از اواسـط دهـۀ 1970 تـلاشهـاي گستردهای در زميـنۀ قابليـت پيشبيني قيمتهاي سهام با استفاده از روشهاي رياضي جديد، سري زماني طولاني و ابزار پيشـرفتهتـري مـثل هـوش مصـنوعي آغاز شد و آزمونهاي زيادي بر روي اطلاعات قيمت و شـاخص سـهام در كشورهايي مثل انگلستان، آمريكا، كانادا، آلمان و ژاپن صورت گرفت تـا وجـود يـا فقـدان سـاختاري معيـن در اطلاعـات قيمت سهام نشان داده شود و از اين راه فرضيۀ گامهای تصادفي را نقض كنند (Kara and Baykan, 2011).
یادگیری ماشینی (ML) زیرمجموعهای از هوش مصنوعی است که با استفاده از الگوریتمهای مختلف، عملکرد خود بر روی موضوعی خاص را بهتدریج بهبود میدهد. یادگیری ماشینی برای کشف الگوها و جستجوی تغییرات کوچک، بر اساس بررسی و مقایسۀ دادههایی از مقادیر کوچک تا حجمهای عظیم دادهها استوار است. مطالعات فراوانی انجام شده است که نشان میدهد پیشبینیها براساس مدلهای یادگیری عمیق ML عملکرد تقریباً بهتری نسبت به تکنیکهای پیشبینی سری زمانی کلاسیک دارند. در همین حال، استفادۀ گسترده از سیستمهای تجارت الکترونیکی خودکار همراه با افزایش تقاضا برای بازده بالاتر، محققان و دستاندرکاران را مجبور به ادامۀ کار بهمنظور دستیابی به مدلهای بهتر کرد. در چند دهۀ اخیر، یکی از زیرشاخههای یادگیری ماشینی، به نام یادگیری عمیق (DL)، در پیشبینیهای مالی مورد استقبال قرار گرفته است. هرچند یادگیری عمیق در ابتدای مسیر توسعه است، اما تحقیقات و سرمایهگذاریهای شرکتهای بزرگ در این حوزه، گسترش روزافزون کاربردهای یادگیری عمیق را نشان میدهد. هماکنون یادگیری عمیق در زمینهها و علوم مختلف دادهکاوی، پردازش تصویر و صدا، رباتیک و پزشکی کاربردهای زیادی داشته است. بر اساس پیشبینیهای مراکز علمی، در سالهای آتی، یادگیری عمیق در بسیاری از زمینهها، بهصورت مستقیم یا غیرمستقیم استفاده خواهند کرد.
با توجه به اینکه روش یادگیری عمیق، ظرفیتها و توانایی قابلتوجهی در استخراج اطلاعات معتبر از مجموعه دادهها و الگوها دارد، بسیاری از تحقیقات اخیر بر کاربرد الگوریتمهای DP در حوزۀ مالی تمرکز کردهاند و ادغام الگوریتمهای یادگیری عمیق با پیشبینیهای بازار بهعنوان یکی از مباحث جذاب در ادبیات مالی است (Cavalcante et al, 2016).
در این تحقیق تلاش میشود مدل هیبریدی یادگیری عمیق CNN-LSTM بهمنظور پیشبینی شاخص بورس اوراق بهادار تهران معرفی شده و کارایی این مدل با ساختارهای سنتی در این حوزه ازجمله مدل LSTM و مدل CNN مقایسه شود. در این راستا از معیارهای سنجش کارایی میانگین مطلق درصد خطا (MAPE) و ریشه میانگین مربع خطا (5RMSE) استفاده میشود.
2- ادبیات تحقیق
همانطور که پیشتر بیان گردید یادگیری عمیق (DP) زیرشاخهای از روشهای یادگیری ماشین بر اساس شبکههای عصبی است. شبکههای عصبی، الگوریتمهای محاسباتی با توانایی یادگیری و تعمیمپذیری هستند. شبکههای عصبی مدلهای الکترونیکی شبیهسازی شده بر اساس ساختار عصبی مغز انسان هستند. واژه «عمیق» در «یادگیری عمیق» به تعداد لایههایی اشاره میکند که در ساختار مدلها بهمنظور استخراج ویژگیهای خاص دادههای ورودی به کار گرفته میشوند.
بر اساس بررسیهای انجامشده در ایران تحقیقی که با استفاده از روش یادگیری عمیق به پیشبینی متغیرهای مالی و اقتصادی بپردازد یافت نگردید بااینحال در سالهای اخیر، مطالعات زیادی با استفاده از مدلهای یادگیری عمیق به آزمون پیشبینیپذیری متغیرهای بازارهای مالی در کشورهای دیگر پرداختهاند ازجمله، لیو6 (2019) در تحقیقی با استفاده از الگوریتمهای یادگیری عمیق به پیشبینی نوسانات بازدهی شاخص اساند پی 500 (S & P 500) پرداخته است. در این مطالعه کارایی مدلهای یادگیری عمیق و مدلهای واریانس ناهمسانی شرطی خودرگرسیو تعمیمیافته (GARCH) مورد ارزیابی قرار گرفت. نتایج این تحقیق نشاندهندۀ کارایی بالاتر مدلهای یادگیری عمیق در پیشبینی نوسانات بازدهی شاخص اساندپی 500 است.
کانکالوز و همکاران7 (2019) در تحقیقی با عنوان کاربرد روش یادگیری عمیق در بازار ارز، به پیشبینی نوسانات این بازار بر پایه مدلهای گوناگون یادگیری عمیق پرداختند.
لانگ و همکاران8 (2018) با استفاده از دو مدل یادگیری عمیق، تلاش کردند شاخص قیمت سهام در کشور چین را مدلسازی و پیشبینی نمایند. نتایج نشان داد که عملکرد مدل ترکیبی در پیشبینی شاخص سهام از مدلهای رقیب بالاتر است.
تیپریسیتی9 (2018) تلاش نمود با استفاده از الگوریتمهای یادگیری عمیق به پیشبینی قیمت سهام بازارهای جهانی بپردازد. در این تحقیق با استفاده از ترکیب یادگیری عمیق و تحلیل اخبار از منابع اینترنتی، مدلی هیبریدی بهمنظور پیشبینی قیمت سهام پیشنهاد کرده است.
کراوس و همکاران10 (2017) با استفاده از مدلهای یادگیری ماشین، شبکههای عصبی عمیق و الگوریتم جنگل تصادفی به پیشبینی بازده سهام با گام یکروزه برای شاخص S & P500 پرداختند. نتایج این تحقیق حاکی از کارایی الگوریتم جنگل تصادفی در پیشبینی شاخص اس اند پی 500 است.
3- روش تحقیق
این پژوهش حاضر ازلحاظ هدف کاربردی و ازلحاظ ماهیت و روش علّی است. ازنظر ویژگی و جهت دادهها پس رویدادی است. در این تحقیق، حرکت شاخص بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM، CNN و همچنین مدل هیبریدی یادگیری عمیق CNN-LSTM پیشبینی میشود و عملکرد این مدلها، با استفاده از معیارهای سنجش مورد ارزیابی قرار میگیرد. در این راستا از دادههای روزانه شاخص بورس اوراق بهادار تهران در دورۀ زمانی 23/4/1395 - 26/1/1400 استفاده میشود. در ادامه به تشریح مدلهای یادگیری عمیق مورد استفاده در این مطالعه پرداخته میشود.
3-1 شبکههای بازگشتی (RNN)
شبکههای عصبی بازگشتی (RNN) بهمنظور شبیهسازی رفتار انسان در استفاده از اطلاعات قبلی، توسط متخصصان حوزۀ یادگیری ماشین پیشنهاد شد. شبکههای عصبی بازگشتی متشکل از حلقۀ بازگشتی هستند و تفاوت اصلی RNN با دیگر ساختارها این است که در این ساختار دادههای ورودی دورۀ جاری و دورههای گذشته بهصورت همزمان بهکار گرفته میشوند. در واقع خروجی مدل در دورۀ جاری به دادههای دورۀ قبل نیز وابسته است. ازنظر تئوریک یک شبکۀ عصبی بازگشتی استاندارد (اگر بهاندازۀ کافی بزرگ باشد) باید بتواند دنبالههایی با هر پیچیدگیای را تولید کند اما در عمل این شبکه در ذخیرهسازی اطلاعات مرتبط با دادههای گذشته به مدت طولانی ناتوان است. این ویژگی، علاوه بر تضعیف قدرت این شبکه در مدلسازی ساختارهای بلندمدت، باعث میشود تا این نوع از شبکهها در زمان تولید دنباله در معرض ناپایداری قرار بگیرند. مشکلی که به وجود خواهد آمد این است که اگر پیشبینیهای شبکه تنها وابسته به چند ورودی اخیر باشد برای اصلاح و جبران اشتباهات گذشته توسط شبکه، شانس بسیار کمی وجود خواهد داشت. یک راهحل برای این مشکل، تزریق نویز به پیشبینیهای انجامشده توسط شبکه قبل از تغذیه آنها به گام زمانی بعدی است. این راهحل به تقویت شبکه در قبال ورودیهای غیرمنتظره منجر میشود. حافظه طولانی کوتاهمدت (LSTM11 ) یک ساختار شبکۀ عصبی بازگشتی است که بهمنظور ذخیرهسازی و دسترسی بهتر به اطلاعات نسبت به نسخۀ سنتی آن طراحی گردیده است.
برخلاف شبکۀ عصبی بازگشتی استاندارد (RNN)، در یک شبکۀ عصبی بازگشتی (LSTM)، شبکه قادر است نسبت به حفظ حافظه فعلی از طریق گیتهای معرفیشده تصمیم بگیرد. بهطور مفهومی، اگر یک واحد LSTM ویژگی مهمی در دنباله ورودی در مراحل ابتدایی را تشخیص دهد قادر است این اطلاعات را طی مسیر طولانی انتقال داده و اینگونه وابستگیهای بلندمدت احتمالی را دریافت و حفظ نماید.
شبکههای LSTM از واحدهای LSTM تشکیل شدهاند. واحدهای LSTM با هم ادغام شده و لایههای LSTM تشکیل میشوند. یک واحد LSTM از سلولهایی تشکیل میشود که دارای گیت ورودی، گیت خروجی و گیت فراموشی است. معادلات (1) تا (5) فرم عمومی شبکۀ LSTM را ارائه میکنند.
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
در اینجا xt، بردار ورودی واحد LSTM، ft بردار فعالسازی گیت فراموشی، it بردار فعالسازی گیت ورودی، ot: بردار فعالسازی گیت خروجی، ht بردار خروجی واحد LSTM، ct بردار حالت سلول، gσ تابع سیگموئید، cσ تابع تانژانت هایپربولیک، W، U: ماتریسهای وزن که باید آموزش دادهشده و برازش شوند و b پارامترهای بردار بایاس هستند. ساختار یک بلوک از LSTM در شکل (2) ارائهشده است.
|
شکل (1) ساختار مدل LSTM |
3-2 مدلهای کانولوشنی (CNN12)
شبکههای عصبی کانولوشنی یا پیچشی (CNN) شاخهای از شبکههای عصبی عمیق هستند که در پیشبینیهای سری زمانی در یادگیری ماشین استفاده میشوند. در شبکههای عصبی کانولوشنی بهمنظور حداقلسازی پیشپردازشها از نوعی از پرسپترونهای چندلایه استفاده میشود. بهجای شبکۀ عصبی کانولوشنی گاهی از این شبکهها با نام شبکههای عصبی تغییرناپذیر با انتقال13 یا تغییرناپذیر با فضا14 هم یاد میشود. این نامگذاری بر مبنای ساختار این شبکه است. ساختار شبکههای کانولوشنی از فرایندهای زیستی الگوسازی شدهاند که در آنها نورونها تنها در یک ناحیۀ محدود به تحریک، (که به آن ناحیۀ پذیرش گفته میشود) واکنش نشان میدهند. نواحی پذیرش نورونهای مختلف بهصورت جزئی با هم همپوشانی داشته بهگونهای که پوشش کل میدان را نتیجه میدهند.
ساختار یک شبکۀ عصبی کانولوشنی (CNN) از لایههای مختلفی تشکیل شده است. لایههای پنهان کانولوشنی یا ادغامی یا کاملاً متصل هستند. لایههای کانولوشنی ورودی وظیفۀ فیلتر کردن را به عهده دارند، سپس نتیجه را به لایۀ بعدی منتقل مینمایند. ممکن است شبکههای عصبی کانولوشنی از لایههای ادغام15 محلی یا سراسری تشکیل شده باشند که خروجیهای خوشههای نورونی در یک لایه را در یک تک نورون در لایۀ بعدی ادغام میکنند. روش حداکثر تجمیع16 یک مثالی است که حداکثر مقدار بین خوشههای نورونی در لایۀ پیشین را مورد استفاده قرار میدهد. میانگین تجمیع17 که مقدار میانگین خوشههای نورونی در لایۀ پیشین را در نظر میگیرد، میتوان مثالی دیگر در نظر گرفت. شبکههای عصبی کانولوشنی با اشتراک وزنها در لایههای پیچشی، باعث ایجاد حداقل حافظه و بیشترین کارایی میشوند. عملیات کانولوشن (فیلتر) استاندارد در معادلۀ (6) نمایش داده شده است. t نشانگر زمان، x نشاندهندۀ ورودی و a نشاندهندۀ متغیر است.
(6) |
|
معادلۀ (7) جزئیات مربوط به معماری شبکه را ارائه میدهد که در آن W نشانگر وزن، x نشاندهندۀ ورودی، b نشاندهندۀ بایاس و z نشاندهندۀ خروجی نورونها است. در انتهای شبکه، از تابع softmax برای گرفتن خروجی استفاده میشود. معادلۀ (8) و (9) تابع softmax را نشان میدهد که در آن y نشاندهندۀ خروجی است.
(7) |
|
(8) |
|
(9) |
|
شکل (1) نمایی کلی از معماری شبکههای کانولوشنی در یادگیری عمیق را نشان میدهد.
|
شکل (2) ساختار شبکههای کانولوشنی در یادگیری عمیق
|
3-3 مدل هیبریدی CNN-LSTM
همانطور که پیشتر بیان شد مدلهای یادگیری عمیق مبتنی بر شبکههای عصبی کانولوشنی یا پیچشی (CNN) در پیشبینیهای سری زمانی در یادگیری ماشین استفاده میشوند بااینحال بر اساس مطالعات تجربی، این مدلها بر استخراج ویژگیها متمرکز میشوند و از طرفی مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM دارای ویژگی تعمیمدهی بر اساس توالی زمانی هستند. بر اساس ویژگیهای دو مدل مذکور، مدل هیبریدی CNN-LSTM بهمنظور پیشبینی دادههای سری زمانی بازارهای مالی به وجود آمده است. شکل (3)، نمایی کلی از ساختار این مدل را ارائه میکند. همانطور که در این نگاره قابل مشاهده است این مدل شامل لایۀ ورودی، بخش لایۀ کانولوشنی CNN تکبعدی، لایۀ ادغام و بخش لایۀ پنهان LSTM است. در ادامه و در شکل (4) مکانیسم آموزش و پیشبینی بهوسیله مدل CNN-LSTM ترسیم شده است.
| |
شکل (3). ساختار مدل هیبریدی CNN-LSTM | |
| |
شکل (4). مکانیسم آموزش و پیشبینی با استفاده از مدل یادگیری عمیق هیبریدی CNN-LSTM |
3-4 معیارهای ارزیابی
برای ارزیابی کارایی روشهای پیشبینی سری زمانی شاخص بورس اوراق بهادار تهران، از سه معیار اصلی استفاده میشود:
1- میانگین درصد قدر مطلق خطای متقارن (SMAPE18)
2- میانگین مطلق درصد خطا19 (MAPE)
3- ریشه میانگین مربع خطا (20RMSE)
این معیارها بهصورت روابط زیر تعریف میشوند:
(10) |
|
(11) |
|
(12) |
|
جاییکه و به ترتیب مقادیر واقعی و پیشبینیشده در زمان t هستند.
4- نتایج برآورد مدلهای یادگیری عمیق
در این تحقیق دادههای شاخص بورس اوراق بهادار تهران بهعنوان متغیر اصلی تحقیق بهمنظور ورود به پروسه مدلسازی و پیشبینی با استفاده از مدلهای یادگیری عمیق (DL) در ابتدا با استفاده از رابطۀ زیر، نرمالسازی میشوند:
(13) |
|
در این رابطه و به ترتیب میانگین و انحراف معیار دادههای شاخص بورس در دورۀ مورد بررسی هستند. پس از مرحلۀ پیشپردازش و نرمالسازی، دادههای نرمالسازی شده به دو بخش دادههای آموزش و دادههای آزمون تقسیم میشوند. در این تحقیق 80% دادهها به بخش آموزش تخصیص داده میشود و 20% باقیمانده بهمنظور آزمون در مدل یادگیری عمیق مورد استفاده قرار میگیرد. لازم به ذکر است که در مرحلۀ آموزش اوزان در مدلهای یادگیری عمیق بر اساس شبکههای عصبی بهصورتی تعدیل میشوند که بتوان الگوهای موجود در سری زمانی را شناسایی کرد. در مرحلۀ تست، بر اساس دادههای واقعی و اندازهگیری معیارهای سنجش کارایی، قدرت پیشبینی و تعمیمدهی مدل به دادههای واقعی سنجیده میشود.
4-1 فرآیند آموزش
شکل (5) فرایند آموزش مدل ترکیبی یادگیری عمیق مبتنی بر شبکه CNN-LSTM را نشان میدهد. همانطور که در این شکل مشخص است بهینهسازی فرایند یادگیری در این مدل بر اساس حداقلسازی RMSE و تابع زیان انجام شده است. در جدول (1) تنظیمات هایپرپارمترهای مدل که بر اساس برآورد چندین مدل و انتخاب مدل با بالاترین کارایی انجام شده است را نشان میدهد.
|
شکل (5). فرآیند آموزش مدل یادگیری عمیق هیبریدی مبتنی بر CNN-LSTM منبع: محاسبات تحقیق |
جدول (1) تنظیمات هایپرپارامترای مدل CNN-LSTM | |
32 | Convolution layer filters |
Tanh | Convolution layer activation function |
Same | Convolution layer padding |
Same | Pooling layer padding |
Relu | Pooling layer activation function |
64 | Number of hidden units in LSTM layer |
Tanh | LSTM layer activation function |
0.001 | Learning rate |
Adam | Optimizer |
mean_absolute_error | Loss function |
600 | Epochs |
8 | Iteration per Epoch |
4800 | Iteration |
در جدول (1) تمامی تنظیمات هایپر پارامترهای مدل مورد بررسی را نشان میدهد.
4-2 پیشبینی براساس مدلهای یادگیری عمیق
در ادامه و در شکل (6) تا (8) نتایج پیشبینی شاخص بورس اوراق بهادار در دورۀ آزمون دادهها به ترتیب با استفاده از سه مدل LSTM، CNN و مدل هیبریدی CNN-LSTM ارائهشده است. نتایج ارائهشده نشاندهندۀ عملکرد و دقت بهتر مدل هیبریدی CNN-LSTM در پیشبینی با گام یک روز به جلو نسبت به دو مدل دیگر است. بااینحال بهمنظور بررسی دقیقتر این موضوع باید کارایی این مدلها در پیشبینی وضعیت شاخص بورس بر اساس سه معیار سنجش کارایی بررسی شود.
|
شکل (6). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل CNN-LSTM |
|
شکل (7). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل LSTM |
|
شکل (8). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل CNN |
در این بخش از سه معیار سنجش کارایی بهمنظور ارزیابی عملکرد مدلهای پیشبینی شاخص بورس اوراق بهادار بر اساس روش یادگیری عمیق مبتنی بر شبکههای عصبی استفاده میشود. نتایج محاسبات معیارهای میانگین درصد قدر مطلق خطای متقارن (SMAPE)، میانگین مطلق درصد خطا (MAPE) و ریشه میانگین مربع خطا (RMSE) در جدول (2) ارائه شده است. بر اساس نتایج ارائهشده در جدول (2)، مدل CNN-LSTM بهترین عملکرد را داشته است و مدل LSTM در رتبۀ بعدی دقت و کارایی پیشبینی ارائه شده است.
جدول (2). معیارهای سنجش دقت و کارایی پیشبینی مدلهای یادگیری عمیق | |||
CNN | LSTM | CNN-LSTM |
|
02044/0 | 012559/0 | 0070/0 | SMAPE |
0858/0 | 0489/0 | 0289/0 | MAPE |
112650 | 63957 | 43341 | RMSE |
منبع: یافتههای پژوهش |
5- بحث و نتیجهگیری
اخیراً در حوزه یادگیری ماشینی، گرایشی با نام یادگیری عمیق (DL)، در پیشبینیهای مالی، توجه بسیاری را جلب کرده است. بااینکه یادگیری عمیق در سالهای ابتدایی توسعه خود قرار دارد، اما روند تحقیقات، مقالات و سرمایهگذاریهای شرکتهای بزرگ در این حوزه، نشاندهندۀ گسترش روزافزون کاربردهای یادگیری است. با توجه به ظرفیتها و توانایی قابل توجه روش یادگیری عمیق در استخراج اطلاعات معتبر از مجموعه دادهها و الگوهای شناسایی قدرتمند، بسیاری از مقالات اخیر بر کاربرد تکنیکهای DP در حوزۀ مالی متمرکز شدهاند و ادغام الگوریتمهای یادگیری عمیق با پیشبینیهای بازار بهعنوان یکی از جذابترین مباحث در ادبیات مالی در نظر گرفته میشود (Cavalcante et al, 2016).
در این تحقیق تلاش شد مدل هیبریدی یادگیری عمیق مبتنی بر ساختار شبکههای عصبی CNN-LSTM بهمنظور پیشبینی شاخص بورس اوراق بهادار تهران معرفی شده و کارایی این مدل با ساختارهای سنتی در این حوزه ازجمله مدل LSTM و مدل CNN مقایسه شود. در این راستا از معیارهای سنجش کارایی میانگین درصد قدر مطلق خطای متقارن (SMAPE)، میانگین مطلق درصد خطا (MAPE) و ریشۀ میانگین مربع خطا (RMSE) استفاده شد. نتایج پیشبینی بر اساس سه مدل مذکور، مدل هیبریدی یادگیری عمیق مبتنی بر ساختار شبکههای عصبی CNN-LSTM برترین عملکرد را داشته است و مدل یادگیری عمیق مبتنی بر شبکههای عصبی LSTM در رتبۀ بعدی قرار دارد. نتایج این تحقیق نشان میدهد که مدلهای یادگیری عمیق میتواند بهعنوان ابزاری با کارایی بالا در پیشبینی روندهای حرکتی متغیرهای مالی مورد استفاده قرار گیرد از اینرو به فعالان بازارهای مالی، استفاده و توجه ویژه به این ابزار پیشنهاد میشود.
References:
- Adebiyi, A. A., Adewumi, A. O., & Ayo, C. K. (2014). Comparison of arima and artifi- cial neural networks models for stock price prediction. Journal of Applied Math- ematics, 2014.#
- Andrew Ang & Geert Bekaert (2007). "Stock Return Predictability: Is it There?" Review of Financial Studies, Society for Financial Studies, vol. 20(3), pages 651-707.#
- Bollerslev, T., Marrone, J., Xu, L., & Zhou, H. (2014). Stock return predictability and variance risk premia: Statistical inference and international evidence. Journal of Financial and Quantitative Analysis, 49 (03), 633–661.#
- Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient boosted trees, random forests: Statistical arbitrage on the S&P 500. European Journal of Operational Research 259(2), 689–702.#
- Christopher Krauss; Xuan Anh Do and Nicolas Huck, (2017), Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500, European Journal of Operational Research, 259, (2), 689-702.#
- Gonçalves, R., Miguel,R. V, Pereira. F., Rocha. A., (2019). Deep learning in exchange markets. Information Economics and Policy.#
- Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient-
R.C. Cavalcante, R.C. Brasileiro, V.L.F. Souza, J.P. Nobrega, A.L.I. Oliveira, (2016). Computational Intelligence and Financial Markets: A Survey and Future Directions, Expert Systems with Applications, 55,194-211.#
- Tipirisetty, Abhinav, "Stock Price Prediction using Deep Learning" (2018). Master's Projects. 636. DOI: https://doi.org/10.31979/etd.bzmm-36m7.#
- Tipirisetty, Abhinav, (2018). Stock Price Prediction using Deep Learning, Master's Projects. 636.#
- Vadiei, Mohammad Hossein, & Hosseini, Seyyed Mohammad. (2012). The relationship between performance evaluation criteria and abnormal stock return. journal of empirical research in accounting, 1(4), 73-87. #
- W. Long, Z. Lu and L. Cui, (2018). Deep learning-based feature engineering for stock price movement prediction, Knowledge-Based Systems .#
- Yan, L.; Zhang, H. T.; Goncalves, J.; Xiao, Y.; Wang, M. et al. (2020): A machine learning-based model for survival prediction in patients with severe COVID-19 infection. MedRxiv: 2020.2002.2027.20028027#
- Yang Liu, (2019). Novel Volatility Forecasting Using Deep Learning – Long Short Term Memory Recurrent Neural Networks, Expert Systems with Applications.#
COPYRIGHTS © 2023 by the authors. Licensee Advances in Modern Management Engineering Journal. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution 4.0 International (CC BY 4.0) (http://creativecommons.org/licenses/by/4.0/).
|
[1] دانشجوی دکتری گروه مدیریت، واحد قم، دانشگاه آزاد اسلامی، قم، ایران.
[2] استادیار گروه حسابداری، واحد قم، دانشگاه آزاد اسلامی، قم، ایران، (نویسنده مسئول).
Mozhgan_safa@yahoo.com
[3] دانشیار گروه مدیریت، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران.
[4] استادیار گروه حسابداری، واحد قم دانشگاه آزاد اسلامی، قم، ایران.
تاریخ وصول 25/11/1402 تاریخ پذیرش 9/3/1403
[5] Root Mean Square Error (RMSE)
[6] Liu
[7] Gonçalves et al.
[8] Long et al.
[9] Tipirisetty.
[10] Krauss et al.
[11] Long Short-Term Memory
[12] Convolutional Neural Network
[13] Shift Invariant
[14] Space Invariant
[15] Pooling Layer
[16] Max Pooling
[17] Average Pooling
[18] Symmetric Mean Absolute Percentage Error (SMAPE)
[19] Mean Absolute Percentage Error (MAPE)
[20] Root Mean Square Error (RMSE)