Predictability of Tehran Stock Exchange using deep learning models (CNN-LSTM model)
Subject Areas :
Mehdi Heidarzadeh
1
,
Mozhgan Safa
2
*
,
mirfeiz fallahshams
3
,
Hossein Jahangir nia
4
1 - PhD student in Financial Management, Qom Branch, Islamic Azad University, Qom, Iran.
2 - Assistant Professor, Department of Accounting, Qom Branch, Islamic Azad University, Qom, Iran, (Corresponding Author).
3 - Associate Professor, Department of Management, Central Tehran Branch, Islamic Azad University, Tehran, Iran.
4 - Assistant Professor, Department of Accounting, Qom Branch, Islamic Azad University, Qom, Iran.
Keywords: Predictability, Deep Learning Models, Tehran Stock Exchange,
Abstract :
Deep learning is a subset of the broader class of neural network based machine learning methods that has recently gained much attention in many fields, including time series prediction in financial markets. In this research, first, using deep learning models based on LSTM and CNN networks, the movement of Tehran Stock Exchange index is predicted. Then, by combining the two models, the hybrid CNN-LSTM deep learning model is used to predict the Tehran Stock Exchange index. In the next step, in order to evaluate the performance of the aforementioned forecasting models, three performance measures symmetric mean absolute error percentage (SMAPE), mean absolute error percentage (MAPE) and root mean square error (RMSE) were used. In this research, the daily data of the Tehran Stock Exchange Index was used in the period of 2016-07-13 until 2021-01-26. The estimation results of the models in predicting the Tehran Stock Exchange index with a one day step and comparing the efficiency measurement criteria indicate the superiority of the proposed CNN-LSTM model compared to the other two models. The LSTM model ranks next in accuracy and forecasting efficiency. According to the results that be presented in this research, financial market participants in Iran are suggested to pay attention to integrated deep learning models in order to increase the efficiency and accuracy of their predictions.
Adebiyi, A. A., Adewumi, A. O., & Ayo, C. K. (2014). Comparison of arima and artifi- cial neural networks models for stock price prediction. Journal of Applied Math- ematics, 2014.#
Andrew Ang & Geert Bekaert (2007). "Stock Return Predictability: Is it There?" Review of Financial Studies, Society for Financial Studies, vol. 20(3), pages 651-707.#
Bollerslev, T., Marrone, J., Xu, L., & Zhou, H. (2014). Stock return predictability and variance risk premia: Statistical inference and international evidence. Journal of Financial and Quantitative Analysis, 49 (03), 633–661.#
Christopher Krauss; Xuan Anh Do and Nicolas Huck, (2017), Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500, European Journal of Operational Research, 259, (2), 689-702.#
Gonçalves, R., Miguel,R. V, Pereira. F., Rocha. A., (2019). Deep learning in exchange markets. Information Economics and Policy.#
Kara, Y. and O. Baykan (2011). “Predicting Direction of Stock Price Index Changes Using Artificial Neural Networks and Support Vector Machines: The Sample of the Istanbul Stock Exchange”, Expert Systems with Applications, Vol. 36, No. 2, pp. 3355-3366.#
Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500. European Journal of Operational Research 259(2), 689–702.#
R.C. Cavalcante, R.C. Brasileiro, V.L.F. Souza, J.P. Nobrega, A.L.I. Oliveira, (2016). Computational Intelligence and Financial Markets: A Survey and Future Directions, Expert Systems with Applications, 55,194-211.#
Tipirisetty, Abhinav, "Stock Price Prediction using Deep Learning" (2018). Master's Projects. 636. DOI: https://doi.org/10.31979/etd.bzmm-36m7.#
Tipirisetty, Abhinav, (2018). Stock Price Prediction using Deep Learning, Master's Projects. 636.#
Vadiei, Mohammad Hossein, & Hosseini, Seyyed Mohammad. (2012). The relationship between performance evaluation criteria and abnormal stock return. journal of empirical research in accounting, 1(4), 73-87. #
W. Long, Z. Lu and L. Cui, (2018). Deep learning-based feature engineering for stock price movement prediction, Knowledge-Based Systems .#
Yan, L.; Zhang, H. T.; Goncalves, J.; Xiao, Y.; Wang, M. et al. (2020): A machine learning-based model for survival prediction in patients with severe COVID-19 infection. MedRxiv: 2020.2002.2027.20028027#
Yang Liu, (2019). Novel Volatility Forecasting Using Deep Learning – Long Short Term Memory Recurrent Neural Networks, Expert Systems with Applications.#
Modern Management Engineering Quarterly
Volume 10, Issue 3, Autumn 2024
Predictability of Tehran Stock Exchange Using Deep Learning Models (Hybrid CNN-LSTM Model)
Mehdi Heidarzadeh1, Mojgan Safa2, Mirfeiz Falah Shams3, Hossein Jahangirnia4
Received: February 14, 2024 Accepted: May 29, 2024
Introduction
The stock market plays a key role in financing, and accurate prediction of its indices is of great importance. Due to the nonlinear relationships among financial variables, linear models perform inadequately, while deep learning has shown better performance because of its ability to discover hidden patterns (Cavalcante et al., 2016). In this study, a hybrid CNN-LSTM model is introduced to predict the Tehran Stock Exchange index and is compared with LSTM and CNN models based on MAPE and RMSE metrics.
Background
Deep learning, due to its multilayer structure and ability to extract complex features, has demonstrated high effectiveness in forecasting financial variables. In international studies, Liu (2019) showed the superiority of deep learning models over GARCH in predicting S&P 500 volatility. Cavalcante et al. (2019) predicted currency market volatility, Long et al. (2018) forecasted the Chinese stock index, and Tiperisiti (2018) predicted global stock prices using hybrid models. Additionally, Krauss et al. (2017) examined deep neural networks and random forests for daily return prediction of the S&P 500.
Research Methodology
This study is applied in terms of objective, causal in terms of nature and method, and ex-post in terms of data type. The aim is to predict the Tehran Stock Exchange index using deep learning models LSTM, CNN, and the hybrid CNN-LSTM model, and to evaluate their performance. The data used consist of daily stock index values from 14 July 2016 to 15 April 2021.
1. Recurrent Neural Networks (RNN) and LSTM
RNNs are designed to process time-dependent data but suffer from poor long-term memory retention. LSTM overcomes this issue by adding input, output, and forget gates, enabling storage and utilization of long-term dependencies.
2. Convolutional Neural Networks (CNN)
Inspired by the human visual system, CNNs are used to extract local features and patterns. This network consists of convolutional, pooling, and fully connected layers, and achieves high efficiency and speed through weight sharing.
3. Hybrid CNN-LSTM Model
The hybrid model combines CNN (for feature extraction) and LSTM (for temporal sequence modeling) and offers higher efficiency in forecasting financial time series.
4. Evaluation Metrics
Model performance is assessed using three metrics:
· SMAPE: Symmetric Mean Absolute Percentage Error
· MAPE: Mean Absolute Percentage Error
· RMSE: Root Mean Squared Error
Analysis and Investigation
In this study, the Tehran Stock Exchange index data were preprocessed and normalized, then split into training (80%) and testing (20%) sets. The models, based on neural networks, were trained and the weights optimized to identify time series patterns.
The training process of the hybrid CNN-LSTM model aimed at minimizing the error (RMSE), and the optimal hyperparameter settings were selected after testing multiple models.
Prediction results during the test period showed that the CNN-LSTM model had the best performance and accuracy for one-day-ahead forecasting, followed by the LSTM model. Based on the SMAPE, MAPE, and RMSE metrics, the hybrid CNN-LSTM model was introduced as the top-performing forecasting model.
Discussion and Conclusion
Deep learning, with its strong ability to identify financial patterns, has gained significant importance, especially in forecasting financial markets. In this study, the hybrid CNN-LSTM model was introduced for predicting the Tehran Stock Exchange index and compared with LSTM and CNN models. Based on the SMAPE, MAPE, and RMSE metrics, the CNN-LSTM model demonstrated the best performance, with the LSTM model ranking second. These results indicate that deep learning models are suitable tools for forecasting financial trends, and it is recommended that market participants utilize them.
Keywords:
Predictability, Deep Learning Models, Tehran Stock Exchange
JEL:G17, D10, L10
فصلنامه مهندسی مدیریت نوین
سال دهم ، شماره سوم، پاییز 1403
پیشبینیپذیری بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق (مدل هیبریدی CNN-LSTM)
مهدی حیدرزاده5، مژگان صفا6، میرفیض فلاح شمس7، حسین جهانگیرنیا8
تاریخ وصول 25/11/1402 تاریخ پذیرش 9/3/1403
چکیده
هدف: این تحقیق با هدف پیشبینی حرکت شاخص بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM و CNN و ارائه یک مدل هیبریدی CNN-LSTM انجام شده است.
روششناسی پژوهش: استفاده از مدلهای یادگیری عمیق LSTM، CNN و مدل هیبریدی CNN-LSTM برای پیشبینی.استفاده از دادههای روزانه شاخص بورس اوراق بهادار تهران در بازه زمانی 23/4/1395 تا 26/1/1400. ارزیابی عملکرد مدلها با سه معیار سنجش کارایی SMAPE، MAPE و RMSE.
یافتهها: مدل هیبریدی CNN-LSTM بهترین عملکرد را در پیشبینی شاخص بورس اوراق بهادار تهران با گام یکروزه داشته است. مدل LSTM پس از مدل هیبریدی از نظر دقت و کارایی پیشبینی در رتبه دوم قرار میگیرد. استفاده از مدلهای تلفیقی یادگیری عمیق موجب افزایش کارایی و دقت پیشبینی در بازارهای مالی ایران میشود.
اصالت / ارزشافزوده علمی: ارائه و ارزیابی مدل هیبریدی CNN-LSTM برای اولین بار در پیشبینی شاخص بورس اوراق بهادار تهران.تأکید بر کاربرد مدلهای تلفیقی یادگیری عمیق بهعنوان رویکردی نوین در بهبود پیشبینی بازارهای مالی ایران.
کلیدواژگان: پیش بینی پذیری، مد ل های یادگیری عمیق (Deep Learning)، بورس اوراق بهادار تهران
طبقهبندی موضوعی JEL : G17, D10, L10
1- مقدمه
تأثیر بازار بورس در تأمین مالي و توسعۀ كشور بر کسی پوشیده نیست؛ بنابراین يافتن روشي مناسب براي پيشبيني بازار سهام اهمیت بالایی یافته است. شوكهاي ناگهاني بازار، ریزش و سقوط قیمتها باعث میشود تعداد زيادي از سرمايهگذاران بازار را ترک کنند. افزايش ابزارهاي کارای مرتبط با متغیرهای مالي، دامنه فرصتهاي سرمايهگذاري جهاني را براي فعالین بازارهای مالی گسترش میدهد. دلايل اصلي براي پيشرفت اين ابزارها را میتوان چنین بیان نمود؛ اولاً، این ابزارها، روشهای مؤثری براي سرمايهگذاران بهمنظور محافظت از ريسكهاي بالقوه بازار فراهم ميآورند. دوماً، فرصتهاي كسب سود را نیز براي كساني كه از موقعيتهاي بازار استفاده میکنند، فراهم ميكنند؛ بنابراين ارائۀ مدلهای کارا براي پيشبيني شاخصها و متغیرهای بورس از اهميت و كاربرد خاصی برخوردار است. متغیرهای مالي و اقتصادي (مخصوصاً در بازار سهام) عمدتاً با روابط غیرخطی سروکار داشته؛ بنابراین پيشبيني وضعيت آتی بازار سهام با استفاده از مدلهاي مرسوم خطي قابل اتکا نیست.
پیشبینیپذیری بازارهای مالی از سابقۀ طولانی مطالعاتی و تجربی برخوردار است (Ang & Bekaert, 2007). علیرغم اختلافنظر در مورد کارایی بازارها، مطالعات نشاندهندۀ این است که بازارهای مالی تا حدودی دارای ویژگی پیشبینیپذیری است (Bollerslev et al, 2014). در بین رویکردهای پیشبینی روند آتی سهام، روشهای اقتصادسنجی یا آماری مبتنی بر تجزیهوتحلیل متغیرهای بازار بر اساس دادههای تاریخی، بهطور گسترده مورد استفاده فعالان و متخصصین قرار گرفته است. در این رویکردها، روشهای مختلف خطی و غیرخطی برای پیشبینی وضعیت آتی بازار سهام استفاده میشود. در این روشها، فرض نرمال بودن تابع چگالی و همچنین مستقل و یکسان بودن تابع توزیع حیاتی است؛ بااینحال شواهدی از ویژگیهایی مانند دنبالۀ پهن و قلۀ بلند، بازگشت به میانگین واریانس ناهمسان، خوشهای بودن تلاطمها، اثر اهرمی و حافظۀ بلندمدت نشان میدهد که این فرضها در مورد سریهای زمانی بازده سهام و متغیرهای مالی برقرار نیستند (Vadiei & Hosseini, 2012).
از اواسـط دهـۀ 1970 تـلاشهـاي گستردهای در زميـنۀ قابليـت پيشبيني قيمتهاي سهام با استفاده از روشهاي رياضي جديد، سري زماني طولاني و ابزار پيشـرفتهتـري مـثل هـوش مصـنوعي آغاز شد و آزمونهاي زيادي بر روي اطلاعات قيمت و شـاخص سـهام در كشورهايي مثل انگلستان، آمريكا، كانادا، آلمان و ژاپن صورت گرفت تـا وجـود يـا فقـدان سـاختاري معيـن در اطلاعـات قيمت سهام نشان داده شود و از اين راه فرضيۀ گامهای تصادفي را نقض كنند (Kara and Baykan, 2011).
یادگیری ماشینی (ML) زیرمجموعهای از هوش مصنوعی است که با استفاده از الگوریتمهای مختلف، عملکرد خود بر روی موضوعی خاص را بهتدریج بهبود میدهد. یادگیری ماشینی برای کشف الگوها و جستجوی تغییرات کوچک، بر اساس بررسی و مقایسۀ دادههایی از مقادیر کوچک تا حجمهای عظیم دادهها استوار است. مطالعات فراوانی انجام شده است که نشان میدهد پیشبینیها براساس مدلهای یادگیری عمیق ML عملکرد تقریباً بهتری نسبت به تکنیکهای پیشبینی سری زمانی کلاسیک دارند. در همین حال، استفادۀ گسترده از سیستمهای تجارت الکترونیکی خودکار همراه با افزایش تقاضا برای بازده بالاتر، محققان و دستاندرکاران را مجبور به ادامۀ کار بهمنظور دستیابی به مدلهای بهتر کرد. در چند دهۀ اخیر، یکی از زیرشاخههای یادگیری ماشینی، به نام یادگیری عمیق (DL)، در پیشبینیهای مالی مورد استقبال قرار گرفته است. هرچند یادگیری عمیق در ابتدای مسیر توسعه است، اما تحقیقات و سرمایهگذاریهای شرکتهای بزرگ در این حوزه، گسترش روزافزون کاربردهای یادگیری عمیق را نشان میدهد. هماکنون یادگیری عمیق در زمینهها و علوم مختلف دادهکاوی، پردازش تصویر و صدا، رباتیک و پزشکی کاربردهای زیادی داشته است. بر اساس پیشبینیهای مراکز علمی، در سالهای آتی، یادگیری عمیق در بسیاری از زمینهها، بهصورت مستقیم یا غیرمستقیم استفاده خواهند کرد.
با توجه به اینکه روش یادگیری عمیق، ظرفیتها و توانایی قابلتوجهی در استخراج اطلاعات معتبر از مجموعه دادهها و الگوها دارد، بسیاری از تحقیقات اخیر بر کاربرد الگوریتمهای DP در حوزۀ مالی تمرکز کردهاند و ادغام الگوریتمهای یادگیری عمیق با پیشبینیهای بازار بهعنوان یکی از مباحث جذاب در ادبیات مالی است (Cavalcante et al, 2016).
در این تحقیق تلاش میشود مدل هیبریدی یادگیری عمیق CNN-LSTM بهمنظور پیشبینی شاخص بورس اوراق بهادار تهران معرفی شده و کارایی این مدل با ساختارهای سنتی در این حوزه ازجمله مدل LSTM و مدل CNN مقایسه شود. در این راستا از معیارهای سنجش کارایی میانگین مطلق درصد خطا (MAPE) و ریشه میانگین مربع خطا (9RMSE) استفاده میشود.
2- ادبیات تحقیق
همانطور که پیشتر بیان گردید یادگیری عمیق (DP) زیرشاخهای از روشهای یادگیری ماشین بر اساس شبکههای عصبی است. شبکههای عصبی، الگوریتمهای محاسباتی با توانایی یادگیری و تعمیمپذیری هستند. شبکههای عصبی مدلهای الکترونیکی شبیهسازی شده بر اساس ساختار عصبی مغز انسان هستند. واژه «عمیق» در «یادگیری عمیق» به تعداد لایههایی اشاره میکند که در ساختار مدلها بهمنظور استخراج ویژگیهای خاص دادههای ورودی به کار گرفته میشوند.
بر اساس بررسیهای انجامشده در ایران تحقیقی که با استفاده از روش یادگیری عمیق به پیشبینی متغیرهای مالی و اقتصادی بپردازد یافت نگردید بااینحال در سالهای اخیر، مطالعات زیادی با استفاده از مدلهای یادگیری عمیق به آزمون پیشبینیپذیری متغیرهای بازارهای مالی در کشورهای دیگر پرداختهاند ازجمله، لیو10 (2019) در تحقیقی با استفاده از الگوریتمهای یادگیری عمیق به پیشبینی نوسانات بازدهی شاخص اساند پی 500 (S & P 500) پرداخته است. در این مطالعه کارایی مدلهای یادگیری عمیق و مدلهای واریانس ناهمسانی شرطی خودرگرسیو تعمیمیافته (GARCH) مورد ارزیابی قرار گرفت. نتایج این تحقیق نشاندهندۀ کارایی بالاتر مدلهای یادگیری عمیق در پیشبینی نوسانات بازدهی شاخص اساندپی 500 است.
کانکالوز و همکاران11 (2019) در تحقیقی با عنوان کاربرد روش یادگیری عمیق در بازار ارز، به پیشبینی نوسانات این بازار بر پایه مدلهای گوناگون یادگیری عمیق پرداختند.
لانگ و همکاران12 (2018) با استفاده از دو مدل یادگیری عمیق، تلاش کردند شاخص قیمت سهام در کشور چین را مدلسازی و پیشبینی نمایند. نتایج نشان داد که عملکرد مدل ترکیبی در پیشبینی شاخص سهام از مدلهای رقیب بالاتر است.
تیپریسیتی13 (2018) تلاش نمود با استفاده از الگوریتمهای یادگیری عمیق به پیشبینی قیمت سهام بازارهای جهانی بپردازد. در این تحقیق با استفاده از ترکیب یادگیری عمیق و تحلیل اخبار از منابع اینترنتی، مدلی هیبریدی بهمنظور پیشبینی قیمت سهام پیشنهاد کرده است.
کراوس و همکاران14 (2017) با استفاده از مدلهای یادگیری ماشین، شبکههای عصبی عمیق و الگوریتم جنگل تصادفی به پیشبینی بازده سهام با گام یکروزه برای شاخص S & P500 پرداختند. نتایج این تحقیق حاکی از کارایی الگوریتم جنگل تصادفی در پیشبینی شاخص اس اند پی 500 است.
3- روش تحقیق
این پژوهش حاضر ازلحاظ هدف کاربردی و ازلحاظ ماهیت و روش علّی است. ازنظر ویژگی و جهت دادهها پس رویدادی است. در این تحقیق، حرکت شاخص بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM، CNN و همچنین مدل هیبریدی یادگیری عمیق CNN-LSTM پیشبینی میشود و عملکرد این مدلها، با استفاده از معیارهای سنجش مورد ارزیابی قرار میگیرد. در این راستا از دادههای روزانه شاخص بورس اوراق بهادار تهران در دورۀ زمانی 23/4/1395 - 26/1/1400 استفاده میشود. در ادامه به تشریح مدلهای یادگیری عمیق مورد استفاده در این مطالعه پرداخته میشود.
3-1 شبکههای بازگشتی (RNN)
شبکههای عصبی بازگشتی (RNN) بهمنظور شبیهسازی رفتار انسان در استفاده از اطلاعات قبلی، توسط متخصصان حوزۀ یادگیری ماشین پیشنهاد شد. شبکههای عصبی بازگشتی متشکل از حلقۀ بازگشتی هستند و تفاوت اصلی RNN با دیگر ساختارها این است که در این ساختار دادههای ورودی دورۀ جاری و دورههای گذشته بهصورت همزمان بهکار گرفته میشوند. در واقع خروجی مدل در دورۀ جاری به دادههای دورۀ قبل نیز وابسته است. ازنظر تئوریک یک شبکۀ عصبی بازگشتی استاندارد (اگر بهاندازۀ کافی بزرگ باشد) باید بتواند دنبالههایی با هر پیچیدگیای را تولید کند اما در عمل این شبکه در ذخیرهسازی اطلاعات مرتبط با دادههای گذشته به مدت طولانی ناتوان است. این ویژگی، علاوه بر تضعیف قدرت این شبکه در مدلسازی ساختارهای بلندمدت، باعث میشود تا این نوع از شبکهها در زمان تولید دنباله در معرض ناپایداری قرار بگیرند. مشکلی که به وجود خواهد آمد این است که اگر پیشبینیهای شبکه تنها وابسته به چند ورودی اخیر باشد برای اصلاح و جبران اشتباهات گذشته توسط شبکه، شانس بسیار کمی وجود خواهد داشت. یک راهحل برای این مشکل، تزریق نویز به پیشبینیهای انجامشده توسط شبکه قبل از تغذیه آنها به گام زمانی بعدی است. این راهحل به تقویت شبکه در قبال ورودیهای غیرمنتظره منجر میشود. حافظه طولانی کوتاهمدت (LSTM15 ) یک ساختار شبکۀ عصبی بازگشتی است که بهمنظور ذخیرهسازی و دسترسی بهتر به اطلاعات نسبت به نسخۀ سنتی آن طراحی گردیده است.
برخلاف شبکۀ عصبی بازگشتی استاندارد (RNN)، در یک شبکۀ عصبی بازگشتی (LSTM)، شبکه قادر است نسبت به حفظ حافظه فعلی از طریق گیتهای معرفیشده تصمیم بگیرد. بهطور مفهومی، اگر یک واحد LSTM ویژگی مهمی در دنباله ورودی در مراحل ابتدایی را تشخیص دهد قادر است این اطلاعات را طی مسیر طولانی انتقال داده و اینگونه وابستگیهای بلندمدت احتمالی را دریافت و حفظ نماید.
شبکههای LSTM از واحدهای LSTM تشکیل شدهاند. واحدهای LSTM با هم ادغام شده و لایههای LSTM تشکیل میشوند. یک واحد LSTM از سلولهایی تشکیل میشود که دارای گیت ورودی، گیت خروجی و گیت فراموشی است. معادلات (1) تا (5) فرم عمومی شبکۀ LSTM را ارائه میکنند.
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
در اینجا xt، بردار ورودی واحد LSTM، ft بردار فعالسازی گیت فراموشی، it بردار فعالسازی گیت ورودی، ot: بردار فعالسازی گیت خروجی، ht بردار خروجی واحد LSTM، ct بردار حالت سلول، gσ تابع سیگموئید، cσ تابع تانژانت هایپربولیک، W، U: ماتریسهای وزن که باید آموزش دادهشده و برازش شوند و b پارامترهای بردار بایاس هستند. ساختار یک بلوک از LSTM در شکل (2) ارائهشده است.
|
شکل (1) ساختار مدل LSTM |
3-2 مدلهای کانولوشنی (CNN16)
شبکههای عصبی کانولوشنی یا پیچشی (CNN) شاخهای از شبکههای عصبی عمیق هستند که در پیشبینیهای سری زمانی در یادگیری ماشین استفاده میشوند. در شبکههای عصبی کانولوشنی بهمنظور حداقلسازی پیشپردازشها از نوعی از پرسپترونهای چندلایه استفاده میشود. بهجای شبکۀ عصبی کانولوشنی گاهی از این شبکهها با نام شبکههای عصبی تغییرناپذیر با انتقال17 یا تغییرناپذیر با فضا18 هم یاد میشود. این نامگذاری بر مبنای ساختار این شبکه است. ساختار شبکههای کانولوشنی از فرایندهای زیستی الگوسازی شدهاند که در آنها نورونها تنها در یک ناحیۀ محدود به تحریک، (که به آن ناحیۀ پذیرش گفته میشود) واکنش نشان میدهند. نواحی پذیرش نورونهای مختلف بهصورت جزئی با هم همپوشانی داشته بهگونهای که پوشش کل میدان را نتیجه میدهند.
ساختار یک شبکۀ عصبی کانولوشنی (CNN) از لایههای مختلفی تشکیل شده است. لایههای پنهان کانولوشنی یا ادغامی یا کاملاً متصل هستند. لایههای کانولوشنی ورودی وظیفۀ فیلتر کردن را به عهده دارند، سپس نتیجه را به لایۀ بعدی منتقل مینمایند. ممکن است شبکههای عصبی کانولوشنی از لایههای ادغام19 محلی یا سراسری تشکیل شده باشند که خروجیهای خوشههای نورونی در یک لایه را در یک تک نورون در لایۀ بعدی ادغام میکنند. روش حداکثر تجمیع20 یک مثالی است که حداکثر مقدار بین خوشههای نورونی در لایۀ پیشین را مورد استفاده قرار میدهد. میانگین تجمیع21 که مقدار میانگین خوشههای نورونی در لایۀ پیشین را در نظر میگیرد، میتوان مثالی دیگر در نظر گرفت. شبکههای عصبی کانولوشنی با اشتراک وزنها در لایههای پیچشی، باعث ایجاد حداقل حافظه و بیشترین کارایی میشوند. عملیات کانولوشن (فیلتر) استاندارد در معادلۀ (6) نمایش داده شده است. t نشانگر زمان، x نشاندهندۀ ورودی و a نشاندهندۀ متغیر است.
(6) |
|
معادلۀ (7) جزئیات مربوط به معماری شبکه را ارائه میدهد که در آن W نشانگر وزن، x نشاندهندۀ ورودی، b نشاندهندۀ بایاس و z نشاندهندۀ خروجی نورونها است. در انتهای شبکه، از تابع softmax برای گرفتن خروجی استفاده میشود. معادلۀ (8) و (9) تابع softmax را نشان میدهد که در آن y نشاندهندۀ خروجی است.
(7) |
|
(8) |
|
(9) |
|
شکل (1) نمایی کلی از معماری شبکههای کانولوشنی در یادگیری عمیق را نشان میدهد.
|
شکل (2) ساختار شبکههای کانولوشنی در یادگیری عمیق
|
3-3 مدل هیبریدی CNN-LSTM
همانطور که پیشتر بیان شد مدلهای یادگیری عمیق مبتنی بر شبکههای عصبی کانولوشنی یا پیچشی (CNN) در پیشبینیهای سری زمانی در یادگیری ماشین استفاده میشوند بااینحال بر اساس مطالعات تجربی، این مدلها بر استخراج ویژگیها متمرکز میشوند و از طرفی مدلهای یادگیری عمیق مبتنی بر شبکههای LSTM دارای ویژگی تعمیمدهی بر اساس توالی زمانی هستند. بر اساس ویژگیهای دو مدل مذکور، مدل هیبریدی CNN-LSTM بهمنظور پیشبینی دادههای سری زمانی بازارهای مالی به وجود آمده است. شکل (3)، نمایی کلی از ساختار این مدل را ارائه میکند. همانطور که در این نگاره قابل مشاهده است این مدل شامل لایۀ ورودی، بخش لایۀ کانولوشنی CNN تکبعدی، لایۀ ادغام و بخش لایۀ پنهان LSTM است. در ادامه و در شکل (4) مکانیسم آموزش و پیشبینی بهوسیله مدل CNN-LSTM ترسیم شده است.
| |
شکل (3). ساختار مدل هیبریدی CNN-LSTM | |
| |
شکل (4). مکانیسم آموزش و پیشبینی با استفاده از مدل یادگیری عمیق هیبریدی CNN-LSTM |
3-4 معیارهای ارزیابی
برای ارزیابی کارایی روشهای پیشبینی سری زمانی شاخص بورس اوراق بهادار تهران، از سه معیار اصلی استفاده میشود:
1- میانگین درصد قدر مطلق خطای متقارن (SMAPE22)
2- میانگین مطلق درصد خطا23 (MAPE)
3- ریشه میانگین مربع خطا (24RMSE)
این معیارها بهصورت روابط زیر تعریف میشوند:
(10) |
|
(11) |
|
(12) |
|
جاییکه و
به ترتیب مقادیر واقعی و پیشبینیشده در زمان t هستند.
4- نتایج برآورد مدلهای یادگیری عمیق
در این تحقیق دادههای شاخص بورس اوراق بهادار تهران بهعنوان متغیر اصلی تحقیق بهمنظور ورود به پروسه مدلسازی و پیشبینی با استفاده از مدلهای یادگیری عمیق (DL) در ابتدا با استفاده از رابطۀ زیر، نرمالسازی میشوند:
(13) |
|
در این رابطه و
به ترتیب میانگین و انحراف معیار دادههای شاخص بورس در دورۀ مورد بررسی هستند. پس از مرحلۀ پیشپردازش و نرمالسازی، دادههای نرمالسازی شده به دو بخش دادههای آموزش و دادههای آزمون تقسیم میشوند. در این تحقیق 80% دادهها به بخش آموزش تخصیص داده میشود و 20% باقیمانده بهمنظور آزمون در مدل یادگیری عمیق مورد استفاده قرار میگیرد. لازم به ذکر است که در مرحلۀ آموزش اوزان در مدلهای یادگیری عمیق بر اساس شبکههای عصبی بهصورتی تعدیل میشوند که بتوان الگوهای موجود در سری زمانی را شناسایی کرد. در مرحلۀ تست، بر اساس دادههای واقعی و اندازهگیری معیارهای سنجش کارایی، قدرت پیشبینی و تعمیمدهی مدل به دادههای واقعی سنجیده میشود.
4-1 فرآیند آموزش
شکل (5) فرایند آموزش مدل ترکیبی یادگیری عمیق مبتنی بر شبکه CNN-LSTM را نشان میدهد. همانطور که در این شکل مشخص است بهینهسازی فرایند یادگیری در این مدل بر اساس حداقلسازی RMSE و تابع زیان انجام شده است. در جدول (1) تنظیمات هایپرپارمترهای مدل که بر اساس برآورد چندین مدل و انتخاب مدل با بالاترین کارایی انجام شده است را نشان میدهد.
|
شکل (5). فرآیند آموزش مدل یادگیری عمیق هیبریدی مبتنی بر CNN-LSTM منبع: محاسبات تحقیق |
جدول (1) تنظیمات هایپرپارامترای مدل CNN-LSTM | |
32 | Convolution layer filters |
Tanh | Convolution layer activation function |
Same | Convolution layer padding |
Same | Pooling layer padding |
Relu | Pooling layer activation function |
64 | Number of hidden units in LSTM layer |
Tanh | LSTM layer activation function |
0.001 | Learning rate |
Adam | Optimizer |
mean_absolute_error | Loss function |
600 | Epochs |
8 | Iteration per Epoch |
4800 | Iteration |
در جدول (1) تمامی تنظیمات هایپر پارامترهای مدل مورد بررسی را نشان میدهد.
4-2 پیشبینی براساس مدلهای یادگیری عمیق
در ادامه و در شکل (6) تا (8) نتایج پیشبینی شاخص بورس اوراق بهادار در دورۀ آزمون دادهها به ترتیب با استفاده از سه مدل LSTM، CNN و مدل هیبریدی CNN-LSTM ارائهشده است. نتایج ارائهشده نشاندهندۀ عملکرد و دقت بهتر مدل هیبریدی CNN-LSTM در پیشبینی با گام یک روز به جلو نسبت به دو مدل دیگر است. بااینحال بهمنظور بررسی دقیقتر این موضوع باید کارایی این مدلها در پیشبینی وضعیت شاخص بورس بر اساس سه معیار سنجش کارایی بررسی شود.
|
شکل (6). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل CNN-LSTM |
|
شکل (7). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل LSTM |
|
شکل (8). پیشبینی شاخص بورس اوراق بهادار تهران بر اساس مدل CNN |
در این بخش از سه معیار سنجش کارایی بهمنظور ارزیابی عملکرد مدلهای پیشبینی شاخص بورس اوراق بهادار بر اساس روش یادگیری عمیق مبتنی بر شبکههای عصبی استفاده میشود. نتایج محاسبات معیارهای میانگین درصد قدر مطلق خطای متقارن (SMAPE)، میانگین مطلق درصد خطا (MAPE) و ریشه میانگین مربع خطا (RMSE) در جدول (2) ارائه شده است. بر اساس نتایج ارائهشده در جدول (2)، مدل CNN-LSTM بهترین عملکرد را داشته است و مدل LSTM در رتبۀ بعدی دقت و کارایی پیشبینی ارائه شده است.
جدول (2). معیارهای سنجش دقت و کارایی پیشبینی مدلهای یادگیری عمیق | |||
CNN | LSTM | CNN-LSTM |
|
02044/0 | 012559/0 | 0070/0 | SMAPE |
0858/0 | 0489/0 | 0289/0 | MAPE |
112650 | 63957 | 43341 | RMSE |
منبع: یافتههای پژوهش |
5- بحث و نتیجهگیری
اخیراً در حوزه یادگیری ماشینی، گرایشی با نام یادگیری عمیق (DL)، در پیشبینیهای مالی، توجه بسیاری را جلب کرده است. بااینکه یادگیری عمیق در سالهای ابتدایی توسعه خود قرار دارد، اما روند تحقیقات، مقالات و سرمایهگذاریهای شرکتهای بزرگ در این حوزه، نشاندهندۀ گسترش روزافزون کاربردهای یادگیری است. با توجه به ظرفیتها و توانایی قابل توجه روش یادگیری عمیق در استخراج اطلاعات معتبر از مجموعه دادهها و الگوهای شناسایی قدرتمند، بسیاری از مقالات اخیر بر کاربرد تکنیکهای DP در حوزۀ مالی متمرکز شدهاند و ادغام الگوریتمهای یادگیری عمیق با پیشبینیهای بازار بهعنوان یکی از جذابترین مباحث در ادبیات مالی در نظر گرفته میشود (Cavalcante et al, 2016).
در این تحقیق تلاش شد مدل هیبریدی یادگیری عمیق مبتنی بر ساختار شبکههای عصبی CNN-LSTM بهمنظور پیشبینی شاخص بورس اوراق بهادار تهران معرفی شده و کارایی این مدل با ساختارهای سنتی در این حوزه ازجمله مدل LSTM و مدل CNN مقایسه شود. در این راستا از معیارهای سنجش کارایی میانگین درصد قدر مطلق خطای متقارن (SMAPE)، میانگین مطلق درصد خطا (MAPE) و ریشۀ میانگین مربع خطا (RMSE) استفاده شد. نتایج پیشبینی بر اساس سه مدل مذکور، مدل هیبریدی یادگیری عمیق مبتنی بر ساختار شبکههای عصبی CNN-LSTM برترین عملکرد را داشته است و مدل یادگیری عمیق مبتنی بر شبکههای عصبی LSTM در رتبۀ بعدی قرار دارد. نتایج این تحقیق نشان میدهد که مدلهای یادگیری عمیق میتواند بهعنوان ابزاری با کارایی بالا در پیشبینی روندهای حرکتی متغیرهای مالی مورد استفاده قرار گیرد از اینرو به فعالان بازارهای مالی، استفاده و توجه ویژه به این ابزار پیشنهاد میشود.
References:
- Adebiyi, A. A., Adewumi, A. O., & Ayo, C. K. (2014). Comparison of arima and artifi- cial neural networks models for stock price prediction. Journal of Applied Math- ematics, 2014.#
- Andrew Ang & Geert Bekaert (2007). "Stock Return Predictability: Is it There?" Review of Financial Studies, Society for Financial Studies, vol. 20(3), pages 651-707.#
- Bollerslev, T., Marrone, J., Xu, L., & Zhou, H. (2014). Stock return predictability and variance risk premia: Statistical inference and international evidence. Journal of Financial and Quantitative Analysis, 49 (03), 633–661.#
- Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient boosted trees, random forests: Statistical arbitrage on the S&P 500. European Journal of Operational Research 259(2), 689–702.#
- Christopher Krauss; Xuan Anh Do and Nicolas Huck, (2017), Deep neural networks, gradient-boosted trees, random forests: Statistical arbitrage on the S&P 500, European Journal of Operational Research, 259, (2), 689-702.#
- Gonçalves, R., Miguel,R. V, Pereira. F., Rocha. A., (2019). Deep learning in exchange markets. Information Economics and Policy.#
- Krauss, C., Do, X. A., Huck, N. (2017). Deep neural networks, gradient-
R.C. Cavalcante, R.C. Brasileiro, V.L.F. Souza, J.P. Nobrega, A.L.I. Oliveira, (2016). Computational Intelligence and Financial Markets: A Survey and Future Directions, Expert Systems with Applications, 55,194-211.#
- Tipirisetty, Abhinav, "Stock Price Prediction using Deep Learning" (2018). Master's Projects. 636. DOI: https://doi.org/10.31979/etd.bzmm-36m7.#
- Tipirisetty, Abhinav, (2018). Stock Price Prediction using Deep Learning, Master's Projects. 636.#
- Vadiei, Mohammad Hossein, & Hosseini, Seyyed Mohammad. (2012). The relationship between performance evaluation criteria and abnormal stock return. journal of empirical research in accounting, 1(4), 73-87. #
- W. Long, Z. Lu and L. Cui, (2018). Deep learning-based feature engineering for stock price movement prediction, Knowledge-Based Systems .#
- Yan, L.; Zhang, H. T.; Goncalves, J.; Xiao, Y.; Wang, M. et al. (2020): A machine learning-based model for survival prediction in patients with severe COVID-19 infection. MedRxiv: 2020.2002.2027.20028027#
- Yang Liu, (2019). Novel Volatility Forecasting Using Deep Learning – Long Short Term Memory Recurrent Neural Networks, Expert Systems with Applications.#
COPYRIGHTS © 2023 by the authors. Licensee Advances in Modern Management Engineering Journal. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution 4.0 International (CC BY 4.0) (http://creativecommons.org/licenses/by/4.0/).
|
[1] Ph.D. Candidate, Department of Management, Qom Branch, Islamic Azad University, Qom, Iran
[2] Assistant Professor, Department of Accounting, Qom Branch, Islamic Azad University, Qom, Iran (Corresponding Author) – Mozhgan_safa@yahoo.com
[3] Associate Professor, Department of Management, Central Tehran Branch, Islamic Azad University, Tehran, Iran
[4] Assistant Professor, Department of Accounting, Qom Branch, Islamic Azad University, Qom, Iran
Citation: Mehdi Heidarzadeh, Mozhgan Safa, Mirfeiz Fallah Shams, Hossein Jahangirnia (2024). Predictability of Tehran Stock Exchange Using Deep Learning Models (Hybrid CNN-LSTM Model).
https://doi.org/00.00000/afi.0000.0000000.0000
[5] دانشجوی دکتری گروه مدیریت، واحد قم، دانشگاه آزاد اسلامی، قم، ایران.
[6] استادیار گروه حسابداری، واحد قم، دانشگاه آزاد اسلامی، قم، ایران، (نویسنده مسئول). Mozhgan_safa@yahoo.com
[7] دانشیار گروه مدیریت، واحد تهران مرکزی، دانشگاه آزاد اسلامی، تهران، ایران.
[8] استادیار گروه حسابداری، واحد قم دانشگاه آزاد اسلامی، قم، ایران.
استناد: مهدی حیدر زاده،مژگان صفا،میرفیض فلاح شمس،حسین جهانگیری (1403) پیشبینیپذیری بورس اوراق بهادار تهران با استفاده از مدلهای یادگیری عمیق (مدل هیبریدی CNN-LSTM ) https://doi.org/00.00000/afi.0000.0000000.0000
[9] Root Mean Square Error (RMSE)
[10] Liu
[11] Gonçalves et al.
[12] Long et al.
[13] Tipirisetty.
[14] Krauss et al.
[15] Long Short-Term Memory
[16] Convolutional Neural Network
[17] Shift Invariant
[18] Space Invariant
[19] Pooling Layer
[20] Max Pooling
[21] Average Pooling
[22] Symmetric Mean Absolute Percentage Error (SMAPE)
[23] Mean Absolute Percentage Error (MAPE)
[24] Root Mean Square Error (RMSE)