Stock portfolio optimization using Deep Q Reinforcement Learning strategy based on State-Action matrix
Subject Areas : Stock Exchangemehdi esfandiyar 1 , Mohammadali Ali Karamati 2 , Reza Gholami Jamkarani 3 , mohammad reza kashefi neyshaboori 4
1 - Department of Industrial Management, Qom Branch, Islamic Azad University, Qom, Iran
2 - Department of Industrial Management, Central Tehran branch, Islamic Azad University, Tehran, Iran.
3 - Department of Accounting, Qom Branch, Islamic Azas University, Qom, Iran
4 - Department of Financial Management, Central Tehran Branch, Islamic Azad University, Tehran, Iran
Keywords: Portfolio optimization, Tehran Stock Exchange, reinforcement learning, Algorithmic Trading, DEEP Q Algorithm,
Abstract :
The purpose of this paper is to optimize the portfolio consisting of stocks using DEEPQ's reinforcement learning strategy based on the state-action matrix. For this purpose, in order to optimize and make profitable the portfolio consisting of stocks, the performance of the reinforcement learning strategy based on the DEEP Q algorithm and the passive strategy of Buying and Holding in two states of Bullish and Bearish markets during the time period of 2017-2021 were investigated. The statistical population was 672 companies admitted to the Tehran Stock Exchange, of which 7 companies (statistical sample) were considered suitable. The comparison of two strategies shows that the Reinforcement Learning strategy, in the Bullish and Bearish markets, compared to the trading method of buying and holding, which has led to losses, has a high potential for profitability in the Iranian stock market. Based on the results, it is suggested that brokers and stock exchange companies and analysts use the Reinforcement Learning strategy for profitability and stock portfolio optimization. Also, the comparison of the results of these two approaches makes it clear that the application of Reinforcement Learning is more suitable for investors who do not have the high risk-taking ability of the Buy-and-Hold approach.
_|1) امیری، میثم، ابراهیمی سروعلیا، محمدحسن و هاشمی، هما. (1399). بررسی عملکرد الگوریتم GRASP درانتخاب پرتفوی بهینه ( با لحاظ¬محدودیت کاردینالیتی. اقتصادمالی، 14(51)، 147-172.
2) رستگار، محمدعلي، دستپاك، محسن (1397). ارائه مدل معاملاتي با فراواني زياد همراه با مـديريت پويـاي سـبد سـهام بـه روش يادگيري تقويتي در بورس اوراق بهادار تهران. فصلنامه تحقيقات مالي، 20(۱): 16 -۱.
3) فلاحپور، سعيد، حکيميان، حسن (۱۳۹۸). بهينهسازي استراتژي معاملات زوجي با استفاده از روش يادگيري تقويتي، با بهکارگيري ديتاهاي درونروزي در بورس اوراق بهادار تهران، فصلنامه تحقیقات مالی، 21 (1): ۳۴-۱۹.
4) گلارضی، غلامحسین، انصاری، حمیدرضا (1401). مقایسه عملکرد الگوریتمهای تکاملی NSGAII و SPEA2 در انتخاب پرتفولیوی بهینه در بورس اوراق بهادار تهران. فصلنامه تحقیقات مالی، 24 (3): 410-430.
5) میزبان، هدیه سادات، افچنگی، زهرا، احراری، مهدی،آروین، فرشاد و سوری، علی (1391). بهینهسازی سبد سهام با استفاده از الگوریتم ازدحام ذرات در تعاریف مختلف اندازه گیری ریسک. اقتصاد مالی، 6(19)، 205-227.
6) Agarwal, A. , Hazan, E. , Kale, S. , & Schapire, R. E. (2006). Algorithms for portfolio management based on the newton method. In Proceedings of the 23rd international conference on machine learning (pp. 9–16). ACM .
7) Amiri, R., Mehrpouyan, H., Fridman, L., Mallik, R. K., Nallanathan, A., & Matolak, D. (2018). A Machine Learning Approach for Power Allocation in HetNets Considering QoS. In 2018 IEEE International Conference on Communications (ICC). 2018 IEEE International Conference on Communications (ICC 2018). IEEE. https://doi.org/10.1109/icc.2018.8422864
8) Ha, Y., & Zhang, H. (2020). Algorithmic trading for online portfolio selection under limited market liquidity. In European Journal of Operational Research (Vol. 286, Issue 3, pp. 1033–1051). Elsevier BV. https://doi.org/10.1016/j.ejor.2020.03.050
9) Markowitz H.M. (1952). Portfolio Selection. Journal of Finance, 7 (1): 77-91.
10) Mohammed, M. A., Lakhan, A., Abdulkareem, K. H., & Garcia-Zapirain, B. (2023). A hybrid cancer prediction based on multi-omics data and reinforcement learning state action reward state action (DEEP Q). In Computers in Biology and Medicine (Vol. 154, p. 106617). Elsevier BV. https://doi.org/10.1016/j.compbiomed.2023.106617
11) Park, H., Sim, M. K., & Choi, D. G. (2020). An intelligent financial portfolio trading strategy using deep Q-learning. Expert Systems with Applications, 158.
12) Reeves, M., Moose, S., & Venema, T. (2014). The growth share matrix. BCG–The Boston Consulting Group.
13) Skabar, A., & Cloete, I. (2002). Neural networks, financial trading and the efficient markets hypothesis. In ACSC: 241-249
14) Soleymani, F., & Paquet, E. (2020). Financial portfolio optimization with online deep reinforcement learning and restricted stacked autoencoder—DeepBreath. In Expert Systems with Applications (Vol. 156, p. 113456). Elsevier BV. https://doi.org/10.1016/j.eswa.2020.113456
15) Treleaven, P., Galas, M. & Lalchand, V. (2013). Algorithmic trading review. Communications of the ACM, 56(11): 76-85.
16) Zhang, Z., Zohren, S., & Roberts, S. (2020). Deep reinforcement learning for trading. The Journal of Financial Data Science, 2(2): 25-40.
|_
بهینهسازی پرتفوی سهام با استفاده از استراتژی یادگیری تقویتی کیو عمیق مبتنی بر ماتریس حالت- عمل
چکیده
هدف این مقاله بهینهسازی پرتفوی سهام با استفاده از استراتژی یادگیری تقویتی کیوعمیق مبتنی بر ماتریس حالت-عمل می باشد. بدین منظور، برای بهینهسازی و سودآوری پرتفویی متشکل از سهام، عملکرد استراتژی یادگیری تقویتی مبتنی بر الگوریتم کیو عمیق و استراتژی منفعل خرید و نگهداری در دو حالت بازارهای صعودی و نزولی طی دوره زمانی 1396-1400 مورد بررسی قرار گرفت. جامعه آماری 672 شرکت پذیرفته شده در بورس اوراق بهادار تهران بوده که از میان آنها تعداد 7 شرکت (نمونه آماری) مناسب دانسته شد. مقایسه دو استراتژی نشان میدهد استراتژی یادگیری تقویتی، در بازارهای صعودی و نزولی در مقایسه با روش معاملاتی خرید و نگهداری که منجر به زیان شده است، در عمل توان بالایی برای سودآوری در بازار بورس اوراق بهادار ایران دارد. براساس نتایج، پیشنهاد میشود کارگزاران و شرکتهای بورسی و تحلیلگران از راهبرد یادگیری تقویتی برای سودآوری و بهینهسازی پرتفوی سهام استفاده کنند. همچنین، مقایسه نتایج این دو رویکرد روشن میکند که کاربرد یادگیری تقویتی برای سرمایهگذارهایی که توان ریسکپذیری بالای رهیافت خرید و نگهداری را ندارند، مناسبتر است.
واژههای کلیدی: بهینهسازی پرتفوی، معاملات الگوریتمی، یادگیری تقویتی، الگوریتم کیو عمیق، بورس اوراق بهادار تهران.
طبقهبندی JEL: G11, G17, P45.
1. مقدمه
بهینهسازی پورتفولیو (پرتفوی) 1، مولفه اصلی نظام معاملاتی است. مدیریت پرتفوی یک استراتژی سرمایه گذاری است که با هدف به حداکثر رساندن بازده مورد انتظار سرمایه و در عین حال به حداقل رساندن ریسک مالی با تخصیص مجدد مستمر دارایی های پرتفوی، یعنی با نسبت دادن وزن مناسب به هر ابزار مالی، انجام می شود (سلیمانی 2و همکاران، 2020). مارکوئیتز3 نخستین اقتصاددانی بود که این نظریه را مطرح کرد و این نظریه با عنوان «نظریه پورتفولوی مدرن» (MPT)4 قبول عام یافت. مزیت اصلی چنین پورتفولیویی مبتنیبر ترویج تنوعبخشی است که «منحنی سرمایه صاحبان سهام»5 را هموار میسازد؛ یعنی، نسبت به معاملات دارایی انفرادی به بازده بیشتری منجر میشود. این امر بدینمعناست که ریسک (نوسان) پورتفولیوی طولانیمدت همواره کمتر از ریسک دارایی انفرادی است (ژانگ، زهرن و رابرتس،6 2020). بهباور مارکوییتز، سرمایهگذاران، ریسک و بازده را باهم درنظرمیگیرند و میزان تخصیص سرمایه به فرصتهای سرمایهگذاری گوناگون را براساس تعامل ریسک و بازده انتخاب میکنند (ریوِز، مووز و وِنِما7، 2014).
از طرفی یکی از حوزههاي جدید در بازارهاي مالی، معاملات الگوریتمی مبتنی بر یادگیری تقویتی و توسعه آن در بازار سرمایههاي سراسر دنیا است و میتوان گفت بخش قابل توجهی از معاملات، توسط معاملات خودکار صورت می گیرد. سه نوع تحلیل شناخته شده در بازارهای مالی مورد استفاده قرار میگیرد. تحلیل بنیادی بر پایه عملکرد شرکت ها و رشد سودآوری آنها بنا شده است؛ تحلیل مالی رفتاری، حوزهای از دانش مالی است که از نظریههای مبتنی بر روانشناسی برای توضیح رفتار بازارهای مالی بهره میگیرد و تحلیل تکنیکال سومین روش است که بر پایه سابقه معاملات یک دارایی مالی از طریق نمودار قیمت و فرمولهای ریاضی که اندیکاتورهای تکنیکال نامیده میشوند، بنا شده است. در سال های اخیر از هوش مصنوعی نیز برای پیش بینی بازار استفاده شده است که ترکیب آن با تحلیل تکنیکال می تواند منجر به ایجاد سیستم های خودکار معاملاتی و الگوریتمی شود (ها8 و همکاران، 2020).
در سیستم مبتنی بر معاملات الگوریتمی، سفارشهاي بزرگ معمولاً به سفارشهاي کوچک شکسته و در چندین مرحله انجام میشود. استراتژي معاملاتی در این نوع معاملات شامل نحوه تصمیمگیري در خصوص مبلغ سرمایهگذاري، مدیریت اجراي سفارش، قیمت سفارشگذاري و غیره است. معاملات مبتنی بر الگوریتم، برنامهاي شامل تعداد مراحل و قواعد از پیش تعریف شده است که به منظور دستیابی به یک هدف معین طراحی میشوند (آگاروال9 و همکاران، 2006).
همچنین معاملات مبتنی بر یادگیری تقویتی، نوعی از معاملات خودکار بوده که شامل برنامههای کامپیوتری برای ارسال سفارشات همراه با الگوریتم های تصمیمگیری هستند که این الگوریتمها، خود بر اساس پارامترهای منحصر به فرد سفارش، مانند زمان، قیمت و یا مقدار سفارش میباشند. در بازارهای مالی الکترونیکی، معاملات مبتنی بر یادگیری تقویتی به معنای استفاده از برنامه های کامپیوتری برای ورود سفارشهای معاملاتی است که سیگنالهای معاملاتی آن توسط بخشی دیگر از سیستم تولید شده است (سلیمانی و همکاران، 2020).
پژوهشها نشان ميدهد استفاده از ابزارها و روشهاي پيشبيني سنتي، خطاي بالايي دارد و در بيشتر موارد، در مقايسه با روشهاي جديدتر و مدلهاي غيرخطي عملكرد ضعيفتري دارند. به عبارتی پیشرفتهای فنآوری، بر معاملات بازار سرمایه نیز همانند بسیاری از عرصههای دیگر، اثرات زیادی گذاشته است. حجم دادههای بازار سرمایه که امروزه تولید میشوند، به حدی زیاد است که بدون بکار بردن فنآوریهای مدرن و رایج، نمیتوان به تصمیمگیری مناسب و معامله اقدام نمود. معاملات الگوریتمی، خانواده بزرگی از انواع روشها را در خود جای میدهند، که انواع روشهای یادگیری ماشین و الگوریتمهای متنوع، در معاملات الگوریتمی کاربرد دارند. نمودار ریختشناسی روش یادگیری تقویتی10 به خوبی مبین انواع روشهای اجرای روش یادگیری تقویتی است که تنها یکی از روشهای یادگیری ماشین و معاملات الگوریتمی11 میباشد، و الگوریتم یادگیری تقویتی کیو عمیق12، یکی از روشهای انجام یادگیری تقویتی است که در این پژوهش مورد توجه قرار دارد و بکار برده شده است. با پیشرفتهای اخیر در یادگیری ماشینی و یادگیری عمیق، پیشبینی رفتارهای مالی پیچیده و خودکارسازی فرآیند تصمیمگیری حداقل در زمینه بهینهسازی پرتفوی تا حدی ممکن شده است (سلیمانی و همکاران، 2020).
از منظر معاملات یادگیری تقویتی، پیدا کردن مدلی براي سفارش گذاري بهینه داراي اهمیت است. نهادهاي فعال بازار در هر بازه زمانی، استراتژي مشخصی براي انجام معامله و کسب سود دارند. استراتژيهاي معاملاتی بایستی از لحاظ عملکرد و بازده همواره مورد پایش قرار گیرند. ارزیابی استراتژي معاملاتی بویژه در معاملات مبتنی بر یادگیری تقویتی و با بسامد بالا داراي اهمیت است، چراکه ریزساختار بازار با سرعت بالا در حال تغییر است (محمد13 و همکاران، 2023).
از طرفی با توجه به این مهم که در یادگیری تقویتی، خروجی الگوریتم های مورد استفاده ماتریس حالت-عمل میباشد، میبایست مفهوم حالت را در قالب حالت بازار دانست که در تحقیق حاضر، از میان سه حالت مطرح برای بازار سرمایه (صعودی، نزولی و خنثی)، دو حالت صعودی و نزولی مطرح شده اند، چرا که در حالت خنثی نوسانات اندک در قیمت سهام اجازه نخواهد داد که معامله ای توسط سیگنال توصیه شده و در نتیجه، به صورت منطقی میتوان از بررسی حالت خنثی صرف نظر نمود.
از آنجا که هدف مورد انتظار در روش یادگیری تقویتی، یادگیری عامل از محیط و پاداش و جریمه های اکتسابی در محیط میباشد، که در نتیجه این یادگیری از اقدامات، ماتریس کیو مبتنی بر معادله مورد استفاده در آن الگوریتم ایجاد میشود، اهمیت و برتری در میان الگوریتمها، به سیاستهای بهینهسازی سبد بستگی پیدا می کند. لذا در صورتی که به دنبال منافع آنی از اقدامات عامل در محیط و به دنبال بهرهبرداری باشیم و از اکتشاف چشم پوشی کنیم، روش کیو عمیق، با توجه به سیاست غیرحریصانهای که دارد، الگوریتم مناسبتری خواهد بود. لذا الگوریتم یادگیری کیو الگوریتم قدرتمندی است، اما قابلیت تعمیمپذیری ندارد و همین مسئله را میتوان بزرگترین نقطهضعف آن دانست. اگر الگوریتم یادگیری کیو را بهروزرسانی اعداد موجود در یک ارائه دو بعدی (شامل: فضای اقدام×فضای وضعیت) درنظر بگیرید، متوجه شباهت آن با برنامهنویسی پویا خواهید شد. این موضوع برای ما روشن میسازد که وقتی عامل تصمیمگیرنده در الگوریتم یادگیری کیو با وضعیتی کاملاً جدید روبهرو شود، هیچ راهی برای شناسایی و انتخاب اقدام مناسب نخواهد داشت. به عبارت دیگر، عامل تصمیمگیرنده الگوریتم یادگیری کیو توانایی تخمین ارزش وضعیتهای ناشناخته را ندارد. برای حل این مشکل، شبکه DQN ارائه دو بعدی را حذف و شبکه عصبی را جایگزین آن میکند. (محمد و همکاران، 2023در پژوهش حاضر برخلاف روشهای سنتی که در آن، در وهله نخست، معمولا با بهرهگیری از مدلهای اقتصادسنجی، بازده مورد انتظار پیشبینی میشود، این گام پیشبینیکننده کنار گذاشته میشود تا مستقیما تخصیصهای دارایی بهدست آید. بنابراین، با بهینهسازی مستقیم «نسبت شارپ14» بازده در واحد ریسک به حداکثر میرسد. از اینرو، هدف این مقاله بررسی امکان و توان کاربرد یادگیری کیو عمیق مبتنی بر ماتریس حالت-عمل برای بهینهسازی پورتفوی با توجه به محدودیتهای تعیینشده توسط بازار سهام، مانند نقدینگی و هزینههای مبادله است.
برای اینمنظور، مقاله در پنج بخش سازماندهی میشود: بعد از مقدمه، در بخش دوم، ادبیات پژوهش بررسی میشود؛ در بخش سوم، روش پژوهش بیان میشود و بخشهای چهارم و پنجم نیز به یافتهها و نتیجهگیری و پیشنهادها اختصاص مییابد.
2-مبانی نظری
در این بخش، برای برقراری ارتباط بهتر مفاهیم و نظریات و درنهایت، دستیابی به بینشی عمیق نسبت به مسائل اقتصادی، اصطلاحات و مفاهیم اساسی تعریف و تحدید میشود.
2-1 بهینهسازی پورتفولیو
بهینهسازی پورتفولیو، عبارت است از انتخاب بهترین ترکیب از داراییهای مالی بهنحوی که باعث شود، تاحد ممکن بازده پورتفولیو، بیشینه و ریسک آن، کمینه شود. ایده اساسی نظریه مدرن پورتفولیو این است که اگر در داراییهایی که بهطورکامل همبستگی ندارند، سرمایهگذاری شود؛ ریسک آن داراییها یکدیگر را خنثی کرده و میتوان یک بازده ثابت با ریسک کمتر به دست آورد (مارکوئیتز، ۱۹۵۲). در بهینهسازی پورتفولیو، مساله اصلی، انتخاب بهینه داراییها و اوراق بهاداری است که با مقدار مشخصی سرمایه میتوان بهدست آورد؛ اگرچه، کمینهکردن ریسک و بیشینهکردن بازده سرمایهگذاری ساده بهنظر میرسد؛ روشهای متعددی برای تشکیل پورتفولیوی بهینه بهکار رفته است (ترلیون 15و همکاران، ۲۰۱۳).
2-2 یادگیری تقویتی
یادگیری تقویتی16 یکی از زیرشاخه های یادگیری ماشین است که در آن یک عامل یادگیرنده در تعامل با محیط سعی میکند به یک سیاست بهینه دست یابد. عامل یادگیرنده با مشاهده وضعیت سیستم (S)، اقدام (A) را انتخاب مینماید. محیط بازخورد این اقدام را در قالب پاداش (R) و حالت بعدی سیستم به عامل بازمیگرداند. عامل مجددا با مشاهده پاداش و حالت سیستم، اقدام بعدی را انتخاب میکند و این فرآیند تا زمان رسیدن به سیاست بهینه ادامه پیدا میکند (امیری17 و همکاران، 2018).
شکل1-نحوه عملکرد سیستم یادگیری تقویتی
(منبع: امیری و همکاران، 2018)
2-3 انواع الگوریتم های یادگیری تقویتی
در یک دسته بندی کلی میتوان الگوریتم های یادگیری تقویتی را به دو دسته الگوریتمهای مبتنی بر سیاست18 و الگوریتمهای مستقل از سیاست19 تقسیم بندی نمود (امیری و همکاران، 2018):
الگوریتم های یادگیری تقویتی مبتنی بر سیاست که در این الگوریتمها تابع ارزش بر اساس سیاست و اقدام فعلی عامل به روز میشود.
الگوریتم های یادگیری تقویتی مستقل از سیاست که در این الگوریتمها تابع ارزش مستقل از سیاست و اقدام فعلی عامل به روز میشود.
الگوریتم کیو عمیق یکی از معروفترین الگوریتم های on-policy یادگیری تقویتی است و الگوریتم یادگیری کیو20 نیز یکی از معروف ترین الگوریتم های off-policy یادگیری تقویتی است.
2-4 معاملات الگوریتمی در ایران
همزمان با ورود معاملات برخط21 به بازار ایران، یک دریچه جدید برای فعالان بازار سرمایه گشوده شد. با استفاده از این ابزار امکان ورود سیستمهای الگوریتمی و خودکار به بازار کشور فراهم گشت (پویان فر، 13۹4).
با توجه به اینکه که معاملات الگوریتمی یکی از سریعترین روشها جهت تبدیل دانش یا ایده معاملاتی به پول و دارایی میباشد، در سالهای اخیر شاهد ورود کارشناسان فنی، مهندسی و ریاضیات به بازار ایران هستیم. علاوه بر این فعالیت برخی شرکتها برای سرمایهگذاری در زیرساختهای معاملات الگوریتمی از سال 13۹1 شروع شده است. در این فاصله رایزنیهایی با سازمان بازار سرمایه و شرکت بازار سرمایه و فرابازار سرمایه جهت معرفی این سامانهها به بازار انجام گرفت. بدین ترتیب، اولین دستورالعمل معاملات الگوریتمی (معاملات شرطی و خودکار) و مجوز مورد نیاز برای انجام این فعالیت در سال 13۹4 صادر گردید. علاقهمندی نهادهای بزرگ مالی جهت استفاده از این ابزار در سال 13۹5 شدت گرفت. در حال حاضر در حوزه معاملات الگوریتمی فعالیتهای قابل اجرا توسط نهادهای مالی شامل بازارگردانی اوراق و سهام توسط نرم افزارهای الگوریتمی تولید شده و سبدگردانی میباشد. از سوی دیگر سرمایهگذاران قادرند فعالیتهای پردازش اطلاعات، تحلیل، تصمیمگیری خودکار، ارسال سفارش ها به صورت دستی یا سیستمی را انجام دهند و یا از ابزارهای معاملات الگوریتمی ارائه شده توسط شرکتهای معاملات برخط و کارگزاریهای معتبر (صحرا، تدبیر پرداز) استفاده نمایند. با اینحال نیاز به تدوین و تست استراتژیهای معاملاتی در این حوزه به شدت احساس میشود (کیایی، ۱۳۹۷).
پژوهشهای زیادی با موضوع بهینهسازی پرتفوی انجام شده است که در آنها از روشهای مختلفی استفاده شده است. از نظر تاریخی، پژوهش اسکابار و کلوته22 (2002) نخستین اثری است که سعی کرده با ترکیب تحلیل تکنیکال و یادگیری تقویتی بهینه سیستم معاملاتی خودکاری طراحی کرده و گسترش دهد.
پارک، سیم و چویی23 (202۰) بیان کردهاند که عامل هوشمند برای شناسایی اقدام معاملاتی بهینه برپایه یادگیری کیوی عمیق آموزش میبیند و نتایج بهتری از راهبردهای استاندارد کسب میشود.
ژانگ 24و همکاران (202۰) در تحقيقي بیان کردهاند که روش آنها از مدلهای پایه بهتر عمل کرده و با وجود هزینههای سنگین تراکنش، سود مثبتی بهدست آمده است.
میزبان و همکاران (1391)، در پژوهش خود از الگوریتم ازدحام ذرات برای بهینهیابی سبد دارایی مارکوویتز با توجه به معیارهای متفاوت اندازهگیری ریسک یعنی میانگین واریانس، میانگین نیم- واریانس و میانگین قدر مطلق انحرافات و همچنین محدودیتهای موجود در بازار واقعی مانند "اندازه ثابت تعداد سهام" و "محدودیت خرید" استفاده کردند. نتایج به دست آمده از این پژوهش حاکی از عملکرد موفق الگوریتم الگوریتم ازدحام ذرات در محاسبه مرز کارای مارکوویتز در تعاریف مختلف اندازه گیری ریسک است.
رستگار و دستپاک (1397) در پژوهش خود رویکرد بهرهگیری از خودمعاملهگرها برای پیشبینی روند آتی سهم و روش یادگیری تقویتی برای مدیریت پویای سبد سهام را مطرح کردهاند. نتایج نشان داد که یادگیری تقویتی عملکرد مدل را بهبود بخشیده است.
فلاحپور و حکیمیان (139۸) در تحقیقی با بهكارگيري دادههای معاملات روزانه (درونروزی)25 در بورس اوراق بهادار تهران بیان کردهاند که معاملات زوجي، معروفترين و قديميترين نوع سيستمهاي معاملات الگوريتمي است كه کارآیی و سودآوري آن در بسياري از پژوهشهاي بازارهاي مالي آشکار شده است. در سالهاي اخير، تحقيقـات مهمی درباره معاملات الگوريتمي براساس يادگيري ماشينی صورت گرفته است. نتايج آزمايش روي دادههای معاملات روزانه زوجی سهامهای منتخب نشان داد كه کاربرد روش يادگيري تقـويتي در طراحـي سيستم معاملات در معاملههای زوجي نسبتبه سایر روشها برتری دارد.
امیری و همکاران (1399)، در تحقیق خود از الگوریتم فراابتکاری به نام جستجوی انطباق تصادفی حریصانه26 برای رفع مشکل بهینهسازی پرتفوی با محدودیت کاردینالیتی 27استفاده نمودند و به جهت تطابق بیشتر با دنیای واقعی، دو مجموعه محدودیت شامل محدودیت های کف و سقف و محدودیت کاردینالیتی را به مدل مارکویتز اضافه نمودند. بررسی نتایج حاصل از بهینهسازی پرتفوی با الگوریتم انطباق تصادفی حریصانه بر روی 199 شرکت طی دوره 5 ساله (1391-1395)، در بورس اوراق بهادار تهران نشان میدهد براساس معیار شارپ در هر پرتفوی 5 ، 15 و30 شرکتی الگوریتم انطباق تصادفی حریصانه در بهینهسازی پرتفوی کاراتر از مدل مارکویتز عمل می کند.
گلارضی و انصاری (1401) در تحقيقي به مقایسه عملکرد الگوریتم ژنتیک مرتبسازی نامغلوب با الگوریتم تکاملی قدرت پارتو بهبودیافته در انتخاب پورتفولیوی بهینه در بورس اوراق بهادار تهران پرداختند. نتایج نشان داد که در مدل، میانگین انحراف معیار عملکرد الگوریتم ژنتیک مرتبسازی نامغلوب نسبتبه عملکرد الگوریتم تکاملی قدرت پارتو مطلوبتر و در مدل میانگین واریانس و میانگین نیمواریانس عملکرد الگوریتم تکاملی قدرت پارتو نسبت به عملکرد الگوریتم ژنتیک مرتبسازی نامغلوب مطلوبتر است.
گفتنی است پژوهشگران با مدلسازيهاي پيچيده رياضي و مطرح كردن فرضيههاي بسيار در بازار، به پيشبيني تغييرات قيمت سهام پرداختهاند، اما به دليل پيچيدگيهاي زياد بازار سرمايه، اغلب آنها موفقيت چنداني به دست نياورده اند. اغلب پژوههايي كه تاكنون در زمينه مديريت سبد دارايي انجام شده، داراي دو بخش هستند: پيشبيني قيمت سهم و مدیریت سبد دارایی (رستگار و دستپاک، ۱۳۹۷). در اغلب این پژوهشها، یادگیری نظارت شده براي ايجاد ارتباط ميان يك سري داده ورودي و خروجي مطلوب استفاده شده است. در اين ميان، از آنجایی که روشهاي پيشبيني به كمك شبكه عصبي مصنوعی به مدل پارامتري نيازي ندارند، از محبوبيت بسياري در پيش بيني قيمت سهام برخوردارند. مشكل روشهاي مشابه يادگيري نظارت شده در اين نوع مسائل، اين است كه هدف آنها كاهش خطاي بين پيشبينيِ حاصل از ورودیها و خروجي مطلوب است، در حالي كه در مديريت سبد دارايي، هدف اصلي افزايش سود است و تنها پيشبيني قيمت سهم، دليل بر سودآوري بالا نيست. از اينرو، رويكرد آموزش با تأخير زماني، ميتواند نتايج واقعبينانهتري داشته باشد؛ زيرا در اين رويكرد، با توجه به زنجيره تصميمها، آموزش داده میشود که از اهداف پژوهش حاضر می باشد.
3. روش پژوهش
هدف این مقاله بهینهسازی پرتفوی سهام با استفاده از استراتژی یادگیری کیو عمیق مبتنی بر ماتریس حالت-عمل است. این پژوهش از حیث هدف، کاربردی و از نظر نوع داده، کمّی و از لحاظ روش، توصیفی - اکتشافی و از منظر طرح تحقیق، پسرویدادی است. جامعه آماری این پژوهش، 672 شرکت بورسی در اسفندماه سال 1400 بوده که از میان آنها، هفت شرکت 28(نمونه آماری) انتخاب شدهاند. روش انتخاب نمونه بهصورت خوشهای یکمرحلهای و سپس، انتخاب هدفمند یک سهم از داخل هرخوشه است؛ به اینصورتکه انتخاب خوشهها و نیز انتخاب یک سهم از میان سهمهای (شرکتهای) هرخوشه به صورت هدفمند انجام شده است. این سهامها (شرکت و نماد اختصاصی) در جدول (1) عرضه شده است.
جدول 1. سهامهای منتخب
ردیف | نام شرکت | نماد | صنعت |
۱ | نفت سپاهان | شسپا | نفت و پتروشیمی |
۲ | همكاران سيستم | سيستم | خدمات |
۳ | مخابرات ايران | اخابر | مخابرات |
۴ | كيميدارو | دكيمي | دارویی |
۵ | سيمان شرق | سشرق | سیمان |
6 | فولاد مبارکه اصفهان | فولاد | فلزات اساسي |
7 | پالایش نفت تهران | شتران | فراورده هاي نفتي |
منبع: تارنمای بورس اوراق بهادار تهران29 (اسفندماه 1400)
دوره زمانی مورد بررسی سالهای 1396-1400 است و در این دوره زمانی، دو دوره ۴۰ روزه معاملاتی بهعنوان بازارهای صعودی و نزولی انتخاب شدهاند که به شرح زیر می باشد.
3-1. معرفی بازارهای صعودی و نزولی بکار برده شده
در پژوهش حاضر، به جهت بررسی عملکرد دو استراتژی خرید و نگهداری و یادگیری تقویتی، از دو حالت بازار صعودی و نزولی استفاده شده است که مشخصات این دورههای صعودی و نزولی بر اساس بررسی نمودار روند بازار هر هفت سهم (در طی پنج سال) بوده که با انتخاب یک دوره مشترک صعودی و نزولی برای هر هفت سهم، یک دوره شامل ۴۰ روز معاملاتی انتخاب شده است. دلیل استفاده از چنین رویکردی، به دلیل تحلیل نمودارها و مشخص نمودن وضعیت سودآوری هر کدام از سبدها در دوره زمانی یکسان در بازار سرمایه اوراق بهادار بوده است، که بدین وسیله امکان تفسیر نتایج سودآوری سبدها و مقایسه سبدها نیز فراهم شود. علاوه بر این، چنین روندی در بازار با روند شاخص کل نیز تا حد زیادی مطابقت دارد. لذا، با توجه به چنین وضعیتی در نمودارها، با اطمینان از تشابه در روند هر هفت سهم مورد مطالعه در این پژوهش، بازارهای صعودی و نزولی به صورت مشترک برای هر هفت سهم انتخاب شده است.
جدول 2- مشخصات دوره های صعودی و نزولی مورد استفاده
روند | تاریخ شروع | تاریخ پایان | طول دوره |
صعودی | ۰۶/۰۱/۱۳۹۹ | ۱۰/۰۳/۱۳۹۹ | ۴۰ |
نزولی | ۰۵/۱۰/۱۴۰۰ | ۰۲/۱۲/۱۴۰۰ | ۴۰ |
منبع: یافته های پژوهش
از آنجا که هدف تحقیق، بررسی عملکرد یادگیری تقویتی و مقایسه با استراتژی خرید و نگهداری در بازارهای صعودی و نزولی است، حالت بازار خنثی، از مجموع حالتهای مورد استفاده در یادگیری کیو حذف میشود. گفتنی است الگوریتم مورد استفاده و همچنین نرخ کامزد نسبتاً بالا که ۱.۵ درصد است، بخشی از نوسانات بازار را برای الگوریتم یادگیری کیو و معاملات الگوریتمی، غیرقابل استفاده میکند، به این معنی که نوسانات اندک در محدوده ۱.۵ درصد، در عمل موجب میشوند که سیگنال ایجاد شده، نگهداری باشد، چرا که تغییرات قیمت سهام در دامنه مثبت و منفی ۱.۵ درصد در مقایسه با قیمت فعلی سهام، در مقایسه با یک و پنج دوره آتی، قادر نخواهد بود که هزینه های کارمزد معاملاتی خرید و فروش سهام را جبران نماید و در چنین وضعیتی، سهام خریدنی و یا فروختنی نخواهد بود، چرا که معامله سهام قادر نخواهد بود، هزینههای معاملاتی را پوشش بدهد و موجب میشود که ارزش سبد سهام کاهش پیدا کند که منجر به زیان ميشود.
از طرفی مفهوم سیگنال نگهداری، با استراتژی خرید و نگهداری، یکسان بوده و در عمل به محقق اجازه مقایسه و بررسی بین دو استراتژی را در حالتی متمایز را نمیدهد. به همین دلیل جهت حذف چالش ایجاد شده از ناحیه نوسانات در قیمت روزانه سهام، حالت بازار خنثی که نوسانات بازار قابل توجه نمیباشند و در نتیجه، سیگنال ایجاد شده برای خودمعاملهگر، نگهداری خواهد بود، از فرض مدل تحقیق حذف شده است، چرا که در حالت بازار خنثی، نتایج ایجاد شده با نتایج استراتژی خرید و نگهداری بسیار شباهت مییابد و دلیل این اتفاق، میزان قابل توجه کارمزدهای معاملاتی میباشد.
3-2. آماده سازی و پردازش داده ها
مراحل انجام شده جهت آمادهسازی فایل اکسل جهت کاربرد در نرمافزار متلب به شرح زیر می باشد:
۱- دریافت فایل اکسل دادههای معاملاتی شرکت انتخابی که به صورت اتفاقی ساده در هر گروه صنعتی انتخاب میشود.
۲- بررسی دادههای معاملاتی موجود در بازه مورد بررسی (ابتدای سال ۱۳۹۶ الی اسفند ۱۴۰۰)
۳- در صورت موجود بودن دادهها، حضور شرکت در نمونه تحقیق تایید میشود، و در غیراین صورت، به صورت اتفاقی، شرکت بازار سرمایه دیگری در همان گروه صنعتی انتخاب و مورد بررسی قرار میگیرد، تا در نهایت، یک شرکت عضو بازار سرمایه در گروه صنعتی مورد نظر انتخاب شود.
۴- این اقدامات تکرار خواهد شد، تا در نهایت 7 شرکت بازار سرمایه مورد نظر انتخاب شود.
۵- علاوه بر شرکتهای عضو بازار سرمایه، بررسی شاخص کل بازار سرمایه نیز در تحقیق حاضر اهمیت دارد و دادههای سالیانه شاخص کل بازار سرمایه در سالهای ۱۳۹۶ الی ۱۴۰۰ نیز از تارنمای بازار سرمایه اوراق بهادار دریافت میشود.
۶- دادههای تهیه شده شرکتهای بازار سرمایه، در دورههای زمانی متفاوتی قرار دارند که میبایست موارد اضافی از این فایلها حذف شود.
۶- دادههای تهیه شده، روزانه میباشد و چیدمان دادههای نیز از جدید به قدیم میباشد که میبایست چیدمان به حالت قدیم به جدید تغییر داده شوند که یک نیازمند صرف وقت طولانی جهت انجام این اقدام است و در این مرحله دادههای معاملاتی اضافه حذف و چیدمان دادهها نیز از قدیم به جدید اصلاح شده است.
۷- پس از آمادهسازی اولیه، لازم است نسخه دیگری از دادههای معاملاتی بر اساس دوره زمانی ماهیانه از دادههای روزانه تهیه شود، به اینصورت که قیمت سهام در انتهای هر ماه، به عنوان قیمت ماهیانه سهام منظور و فایلهای جدیدی تهیه میشود، که این فایل مبنای محاسبات ریسک و بازده در طول دوره ۵ ساله مورد بررسی میباشد.
۸- پس از ترسیم نمودار عملکرد بازار سهام و شاخص کل بر اساس دادههای ماهیانه و بازده سالیانه، نسبت به تحلیل روند بازار و انتخاب دو دوره صعودی و نزولی اقدام شده است.
۹- دادههای معاملاتی روزانه، در دورههای صعودی و نزولی در فایلی جداگانه تهیه میشود، تا از این فایل جهت فراخوانی در نرمافزار متلب استفاده شود.
۱۰- با استفاده از فایلی که در خصوص دورههای صعودی و نزولی تهیه شده است، و شامل دادههای معاملاتی برای ۴۵ روز معاملاتی متوالی میباشد، محاسبات بازده رویکرد خرید و نگهداری برای دوره ۴۰ روزه انجام شده است (استفاده از ۵ روز اضافی جهت پیش بینی قیمت آتی سهام و ایجاد سیگنال معاملاتی کاربرد دارد).
همانطور که ملاحظه میشود به دلیل عدم امکان استفاده مستقیم از دادههای تهیه شده از وبسایت بورس اوراق بهادار تهران، لازم است تا دادههای اولیه با دقت مورد آمادهسازی پردازش قرار گرفته و بخشی از محاسبات در داخل نرمافزار اکسل کدنویسی شده است و بخش دیگر که مربوط به شبیه سازی سبد و اجرای رویکرد یادگیری تقویتی میباشد در نرم افزار متلب کدنویسی شده است.
3-3. تشریح عملکرد خودمعاملهگر مورد استفاده در تحقیق
سیستم خودمعاملهگر در نرمافزار متلب کدنویسی شده است و براساس دادههای بورسی پردازششده در نرمافزار اکسل، محیط معاملاتی را شبیهسازی و درخصوص سیگنالدهی برای انجام معاملات اقدام میکند. روش اجرایی خودمعاملهگر بدین شکل است که فایل اکسل مربوط به دوره معاملاتی را فرامیخواند و دادههای قیمت سهام را وارد حافظه خودمعاملهگر میکند که یک ماتریس بهصورت ۱ × ۴۵ (در نظر داشتن پنج دوره مازاد بر دوره موردنظر) است. ماتریس قیمتهای سهام، در نقش دادههای قیمت سهام در بازار واقعی عمل میکند و خودمعاملهگر، قادر است با کمک تابع مطلوبتی که برای خودمعاملهگر طراحی شده است، قیمتهای روز جاری و قیمتهای آتی را که توسط الگوریتم مورد بررسی قرار میگیرد، درک نموده به تصمیمگیری برای سیگنالدهی بپردازد. درنهایت، دادههای معاملاتی خودمعاملهگر در قالب فایل اکسل ثبت میشود تا بتوان با تحلیل خروجی آن، تفسیر بهتری از روند معاملات و تصمیمگیری الگوریتم بهدست آورد. محاسبات تغییرات رشد یا بازده سهام، از طریق فرمول زیر بهدست میآیند.
رابطه (۱) | Rn = (Pt+n - Pt )/ Pt |
3-4. معرفی الگوریتم سیگنالدهی
الگوریتم سیگنال معاملاتی، براساس مقایسه نرخ بازده آتی محاسبه و ایجاد میشود. در این پژوهش، نرخ بازده آتی، حاصل بررسی و مقایسه یک دوره آتی و پنج دوره آتی است. پس از عرضه سیگنال اولیه، الگوریتم یادگیری تقویتی، برمبنای معادله بلمن، سودآوری تصمیم اخذشده را با سایر گزینههای محتمل قابلِ انتخاب، سنجیده و مقدار محاسبهشده جدید را در ماتریس کیو، اصلاح مینماید. در مدل طراحیشده، روند تغییرات رشد روزانه محاسبهشده است که به محاسبه میانگین تغییرات رشد منجرمیشود که همان بازده سهام طی دوره مورد بررسی است.
الگوریتم سیگنالدهی، پنج سیگنال خرید قوی، خرید ضعیف، فروش قوی، فروش ضعیف و عدممعامله را ایجاد میکند که در حالت قوی، ۱۰۰ درصد و در حالت ضعیف، ۵۰ درصد سرمایه نقدی و یا سهام موجود در سبد برای معاملات خرید و یا فروش استفاده میکنند. البته میتوان دقت پیشنهادات را در حوزه خرید و فروش، افزایش داد، و از درصدهای مختلفی برای خرید و فروش استفاده نمود. که در این تحقیق، به جهت سادگی منطقی، سیگنال فروش قوی، به معنای فروش ۱۰۰ درصد سهام، و سیگنال ضعیف فروش، به معنای فروش ۵۰ درصد سهام، استفاده شده است. در سیگنال خرید قوی، پیشنهاد خرید با استفاده از تمام موجودی پول نقد، و در پیشنهاد خرید ضعیف، خرید با ۵۰ درصد پول نقد موجود، مد نظر میباشد. در حالی که سیگنال، عدم خرید – فروش، تنها به یک سیگنال محدود میشود. به عبارتی در یک مدل سادهتر، میتوان سه سیگنال متمایز به صورت، خرید، فروش، نگهداری را انتظار داشت، و با افزایش دقت سیگنالها، میتوان سطوح اقدام متناظری با درصد مورد نظر برای خرید و فروش را شاهد بود.
3-5 الگوریتم یادگیری کیو و معادله بلمن
یادگیری تقویتی براساس معادله بلمن30 بنا شده است،
NewQ(s,a) = Q(s,a) +a [r(s,a) + gmaxQ¢(s¢,a¢) - Q(s,a)]
|
در رابطه (2) متغیر نرخ یادگیریα ، تعیین میکند که تا چه میزان اطلاعات جدید بر اطلاعات قدیمی ترجیح داده شود. مقدار صفر باعث میشود که عامل، چیزی یاد نگیرد و مقدار یک باعث میشود که عامل فقط اطلاعات جدید را ملاک قرار دهد. همچنین، متغیر نرخ تنزیل (گاما) γ اهمیت پاداشهای آینده را تعیین میکند. مقدار صفر باعث میشود که عامل، ماهیت فرصتطلبانه گرفته و فقط پاداشهای فعلی را مدنظر قرار دهد؛ درحالیکه مقدار یک عامل را ترغیب میکند، برای یک دوره زمانی طولانی برای پاداش تقلا کند.
3-6 مديريت پوياي سبد سهام به روش يادگيري تقويتي
از آنجا که با افزایش میزان تنوع داراییهای سبد، تعداد ترکیبهای احتمالی سبد و اقدامات به شدت افزایش مییاید، و ترکیب داراییهای مختلف در سبد، رو به ازدیاد میگذارد که موجب پیچیدهتر شدن عملیات میشود، که در نتیجه به زمان بیشتر برای محاسبات نیاز میباشد، یا میبایست از سیستمهای کامپیوتری قویتری استفاده نمود، تا عملیات محاسبات در زمان مناسب به اتمام برسد.
در این تحقیق از آنجا که هدف بررسی عملکرد منطقی مدل میباشد، به سبدی از داراییها، مشتمل بر پول نقد و یک نوع سهام، اکتفا میشود، زیرا افزایش تعداد دارایی، تاثیری بر منطق عملیاتی مدل و عملکرد قابل انتظار در مدل ندارد، و موجب میشود که زمان اجرای عملیات افزایش پیدا کند و تحلیل و تفسیر نتایج نیز فرآیندی سخت و زمانبر و محتمل به بروز خطا بشود. آنچه اهمیت دارد، رویکردی است که مدل در شرایط مختلف محیط اتخاذ میکند و در نتیجه، اثراتی بر عملکرد سبد ایجاد میشود که در این تحقیق، با هدف سنجش عملکرد معاملات الگوریتمی که به روش یادگیری تقویتی انجام میشوند، میباشد و هدف این نیست که سبدهایی با داراییهای متنوع، موجب کندی روند اجرای تحقیق و پیاده سازی مدل بشویم. در نتیجه به حداقلهای منطقی که تغییری در نتایج ارزیابی نمیگذارند، اکتفا مینماییم.
حالت شروع، در الگوریتم به صورت پیش فرض، با خرید سهم به میزان تمام دارایی نقدی موجود در سبد تنظیم شده است، و در هر دو بازار صعودی و نزولی در ابتدای اجرای مدل، سرمایه نقدی به سهام تبدیل میشود.
در محاسبات خرید، پارامترهای قیمت سهام، کارمزد یک درصدی برای خرید، و خرید تعداد سهمی که به صورت عددی صحیح میباشند، لحاظ شده است، به این معنی که در محاسبات ریاضی، ارقامی که کمتر از ۱۰۱ درصد از قیمت خرید یک سهم در زمان معامله میباشند، به عنوان مانده حساب نقدی، که قابلیت خرید یک سهم به صورت کامل و پرداخت کارمزد یک درصدی را ندارند، در حساب باقی میماند.
چنین تصمیمی در ابتدای اجرای الگوریتم، موجب میشود که هر دو استراتژی (خرید و نگهداری، یادگیری تقویتی) در اولین قدم، شروعی مشترک را داشته باشند و بتوان در بررسیها، اختلافها در عملکرد سبد دارایی (سهام+ پول نقد) را ناشی از اقداماتی دانست که در ادامه مسیر توسط استراتژی یادگیری تقویتی اجرا شده است. چنین تصمیمی برای شروع، موجب میشود که مقایسات تا حد زیادی به یک مقایسه واقعی و شرایط منطقی نزدیکتر شده و از خطاهای انسانی در شروع معاملات در مدل مورد بررسی فاصله بگیریم.
3-7 ماتریس حالت-عمل
دو رکن سازنده ماتریس حالت-عمل که از آن به جدول کیو31 نیز یاد میشود، عبارتند از:
· حالت، ردیف را در ماتریس تعیین میکند (بازار صعود، بازار نزولی)
· عمل، ستونهای ماتریس را تعیین میکند (پنج سیگنال معاملاتی خرید قوی، خرید ضعیف، نگهداری، فروش قوی، فورش ضعیف)
3-7-1 حالتها
حالت های مطرح برای بازار سهام، سه حالت میباشد که از میان این حالت ها که صعودی، نزولی و خنثی میباشند (در مدل تحقیق حاضر، حالت خنثی حذف شده است)
3-7-2 اقدامات
سیستم خودمعاملهگر، یا الگوریتم معاملاتی، جهت انجام هر معامله، نیازمند تصمیمگیری، و سپس ایجاد سیگنال مربوطه و در ادامه اجرای آن اقدام یا سیگنال میباشد.تعداد تصمیم های مجاز در این مدل، به پنج تصمیم یا سیگنال به شرح زیر محدود شده است.
جدول 3-معرفی سیگنال های معاملاتی32
سیگنال | رقم سیگنال | توضیحات |
خرید (قوی) | ۱ | خرید با استفاده از ۱۰۰ درصد نقدینگی موجود |
خرید (ضعیف) | ۰.۵ | خرید با استفاده از ۵۰ درصد نقدینگی موجود |
فروش (قوی) | ۱- | فروش ۱۰۰ درصد سهام موجود در سبد |
فروش (ضعیف) | ۰.۵- | فروش ۵۰ درصد سهام موجود در سبد |
نگهداری | ۰ | هیچ معامله خرید یا فروشی انجام نمیشود |
با توجه به پنج سیگنال مورد توجه در این تحقیق و استفاده از دو حالت بازار صعودی و بازار نزولی، میتوان ماتریس کیو یا ماتریس حالت عمل را به صورت زیر طراحی نمود.
جدول 4- معرفی ماتریس اولیه حالت-عمل (کیو)
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | ۰ | ۰ | ۰ | ۰ | ۰ |
نزولی | ۰ | ۰ | ۰ | ۰ | ۰ |
خنثی | ۰ | ۰ | ۰ | ۰ | ۰ |
ماتریس حالت-عمل ارائه شده در بالا، دارای سه حالت میباشد، که در حالت در سطرهای ماتریس قرار گرفته است، که طبق آنچه توضیح دادهایم، حالت خنثی را حذف میکنیم و به یک ماتریس دو در پنج به صورت زیر میرسیم که همان ماتریسی است که در محاسبات مورد استفاده قرار گرفته است و در خصوص دلایل حذف حالت خنثی، در بخش قبلی، توضیح کامل ارائه شده است.
3-8 تفسیر کلی ارقام ماتریس حالت-عمل
جدول 5- تفسیر کلی ماتریس حالت-عمل
رقم | تفسیر |
صفر | معنای رقم ۰، عدم وقوع معامله در این حالت-عمل خاص، تا این زمان است. و این به معنای این است که عامل در خصوص چنین ترکیبی از حالت-عمل، هیچ تجربهای کسب نکرده است و شرایط کاملا جدید میباشد. |
مثبت | ارقام مثبت به معنای این است که عامل در این شرایط تصمیمات قبلی را که اخذ نموده است، منتهی به پاداش بوده است و عملکرد رضایت بخش بوده است. |
منفی | ارقام منفی، مبین این است که اقدامات قبلی عامل در چنین ترکیبی از حالت-عمل، منجر به پاداش منفی(جریمه) شده است و عامل نمی بایست، چنین عملی را اجرا کند، مگر اینکه اقدام جدید بتواند تغییر در جهت مثبت را در رقم فعلی موجب شود. |
با خواندن رقم موجود در ماتریس کیو، سه احتمال اصلی در خصوص رقم موجود در این خانه از ماتریس وجود دارد، که در جدول بالا معرفی شده است.
- خودمعاملهگر، رقم اولیه را می خواند و به حافظه منتقل میکند،
- معامله جدید را طبق همان تصمیم گرفته شده محاسبه میکند، و پاداش جدید را بدست میآورد.
- محاسبات ماتریس حالت-عمل را از طریق معادله بلمن انجام میدهد، و مقدار جدید را برای ماتریس حالت-عمل در محل مربوطه در ماتریس جایگزین مینماید.
- نتیجه یادگیری تقویتی، و محاسبات معادله بلمن، ایجاد یک ماتریس حالت-عمل مناسب و کارا میباشد که عامل میتواند بر اساس پاداشهای گذشته، از آن برای تصمیمگیریها در خصوص عملی که باید در حالت خاصی انجام بدهد، از مقادیر آن استفاده و تصمیمگیری نماید.
اگر الگوریتم یادگیری کیو را بهروزرسانی اعداد موجود در یک ارائه دو بعدی (شامل: فضای اقدام×فضای وضعیت) درنظر بگیرید، متوجه شباهت آن با برنامهنویسی پویا خواهید شد. این موضوع برای ما روشن میسازد که وقتی عامل تصمیمگیرنده در الگوریتم یادگیری کیو با وضعیتی کاملاً جدید روبهرو شود، هیچ راهی برای شناسایی و انتخاب اقدام مناسب نخواهد داشت. به عبارت دیگر، عامل تصمیمگیرنده الگوریتم یادگیری کیو توانایی تخمین ارزش وضعیتهای ناشناخته را ندارد.
برای حل این مشکل، شبکه DQN ارائه دو بعدی را حذف و شبکه عصبی را جایگزین آن میکند.
شبکه DQN به کمک یک شبکه عصبی، تابع Q-value را تخمین میزند.
وضعیت فعلی به عنوان ورودی به این شبکه داده میشود،
سپس مقدار Q-value متناظر با هر اقدام به عنوان خروجی از شبکه دریافت خواهد شد. (هوشیو، ۱۴۰۰)
لذا، در روش کیو عمیق که به آن شبکه کیو نیز گفته میشود، ماتریس کیو حذف و بجای آن خروجیهای یک شبکه عصبی مصنوعی جایگزین میشود. همانطور که در معادله مربوط به دو الگوریتم ملاحظه میشود، تنها تفاوت در بخش محاسبه وضعیت ناشی از سیاست در معادله میباشد. اقدام، اقدامی است که در وضعیت بعدی یعنی تحت سیاست فعلی انجام خواهد گرفت.
در این رابطه، متغییر نرخ یادگیریα ، تعیین میکند که تا چه میزان اطلاعات به دست آمده جدید بر اطلاعات قدیمی ترجیح داده شود. مقدار صفر باعث میشود که عامل چیزی یاد نگیرد و مقدار یک باعث میشود که عامل فقط اطلاعات جدید را ملاک قرار دهد. همچنین متغیر نرخ تنزیل γ ، اهمیت پاداشهای آینده را تعیین میکند. مقدار صفر باعث میشود که عامل ماهیت فرصتطلبانه گرفته و فقط پاداشهای فعلی را مدنظر قرار دهد. در حالیکه مقدار یک عامل را ترغیب میکند، برای یک دوره زمانی طولانی برای پاداش تقلا کند.
یادگیری کیو و کیو عمیق، دو الگوریتم محبوب و مستقل از مدل برای یادگیری تقویتی هستند. تمایز این الگوریتمها با یکدیگر در استراتژیهای جستوجوی آنها محسوب میشود در حالیکه استراتژیهای استخراج آنها مشابه است. در حالیکه یادگیری کیو، یک روش مستقل از سیاست است که در آن عامل ارزشها را براساس عمل (a) که از سیاست دیگری مشتق شده میآموزد،کیو عمیق، یک روش مبتنی بر سیاست محسوب میشود که در آن ارزشها را براساس عمل کنونی (a)که از سیاست کنونی آن مشتق شده میآموزد. پیادهسازی این دو روش آسان است اما فاقد تعمیمپذیری هستند زیرا دارای توانایی تخمین ارزشها برای حالتهای مشاهده نشده نیستند.
4. یافتههای پژوهش
در این بخش بازده روزانه هفت سهم مورد استفاده در پژوهش در بازار صعودی و نزولی بطور مجزا مورد بررسی قرار گرفته است و سه پارامتر عمده که در شناخت سهم و سبد سهام اهمیت دارند، به ترتیب واریانس، ریسک (انحراف معیار پرتفوی) و بازده سهام، در جداول 4 و 5، برای هر کدام از هفت سهم و شاخص کل بازار سرمایه محاسبه شده است. تحلیل دادههای بازار سرمایه روزانه که در این بخش انجام شده است، درک عمیق از وضعیت بازار و بازدهی استراتژیهای خرید و نگهداری و معاملات الگوریتمی به روش یادگیری تقویتی و رویکرد کیو، را مقدور میکند.
4-1 بررسی بازده روزانه سهام دربازار صعودی
در این بخش، هر هفت سهم و شاخص کل بازار سرمایه در ۴۰ دوره منتهی به تاریخ ۱۰/۰۳/۱۳۹۹، مورد بررسی و تحلیل قرار گرفته است. چنانچه نمودار 4 نشان میدهد گرچه دوره انتخاب شده، یک دوره صعودی می باشد اما در بازارهای صعودی نیز تلاطم در تغییرات بازده به خوبی قابل ملاحظه است.
جدول 6- داده های سهام مورد بررسی در ۴۰ دوره منتهی به ۱۰/۰۳/۱۳۹۹
| نام شرکت | نماد | واریانس | ریسک | بازده |
---|---|---|---|---|---|
۱ | نفت سپاهان | شسپا | 0.001253 | 0.035400 | 0.016235 |
۲ | همكاران سيستم | سيستم | 0.000849 | 0.029133 | 0.005728 |
۳ | مخابرات ايران | اخابر | 0.000650 | 0.025488 | 0.018459 |
۴ | كيميدارو | دكيمي | 0.000810 | 0.028463 | 0.007749 |
۵ | سيمان شرق | سشرق | 0.002186 | 0.046758 | 0.014237 |
۶ | شاخص کل | - | 0.000468 | 0.021639 | 0.014706 |
7 | فولاد اصفهان | فولاد | 0.001253 | 0.055400 | 0.018235 |
8 | پالایش نفت تهران | شتران | 0.000849 | 0.049133 | 0.006728 |
(منبع: یافته های محقق)
نمودار 1: نمودار بازده روزانه سهام مورد بررسی در بازار نزولی (منبع: محقق) |
نمودار 2: نمودار بازده روزانه سهمهای مورد بررسی در بازار صعودی (منبع: محقق) |
4-2. بررسی بازده روزانه سهام در بازار نزولی
در بخش قبلی، تحلیل بهینهسازی پرتفوی سهام، دوره انتخابی، یک دوره با روند صعودی یا به عبارتی یک بازار صعودی بوده است. به جهت بررسی کارایی استراتژی های معاملاتی مورد بررسی، در این بخش دورهای انتخاب شده است که بازار نزولی باشد. در این بخش، هر هفت سهم و شاخص کل بازار سرمایه در ۴۰ دوره منتهی به تاریخ ۰۲/۱۲/۱۴۰۰، مورد بررسی و تحلیل قرار گرفته است.
جدول 7- داده های سهام مورد بررسی در ۴۰ دوره منتهی به ۰۲/۱۲/۱۴۰۰
| نام شرکت | نماد | واریانس | ریسک | بازده |
۱ | نفت سپاهان | شسپا | 0.000422 | 0.020553 | 0.004730- |
2 | همكاران سيستم | سيستم | 0.000295 | 0.017168 | 0.000298 |
۳ | مخابرات ايران | اخابر | 0.000490 | 0.022141 | 0.001315- |
۴ | كيميدارو | دكيمي | 0.000580 | 0.024083 | 0.004939- |
۵ | سيمان شرق | سشرق | 0.000415 | 0.020380 | 0.000852 |
۶ | شاخص کل | - | 0.000111 | 0.010529 | 0.001864- |
7 | فولاد اصفهان | فولاد | 0.001253 | 0.055400 | 0.018235 |
8 | پالایش نفت تهران | شتران | 0.000849 | 0.049133 | 0.006728 |
(منبع: یافته ها محقق)
4-3 بررسی عملکرد استراتژی یادگیری تقویتی در مقایسه با خرید و نگهداری
4-3-1 بررسی عملکرد سهام دربازار صعودی
در این بخش عملکرد هفت سهم مورد مطالعه در پژوهش در بازار صعودی، بر اساس استراتژی های خرید و نگهداری و یادگیری تقویتی، مورد برسی قرار گرفته است، که نتایج این بررسیها و همچنین عملکرد شاخص کل برای هر کدام از سهمهای مورد بررسی در نموداری مجزا ارائه شده است. بر اساس نمودارهای شماره (3) الی (7)، همانطور که ملاحظه میشود، روش یادگیری تقویتی، توانسته است، در بیشتر موارد ارزش خود را در محدوده بدون زیان و حتی سودآوری حفظ نماید و عملکردی بهتر از استراتژی خرید و نگهداری ایجاد کند. در نمودارها به خوبی مشخص است که حتی در بازارهای صعودی نیز نوسانات قیمت موجب می شوند که نرخ رشد تغیرات قیمت موجب ایجاد رقم منفی در روند رشد شود که روش یادگیری تقویتی با استفاده از سیستم سیگنالدهی توانسته است در کاهش این وضعیت موفقیت نسبی بدست آورد و این به معنی بهبود در سودآوری سبد میباشد.
نمودار 3: مقایسه عملکرد سهام همکاران سیستم در بازار صعودی(منبع: محقق) |
نمودار4: مقایسه عملکرد سهام نفت سپاهان در بازار صعودی(منبع: محقق) |
نمودار 5: مقایسه عملکرد سهام کیمیدارو در بازار صعودی(منبع: محقق) |
نمودار 6: مقایسه عملکرد مخابرات ایران در بازار صعودی(منبع: محقق) |
نمودار 7: مقایسه عملکرد سهام سیمان شرق در بازار صعودی(منبع: محقق) |
4-3-2 بررسی عملکرد سهام در بازار نزولی
نمودار 8: مقایسه عملکرد سهام همکاران سیستم در بازار نزولی(منبع: محقق) |
نمودار 9: مقایسه عملکرد سهام نفت سپاهان در بازار نزولی(منبع: محقق) |
نمودار 10: مقایسه عملکرد سهام کیمیدارو در بازار نزولی(منبع: محقق) |
نمودار 11: مقایسه عملکرد سهام مخابرات ایران در بازار نزولی(منبع: محقق) |
نمودار 12: مقایسه عملکرد سهام سیمان شرق در بازار نزولی(منبع: محقق) |
4-4 ماتریس حالت-عمل
در این بخش، ارقام محاسبه شده برای هر یک از سهام مورد بررسی (بر اساس قیمت روزانه هر سهم و سپس تشکیل سبد سهام) در قالب ماتریسهای حال-عمل (ماتریس کیو)، برای دو حالت بازار صعودی و نزولی و پنج عمل ممکن در هر حالت ارائه شده است. نتایج ارائه شده در ماتریسهای حالت-عمل در این بخش، با استفاده از معادلات روش کیو عمیق محاسبه شده است.
جدول 8- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت نفت سپاهان
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.037039048 | 0.07961421 | 0.043856423 | 0.052432163 | 0.00000000 |
نزولی | 0.031500414 | 0.00800326 | 0.02939786 | 0.015571114 | 0.0145502 |
(منبع: محقق)
جدول 9- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت همكاران سيستم
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.03070438 | 0.01471255 | 0.01004285 | 0.02184387 | 0.01568517 |
نزولی | 0.00308414 | 0.00309944 | 0.00429155 | 0.01021470 | 0.00337369 |
(منبع: محقق)
جدول 10- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت مخابرات ايران
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.04350009 | 0.03481918 | 0.02935861 | 0.0000000 | 0.0000000 |
نزولی | 0.01746965 | 0.01177039 | 0.01019984 | 0.01920027 | 0.00233964 |
(منبع: محقق)
جدول 11- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت كيميدارو
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.04353421 | 0.06212590 | 0.03690658 | 0.03472717 | 0.05362432 |
نزولی | 0.00603606 | 0.00369024- | 0.01076944 | 0.04369863 | 0.00536735 |
(منبع: محقق)
جدول 12- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت سيمان شرق
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.01549946 | 0.06351714 | 0.01890673 | 0.04436391 | 0.000000 |
نزولی | 0.03778375 | 0.01152690 | 0.00378658 | 0.02033391 | 0.01239836 |
(منبع: محقق)
جدول 13- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت پالایش نفت تهران
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.03930924 | 0.02741702 | 0.02080312 | 0.00000 | 0.00000 |
نزولی | 0.01935837 | 0.00132839 | 0.02261533 | 0.00887168 | 0.00735067 |
(منبع: محقق)
جدول 14- ماتریس حالت-عمل کیو (الگوریتم کیو عمیق) – شرکت فولاد اصفهان
عمل حالت | خرید - قوی | خرید - ضعیف | فروش-ضعیف | فروش- قوی | نگهداری |
صعودی | 0.50982604 | 0.50872638 | 0.50782243 | 0.50000000 | 0.50000000 |
نزولی | 0.50605790 | 0.50153919 | 0.50153919 | 0.50299462 | 0.50279828 |
(منبع: محقق)
در خصوص سهام شرکت نفت سپاهان، همانطور که در جدول (8) قابل ملاحظه است، در روش کیو عمیق، در بازارهای صعودی، بزرگترین پاداش کسب شده، از عمل خرید-ضعیف میباشد که رقم ۰.۰۷۹ میباشد. و اقدام فروش-قوی در رتبه دوم میباشد. در حالی که نگهداری، منجر به هیچ پاداشی نبوده است و با بررسی جزئیات سیستم سیگنالدهی مشخص میشود که هیچ سیگنالی برای نگهداری، در بازارهای صعودی ایجاد نشده است.
در حالت بازار نزولی، خرید-قوی، بالاترین پاداش را در میان سایر اقدامات به خود اختصاص داده است، و فروش-ضعیف با اختلاف بسیار اندکی در رتبه دوم قرار میگیرد.
در بازار نزولی، در خصوص سهام شرکت نفت سپاهان، ضعیفترین سیگنال و عمکلرد مربوط به خرید-ضعیف میباشد.
مفهوم این ارقام در روش یادگیری تقویتی، این است که سهم مورد نظر در طول دوره مورد بررسی، در حالت بازار نزولی، توانسته است با اقدام خرید-قوی، پاداشهای بیشتری کسب کند. البته در بازار نزولی، سودآوری در معاملات به دلیل نزولی بودن قیمت ها، چالش برانگیز است، ولی به دلیل وجود نوسانات در بازار، در بازار نزولی نیز امکان سودآوری وجود دارد و در بازار سرمایه های مختلف جهان، سرمایه گذاران در بازارهای نزولی نیز امکان سودآوری را دارند.
در حالت بازار نزولی، در مورد سهم شرکت نفت سپاهان، اقدام نگهداری نیز دارای پاداش محاسبه شده میباشد، که به معنای این است که اقدام به نگهداری سهام و عدم خرید سهام، در برخی از موارد، توانسته است منجر به پاداش شود.
لذا، خودمعاملهگر میآموزد که در بازارهای صعودی، برای این سهم بخصوص خرید-ضعیف، مناسبترین اقدام میباشد، و نگهداری نیز، منجر به پاداش نخواهد بود، و البته موجب جریمه نیز نبوده است.
در تحلیل حالت بازار صعودی، در بین هفت سهم مورد بررسی، سیگنال نگهداری، در اکثر موارد، هیچ پاداشی به ارمغان نیاورده است که به معنای این است که طبق سیاست های انتخابی، در بازارهای صعودی، نگهداری سهم در روش یادگیری تقویتی و با تنظیمات اعمال شده بر روی خودمعاملهگر، عامل موفق به کسب سود نبوده است، و زیانی نیز به وقوع نپوسته است. از آنجا که استراتژی معاملاتی در روش یادگیری تقویتی، بهره بردن از فرصتهای معاملاتی خرید و فروش میباشد، لذا، سیستم خودمعاملهگر با بهره بردن از سیگنالهای ایجاد شده، با به وجود آمدن فرصت معاملاتی، نسبت به معامله سهم اقدام میکند و به هیچ عنوان هدف این نیست که بر خرید و نگهداری در بازارهای صعودی تأکید بشود، و یا در بازارهای نزولی، فقط به فروش سهم توجه بشود و از فرصتهای معاملاتی خرید غفلت بشود.
لذا، با هدف انجام معاملات بیشتر در اولین فرصت فراهم شده، در واقع از سیاست خرید و نگهداری تا حد امکان دور میشویم، در حالی که در مواردی که شرایط بازار ایجاب کند، سیگنال معاملاتی نگهداری، ایجاد خواهد شد و این اتفاق در مواردی واقع شده است که سیستم سیگنالدهی، اقدام را نگهداری تشخیص داده است، که جزئیات معاملاتی هر سهم در محاسبات کدنویسی شده در اکسل و نیز خروجی ماتریس سیگنال معاملاتی قابل ملاحظه میباشد.
همانطور که انتظار میرود، هر کدام از سهمهای مورد بررسی ارقام خاص خود را در ماتریسها، به نمایش گذاشتهاند، و تفسیر این ارقام نیز برای هر سهم تا حدی مخصوص به خود آن سهم میباشد، و دلیل وجود این تفاوتها، با وجود این نکته که تا حد امکان شرایط معاملاتی برای همه هفت سهم مورد بررسی یکسان سازی شده است، نتایج محاسبات ماتریس کیو، متفاوت هستند، به رفتار متفاوت هر سهم در بازار سرمایه باز می گردد. در واقع خودمعاملهگر با استفاده از روش یادگیری تقویتی می آموزد که بهترین اقدام در یک حالت بازار مشخص صعودی و یا نزولی چیست و می تواند از این تجربه در انجام معاملات آتی بهره برداری کند.
نکته بسیار مهم، توجه به تابع مطلوبت معاملات میباشد، و در صورتی که مطلوبیت هر معامله در حد قابل قبولی باشد، نسبت به انجام آن اقدام خواهد شد و سیستم ایجاد سیگنال های معاملاتی در واقع بخش اصلی از مطلوبیت معاملات خرید و فروش را ارزیابی میکند. همانطور که ملاحظه میشود، مباحث و تفسیرهای فراوانی را میتوان در خصوص هر سهم و رفتار این سهم در بازار مورد بررسی قرار داد، و ارقام ماتریس کیو، حاصل تجربه عامل در محیطی است که عامل معاملات را تجربه کرده است.
ارقام ماتریس کیو، را میتوان به مانند تفسیر عملکرد معاملاتی خودمعاملهگر در حالت های بازار برای یک سهم مشخص در قالب ارقام استاندارد شده و قابل درک برای عامل انسانی و عامل غیرانسانی که همان الگوریتمهای کامپیوتری میباشند دانست. این ماتریس از پیچیدگی های درک عملکرد معاملاتی میکاهد و در قالب ارقامی معنادار، این عملکرد را تشریح و قابل درک میکند. به هر میزان که طول دوره بررسی عملکرد طولانیتر بشود، ارقام محاسبه شده، قابلیت اتکای بالاتری پیدا میکنند و از کیفیت بهتری در جهت درک رفتار سهم مشخص در حالت بازار ارائه میدهند.
5. نتیجهگیری و پیشنهادها
در پژوهش حاضر، برای رسیدن به بینشی عمیقتر از بازار بورس و عملکرد آن، دادههای روزانه هفت شرکت بورسی با استفاده از روش یادگیری کیو عمیق طی دوره زمانی ۱۳۹۶ - ۱۴۰۰ بررسی شد. جهت بررسی دو استراتژی یادگیری تقویتی و استراتژی خرید و نگهداری، از میان سه حالت بازار که صعودی، نزولی، و خنثی میباشد، دو حالت اصلی (بازارهای صعودی و نزولی)، مورد توجه قرار گرفتهاند. چرا که روند بازار در این دو حالت امکان بررسی و مقایسه بهتری در بین دو استراتژی معاملاتی خرید و نگهداری را با روش معاملات الگوریتمی میدهد.
نتایج بررسیها، به خوبی برتری معاملات الگوریتمی را در هر دو بازار صعودی و نزولی به اثبات رسانیده است. نتایج کسب شده در بازارهای نزولی که روش معاملاتی خرید و نگهداری، منجر به زیان می شود، موفق به سود آوری مناسبی بوده است. مقایسه نتایج این دو رویکرد روشن میکند که کاربرد یادگیری تقویتی برای سرمایهگذارهایی که توان ریسکپذیری بالای رهیافت خرید و نگهداری را ندارند، مناسبتر است.
در نهایت، پس از اتمام یادگیری، ماتریس کیو ایجاد شده، میتواند در انتخاب عمل مورد نظر در هر کدام از حالتهای بازار، با در نظر داشتن این نکته که سهم مورد نظر با توجه به کارمزدهای معاملاتی خریدنی و یا فروختنی محسوب میشود، میتوان پس از ایجاد سیگنال معاملاتی، به بررسی عملکرد متناظر با آن سیگنال در ماتریس حالت-عمل، اقدام نمود و با ملاحظه رقم محاسبه شده برای این اقدام، در صورتی که رقم محاسبه شده مثبت میباشد، نسبت به اجرای آن سیگنال، اقدام نمود. ماتریس کیو، منعکس کننده دستاوردهای عامل (خودمعاملهگر) از انجام یک عمل در حالت مشخصی از بازار است، لذا، ارقام ایجاد شده در ماتریس کیو میتواند در اطمینان بخشی از آن اقدام در آن حالت بازار، کاربرد داشته باشد.
کاربرد دیگری که از ماتریس کیو و یادگیری تقویتی میتوان به عمل آورد، این است که با توجه به ارقام ماتریس کیو، در مواردی که ارقام منفی و یا نزدیک به صفر می باشد، می توان با بررسی در سوابق معاملاتی، وضعیت را تحلیل نمود و ایرادات احتمالی در سیستم معاملاتی را تشخیص و با برطرف نمودن آن، نسبت به آموزش خودمعاملهگر اقدام نمود و پس از طی مرحله آموزشی، از ارقام ماتریس کیو جهت تأیید سیگنال ایجاد شده توسط سیستم سیگنالدهی، استفاده نمود.
از طرفی نتایج یادگیری تقویتی از طریق الگوریتم یادگیری کیو عمیق برای عامل خودمعاملهگر، در دو حالت بازار صعودی و نزولی مشخص کرد که عامل از تجربیات قبلی خود می آموزد که سهامی را که تحت اجرا دارد، در روند بازاری که تحت آموزش به روش یادگیری تقویتی به روش کی، چه پاداشهایی برای عامل و عملی که در آن محیط انجام میدهد، به ارمغان میآورد. به عبارتی، نتایج اطلاعاتی خوبی را در خصوص رفتار یک سهم بخصوص در یک حالت مشخصبه عامل ارائه میکند و چنین جدولی که یک ماتریس حالت-عمل میباشد، به عامل در انتخاب بهترین عمل ممکن کمک مینماید و نتیجه استفاده از روش یادگیری تقویتی، با استفاده از ضرایب مناسب، این است که عامل از محیط (بازار) میآموزد، و پس از اینکه، دوره آموزش مناسبی را در خصوص یک سهم مشخص و حالت های بازار، طی دوره زمانی به طول مناسب طی شود، میتوان، به آموزش و تجربه ای که عامل از حالت-عمل کسب کرده است، تا حد زیادی اعتماد نمود و در تصمیمگیری در معاملات از این قابلت یادگیری تقویتی بهره مناسبی برد و سودآوری را افزایش داد. در نتیجه، میتوان با توجه به بررسیها و تفسیرهای انجام شده، یادگیری تقویتی را روشی مؤثر و مبتنی بر یادگیری عامل از محیط دانست که در بهینهسازی پرتفوی و افزایش سودآوری از معاملات مؤثر میباشد. لذا با توجه به ماهیت بازار سرمایه که ادامه روند گذشته به صورتی پویا میباشد، معاملات الگوریتمی به روش یادگیری تقویتی میتواند با انتخاب بهترین عمل با استناد به پاداش- جریمه حاصل از هر اقدام، نسبت به سایر اقدامات، موجب بهینه شدن پرتفوی بشود.
به واسطه تنوع در شرکتهای بورس اوراق بهادار تهران، یکی از عمدهترین محدودیتها و چالشهای تحقیق حاضر، بررسی و انتخاب شرکتهایی بوده است که در دستیابی به نتایج قابل قبول پس از بررسیها، ایجاد تردید ننمایند، به عبارتی، در چنین تحقیقاتی، یکی از محدودیتهای عمده، انتخاب نمونههای مناسب میباشد. به عبارتی در بررسی تعداد محدودی از شرکتهای حاضر در بازار سرمایه، در گام اول، توجه به تنوع این شرکتها در جهت دستیابی به نتایج قابل اعتنا از بررسی اهمیت فراوانی دارد.
منابع
امیری، میثم، ابراهیمی سروعلیا، محمدحسن و هاشمی، هما. (1399). بررسی عملکرد الگوریتم GRASP درانتخاب پرتفوی بهینه ( با لحاظ محدودیت کاردینالیتی. اقتصاد مالی، 14(51)، 147-172.
رستگار، محمدعلي، دستپاك، محسن (1397). ارائه مدل معاملاتي با فراواني زياد همراه با مـديريت پويـاي سـبد سـهام بـه روش يادگيري تقويتي در بورس اوراق بهادار تهران. فصلنامه تحقيقات مالي، 20(۱): 16 -۱.
فلاحپور، سعيد، حکيميان، حسن (۱۳۹۸). بهينهسازي استراتژي معاملات زوجي با استفاده از روش يادگيري تقويتي، با بهکارگيري ديتاهاي درونروزي در بورس اوراق بهادار تهران، فصلنامه تحقیقات مالی، 21 (1): ۳۴-۱۹.
گلارضی، غلامحسین، انصاری، حمیدرضا (1401). مقایسه عملکرد الگوریتمهای تکاملی NSGAII و SPEA2 در انتخاب پرتفولیوی بهینه در بورس اوراق بهادار تهران. فصلنامه تحقیقات مالی، 24 (3): 410-430.
میزبان، هدیه سادات، افچنگی، زهرا، احراری، مهدی،آروین، فرشاد و سوری، علی (1391). بهینهسازی سبد سهام با استفاده از الگوریتم ازدحام ذرات در تعاریف مختلف اندازه گیری ریسک. اقتصاد مالی، 6(19)، 205-227.
Agarwal, A. , Hazan, E. , Kale, S. , & Schapire, R. E. (2006). Algorithms for portfolio management based on the newton method. In Proceedings of the 23rd international conference on machine learning (pp. 9–16). ACM .
Amiri, R., Mehrpouyan, H., Fridman, L., Mallik, R. K., Nallanathan, A., & Matolak, D. (2018). A Machine Learning Approach for Power Allocation in HetNets Considering QoS. In 2018 IEEE International Conference on Communications (ICC). 2018 IEEE International Conference on Communications (ICC 2018). IEEE. https://doi.org/10.1109/icc.2018.8422864
Ha, Y., & Zhang, H. (2020). Algorithmic trading for online portfolio selection under limited market liquidity. In European Journal of Operational Research (Vol. 286, Issue 3, pp. 1033–1051). Elsevier BV. https://doi.org/10.1016/j.ejor.2020.03.050
Markowitz H.M. (1952). Portfolio Selection. Journal of Finance, 7 (1): 77-91.
Mohammed, M. A., Lakhan, A., Abdulkareem, K. H., & Garcia-Zapirain, B. (2023). A hybrid cancer prediction based on multi-omics data and reinforcement learning state action reward state action (DEEP Q). In Computers in Biology and Medicine (Vol. 154, p. 106617). Elsevier BV. https://doi.org/10.1016/j.compbiomed.2023.106617
Park, H., Sim, M. K., & Choi, D. G. (2020). An intelligent financial portfolio trading strategy using deep Q-learning. Expert Systems with Applications, 158.
Reeves, M., Moose, S., & Venema, T. (2014). The growth share matrix. BCG–The Boston Consulting Group.
Skabar, A., & Cloete, I. (2002). Neural networks, financial trading and the efficient markets hypothesis. In ACSC: 241-249
Soleymani, F., & Paquet, E. (2020). Financial portfolio optimization with online deep reinforcement learning and restricted stacked autoencoder—DeepBreath. In Expert Systems with Applications (Vol. 156, p. 113456). Elsevier BV. https://doi.org/10.1016/j.eswa.2020.113456
Treleaven, P., Galas, M. & Lalchand, V. (2013). Algorithmic trading review. Communications of the ACM, 56(11): 76-85.
Zhang, Z., Zohren, S., & Roberts, S. (2020). Deep reinforcement learning for trading. The Journal of Financial Data Science, 2(2): 25-40.
Stock portfolio optimization using Deep Q Reinforcement Learning strategy based on State-Action matrix
Abstract
The purpose of this paper is to optimize the portfolio consisting of stocks using DEEP Q's reinforcement learning strategy based on the state-action matrix. For this purpose, in order to optimize and make profitable the portfolio consisting of stocks, the performance of the reinforcement learning strategy based on the DEEP Q algorithm and the passive strategy of Buying and Holding in two states of Bullish and Bearish markets during the time period of 2017-2021 were investigated. The statistical population was 672 companies admitted to the Tehran Stock Exchange, of which 7 companies (statistical sample) were considered suitable. The comparison of two strategies shows that the Reinforcement Learning strategy, in the Bullish and Bearish markets, compared to the trading method of buying and holding, which has led to losses, has a high potential for profitability in the Iranian stock market. Based on the results, it is suggested that brokers and stock exchange companies and analysts use the Reinforcement Learning strategy for profitability and stock portfolio optimization. Also, the comparison of the results of these two approaches makes it clear that the application of Reinforcement Learning is more suitable for investors who do not have the high risk-taking ability of the Buy-and-Hold approach.
keywords: Portfolio Optimization, Algorithmic Trading, Reinforcement Learning, DEEP Q Algorithm, Tehran Stock Exchange
JEL: G11, G17, P45
[1] Portfolio
[2] Soleymani
[3] Markowitz
[4] وی به بسط نظریه پورتفولیوی مدرن (Modern Portfolio Theory (MPT مبادرت ورزید. نظریه وی با عنوان نظریه انتخاب پورتفولیو (Theory of Portfolio Choice) مشهور شده است.
[5] The Equity Curve
[6] Zhang, Zohren & Roberts
[7] Reeves, Moose & Venema
[8] Ha
[9] Agarwal
[10] Reinforcement Learning
[11] Algorithm Trading
[12] Q-Learning
[13] Mohammed
[14] Sharpe Ratio
[15] Treleaven
[16] Reinforcement Learning
[17] Amiri
[18] On-policy
[19] Off-policy
[20] Q-learning
[21] Online
[22] Skabar & Cloete
[23] Park, Sim & Choi
[24] Zhang
[25] معاملات درونروزی (Intraday Trading) که بهعنوان معاملات روزانه نیز شناخته میشود به خرید و فروش سهام در همان روز اشاره دارد. بازار سهام در معرض نوساناتی است که به تغییر قیمت سهام در طول روز منجر میشود.
[26] GRASP
[27] CCPO
[28] هدف از انتخاب هفت شرکت در صنایع مختلف، تعمیمپذیر نمودن نتایج تحقیق به صورت عمومی جهت کاربرد رویکرد یادگیری تقویتی در بهینه نمودن پرتفوی سهام میباشد در حالیکه حجم محاسبات نیز میبایست قابلیت اجرایی داشته باشند، لذا با توجه به ملاحظات اجرایی و محدودیتهای اجرای تحقیق، و همچنین خوانایی بیشتر جداول و نمودارها، تعداد هفت شرکت بازار سرمایه در پنج گروه صنعتی انتخاب شدهاند. در خصوص انتخاب صنایع نیز با هدف تنوعدهی به صنایع انتخابی تلاش بر انتخاب صنایعی است که متمایز بوده و در نهایت صنایعی که انتخاب میشوند، طبق نظریه پرتفوی مدرن کمترین همبستگی را با هم داشته باشند و در نتیجه عملکرد کلی صنایع انتخابی قابل تعمیمدهی به سایر صنایع بازار سرمایه متشابه نیز باشد. انتخاب تعداد صنایع با توجه به ملاحظات اجرایی و محدودیتهای اجرای تحقیق، پس از بررسی اثرات افزایش و کاهش تعداد صنایع بر نتایج تحقیق، توسط محقق تصمیمگیری شده است.
[29] http://irbours.com
[30] Bellman Equation
[31] Q-table
[32] در خصوص سیگنالهای قابل ایجاد، میبایست این نکته را یادآوری نمود که در مدل فعلی، به جهت ساده سازی مدل و تمرکز بر اجرای مدل و تحلیل نتایج، از پیچیده نمودن مدل و ایجاد سیگنالهای میانی که منجر به پیچیده شدن ساختاری مدل به واسطه افزایش تعداد گزینههای محتمل در تصمیمگیری و معامله و در نتیجه کاهش دقت در بررسیها و افزایش زمان ایجاد و اجرای مدل میشود خودداری شده است.