طراحی یک سیستم معاملاتی الگوریتمیک بر پایه یادگیری تقویتی عمیق مورد مطالعاتی: بورس اوراق بهادار تهران
محورهای موضوعی : دانش مالی تحلیل اوراق بهادارسعید کاظمیان حسینآبادی 1 , سید محمد رضا داودی 2 , محمد مشهدی زاده 3 , پارسا جوزی 4
1 - کارشناسی ارشد مدیریت مالی، واحد دهاقان،دانشگاه آزاد اسلامی، دهاقان، ایران
2 - استادیار، گروه مدیریت، واحد دهاقان، دانشگاه آزاد اسلامی، دهاقان، ایران(نویسنده مسئول)
3 - استادیار،گروه مدیریت ، واحد مبارکه ،دانشگاه ازاد اسلامی ، مبارکه ،ایران
4 - کارشناسی ارشد مدیریت مالی، واحد دهاقان، دانشگاه آزاد اسلامی، دهاقان،ایران
کلید واژه: شبکههای عصبی, یادگیری تقویتی, یادگیری تقویتی عمیق, نوسانگر تکنیکی,
چکیده مقاله :
امروزه معاملات الگوریتمی استفاده گستردهای در مدیریت معاملات دارد. سبد گردانی الگوریتمی نوع جدیدی از این سامانههاست که از طریق آن سبد گردان با استفاده از ابزارهای الگوریتمی به بالا بردن کیفیت سود و کاهش ریسکهای سبد خود کمک میکند. هدف از پژوهش حاضر طراحی سیستم معاملاتی الگوریتمیک بر پایه یادگیری تقویتی عمیق به کمک شبکه عصبی است. در این رویکرد عامل یا معاملهگر در فضای جستجو برای یافتن پاداش بیشتر که همان بازده بیشتر میباشد، به جستجو میپردازد. عامل معاملهگر با سیگنالهای تکنیکی شامل شاخص قدرت نسبی، نوسانگر تصادفی، نشانگر همکرایی-واگرایی و قیمتهای کمینه، بیشینه، بسته شدن و باز شدن مواجه میشود. یادگیری تقویتی عمیق جدول تابع ارزش یا کیفیت Q را با یک شبکه عصبی جایگزین میکند. شبکه عصبی مذکور درنهایت با دریافت ورودی حالت، یکی از سه عمل فروش، خرید و نگهداری را پیشنهاد میکند. این پیشنهاد بهصورت سه احتمال با مجموع یک میباشد و پیشنهاد با حداکثر احتمال مورد پیادهسازی قرار میگیرد. نتیجه پیادهسازی سیستم معاملاتی یادگیری تقویتی عمیق بر روی شاخص کل بورس اوراق بهادار تهران در بازه 1391 تا 1400 نشان میدهد که سیستم پژوهش در میانگین و شاخص همگراییی-واگرایی دارای تفاوت معناداری با سه سیستم دیگر داشت. همچنین نسبت شارپ سیستم پژوهش نسبت به سه مدل دیگر رشد حداقل 4/1 برابری را نشان داد.
Today, algorithmic trading is widely used in trading management. Algorithmic portfolio management is a new type of these system through which the portfolio manager helps to increase the quality of profit and reduce the risks of his portfolio using algorithmic tools. The purpose of this research is to design an algorithmic trading system based on deep reinforcement learning with the help of a neural network. In this approach, the agent or trader searches the search space to find more rewards, which is the same as more returns. The trader is faced with technical signals including relative strength index, stochastic oscillator, convergence-divergence indicator, and minimum, maximum, closing, and opening prices. Deep reinforcement learning replaces the Q value or quality function table with a neural network. Finally, upon receiving the state word, the mentioned neural network suggests one of the three actions of selling, buying, and holding. This proposal is in the form of three possibilities with a total of one, and the proposal with the maximum probability is implemented. The result of the implementation of the deep reinforcement learning trading system on the total index of Tehran Stock Exchange in the period of 2011 to 2014 shows that the research system was significantly different from the other three systems in the mean and convergence-divergence index. Also, the Sharpe ratio of the research system compared to the other three models showed growth of at least 1.4 times.