• فهرست مقالات یادگیری تقویتی

      • دسترسی آزاد مقاله

        1 - استخراج قواعد چند مرتبه به منظور معاملات سهام با استفاده از ساختار شبکه ای و یادگیری بازگشتی کیو
        محمدرضا علیمرادی علی حسین زاده کاشان
        معامله گران در بازار سهام به هنگام تصمیم گیری در مورد خرید یا فروش سهم علاوه بر اطلاعات روز جاری سهم، اطلاعات سهم در روزهای گذشته را نیز در نظر می گیرند. به منظور تقلید از نحوه ی تصمیم گیری معامله گران در امر سرمایه گذاری در سهام، الگوریتم قهرمانی در لیگ ورزشی مجهز به ت چکیده کامل
        معامله گران در بازار سهام به هنگام تصمیم گیری در مورد خرید یا فروش سهم علاوه بر اطلاعات روز جاری سهم، اطلاعات سهم در روزهای گذشته را نیز در نظر می گیرند. به منظور تقلید از نحوه ی تصمیم گیری معامله گران در امر سرمایه گذاری در سهام، الگوریتم قهرمانی در لیگ ورزشی مجهز به تیم هایی با ساختار شبکه ای به جهت استخراج قواعد چند مرتبه، توسعه داده شده است. قوانین چند مرتبه توسط الگوریتم استخراج می شوند که در آن هر قاعده علاوه بر اطلاعات روز جاری، حاوی اطلاعات روزهای گذشته نیز می باشد بنابراین یک حافظه به منظور ذخیره اطلاعات مفید در هر یک از قوانین ایجاد شده است. به منظور ارزیابی و بررسی عملکرد مدل ارائه شده از 20 سهم از شرکت ها در بخش های مختلف صنعتی بازار بورس تهران استفاده شده است. در شبیه سازی سرمایه گذاری، مدل ارائه شده سود بیشتر یا ضرر کمتری را نسبت به مدل خرید و نگهداری و مدل برنامه نویسی شبکه ژنتیک ایجاد کرده است. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - حل مسئله چندهدفه مکان یابی سرویس های اینترنت اشیاء در محاسبات مه با استفاده از رویکردهای یادگیری تقویتی
        مانی زارعی زهرا سعادتی
        اینترنت اشیاء داده بسیاری را تولید می کند و پردازش حجم زیادی از این اطلاعات در مراکز داده ابری صورت می گیرد. انتقال داده ها به ابر، منجر به ایجاد تاخیر بسیاری در سرویس های اینترنت اشیاء می شود. بنابراین، به جهت افزایش سرعت در ارائه سرویس ها، باید منابع تا جای ممکن چکیده کامل
        اینترنت اشیاء داده بسیاری را تولید می کند و پردازش حجم زیادی از این اطلاعات در مراکز داده ابری صورت می گیرد. انتقال داده ها به ابر، منجر به ایجاد تاخیر بسیاری در سرویس های اینترنت اشیاء می شود. بنابراین، به جهت افزایش سرعت در ارائه سرویس ها، باید منابع تا جای ممکن نزدیک به کاربران قرار داده شوند. در این مقاله، یک چارچوب محاسبات مفهومی مبتنی بر میان افزار کنترل ابر-مه به‌منظورمکان یابی بهینه سرویس های اینترنت اشیاء پیشنهاد می شود. در روش پیشنهادی با در نظر گرفتن ناهمگن بودن برنامه ها و منابع، یک مدل برنامه‌ریزی خودمختار برای مدیریت درخواست های سرویس با توجه به برخی محدودیت ها به روش تحلیلی ارائه می شود. برای حل مسئله مکان یابی سرویس های اینترنت اشیاء، یک رویکرد تکاملی خودمختار مبتنی بر رویکردهای یادگیری تقویتی با هدف استفاده حداکثر از منابع مه و بهبود کیفیت سرویس پیشنهاد می شود. لذا از الگوریتم رویکرد یادگیری تقویتی جدید با هدف حداکثرسازی پاداش تجمعی بلندمدت استفاده شده است. مطالعات تجربی بر روی یک محیط مصنوعی شبیه سازی شده بر اساس فاکتورهای ارزیابی مختلف شامل استفاده از مه، هزینه سرویس، زمان پاسخ و تاخیر سرویس انجام شده است. به طور میانگین، نتایج روش پیشنهادی نسبت به روش های FSP-ODMA، SPP-GWO، CSA-FSPP و GA-FSP به ترتیب 4.6%، 2.4%، 3.4% و 1.1% برتری را نشان می دهد. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - افزایش سرعت همگرایی الگوریتم کلونی زنبور عسل به کمک یادگیری تقویتی
        آزاده جوادی گلاره ویسی
        الگوریتم کلونی زنبور عسل مصنوعی (ABC) در بسیاری از مسائل بهینه سازی پیچیده نتایج مطلوبی را کسب کرده است، اما از مشکلاتی نیز رنج می‌برد که از آنجمله می‌توان به عدم قدرت کافی در استخراج جواب‌های پیرامون جواب‌های قبلی، اشاره نمود. همین مسئله باعث شده که ABC نسبت به سایر ال چکیده کامل
        الگوریتم کلونی زنبور عسل مصنوعی (ABC) در بسیاری از مسائل بهینه سازی پیچیده نتایج مطلوبی را کسب کرده است، اما از مشکلاتی نیز رنج می‌برد که از آنجمله می‌توان به عدم قدرت کافی در استخراج جواب‌های پیرامون جواب‌های قبلی، اشاره نمود. همین مسئله باعث شده که ABC نسبت به سایر الگوریتم‌های تکاملی سرعت همگرایی کمتری داشته باشد. برای حل این مشکل یکی از مناسب ترین راهکارها استفاده از یادگیری تقویتی (RL) است که بوسیله آن می‌توان در هر موقعیت، استراتژی بهینه را برای هر زنبور عسل تعیین نمود. از این رو، در این مقاله یک الگوریتم ممتیک ABC ارائه شده است که در آن از تعدادی عبارات بروز رسانی استفاده میشود، به طوری که هر یک از این عبارات به میزان مختلفی از خواص اکتشاف و استخراج برخوردار هستند. سپس RL سیاستی را ارائه می‌نماید که توسط آن، هر زنبور عسل میتواند در هر زمان، عملیات بهینه را از میان عملیات‌های مذکور انتخاب نماید. جهت بررسی عملکرد روش پیشنهادی و مقایسه آن با سایر الگوریتم‌های تکاملی، از آن‌ها در بهینه سازی توابع معیار متعددی استفاده شده است که نتیجه آزمایشات بیانگر قدرت روش پیشنهادی در مقایسه با سایر الگوریتم های تکاملی است پرونده مقاله
      • دسترسی آزاد مقاله

        4 - بهینه‌سازی پرتفوی سهام در بورس اوراق بهادار تهران (کاربرد رهیافت یادگیری تقویتی)
        مهدی اسفندیار محمدعلی کرامتی رضا غلامی جمکرانی محمد رضا کاشفی نیشابوری
        هدف این مقاله کاربرد معاملات الگوریتمی با تمرکز بر رویکرد یادگیری تقویتی برای بهینه‌سازی پرتفوی سهام‌های منتخب است. این پژوهش از حیث هدف،‌ کاربردی و از نظر نوع داده، کمّی و از لحاظ روش، توصیفی - اکتشافی و از منظر طرح تحقیق، پس‌رویدادی است. جامعه آماری این پژوهش، 672 شرک چکیده کامل
        هدف این مقاله کاربرد معاملات الگوریتمی با تمرکز بر رویکرد یادگیری تقویتی برای بهینه‌سازی پرتفوی سهام‌های منتخب است. این پژوهش از حیث هدف،‌ کاربردی و از نظر نوع داده، کمّی و از لحاظ روش، توصیفی - اکتشافی و از منظر طرح تحقیق، پس‌رویدادی است. جامعه آماری این پژوهش، 672 شرکت بورسی است که از این تعداد، داده‌های پنج شرکت (نمونه آماری) طی دوره زمانی 1396-1400 بررسی شده است. یافته‌های تحقیق در دوره‌های صعودی و نزولی بازار نشان داد که رویکرد یادگیری تقویتی در بازارهای صعودی و نزولی به صورت معناداری بر رویکرد خرید و نگهداری برتری دارد و عملکرد بهتری ارائه داده است و نتایج با عملکرد الگوریتم‌ها در بازارهای بورس سازگار است. نتایج آشکار کرد که از دیدگاه سودآوری، رویکرد یادگیری تقویتی نسبت به رهیافت خرید و نگه‌داری، عملکرد بهتر و موثرتری داشته است؛ بنابراین، به‌کارگیری روش یادگیری تقویتی پیشنهاد می‌شود. پرونده مقاله
      • دسترسی آزاد مقاله

        5 - بخش بندی ملانوما و دیگر عارضه‌های رنگی پوست در تصاویر درموسکپی با استفاده از ترکیب روشهای آستانه گذاری مبتنی برالگوریتم یادگیری تقویتی
        سیدمحمد سیدابراهیمی حسین پورقاسم احمد کشاورز
        تصاویر درموسکپی یکی از ابزارهای اصلی مورد استفاده در تشخیص ملانوما و دیگر عارضه های رنگی پوست به شمار می‌رود. به علت سختی و عوامل ادراکی در تشخیص‌های انسانی، تحلیل کامپیوتری تصاویر درموسکپی یک زمینه جدید تحقیقاتی را به روی محققین گشوده است. یکی از مراحل اصلی در تحلیل ای چکیده کامل
        تصاویر درموسکپی یکی از ابزارهای اصلی مورد استفاده در تشخیص ملانوما و دیگر عارضه های رنگی پوست به شمار می‌رود. به علت سختی و عوامل ادراکی در تشخیص‌های انسانی، تحلیل کامپیوتری تصاویر درموسکپی یک زمینه جدید تحقیقاتی را به روی محققین گشوده است. یکی از مراحل اصلی در تحلیل این تصاویر، آشکارسازی خودکار مرز عارضه می‌باشد. یافتن یک آستانه بهینه برای بخش بندی تصاویر دیجیتالی یک کار دشوار در پردازش تصویر می‌باشد. در این تحقیق یک روش آستانه‌گذاری جدید مبتنی بر روش‌های آستانه‌گذاری مطرح و الگوریتم یادگیری تقویتی جهت بخش‌بندی تصاویر درموسکپی ارائه می‌گردد. در این روش، عامل تقویتی الگوریتم یادگیری، وزن‌های بهینه مربوط به آستانه‌های مختلف را آموزش می‌بیند و تصویر را توسط آستانه بهینه بخش‌بندی می‌کند. یک تابع پاداش برای محاسبه میزان شباهت بین تصویر باینری خروجی و تصویر سطح خاکستری اصلی به کار برده می‌شود تا میزان پاداش یا جریمه را به عامل تقویتی اعمال کند. از سه روش آستانه‌گذاری Otsu، Kittler و Kapur جهت ترکیب در عامل تقویتی استفاده می‌گردد. نتایج بخش‌بندی با استفاده از اندازه‌گیری خطا براساس تصاویری که توسط متخصصین پوست بخش‌بندی شده‌اند، مقایسه می‌گردند. مقایسه نتایج حاصل با روش‌های خودکار ارائه شده در مقالات، بیانگر بهبود دقت و کاهش خطا در آشکارسازی مرز عارضه در تصاویر درموسکپی است. پرونده مقاله
      • دسترسی آزاد مقاله

        6 - بهینه‌سازی پرتفوی سهام با استفاده از استراتژی یادگیری تقویتی کیو عمیق مبتنی بر ماتریس حالت- عمل
        مهدی اسفندیار محمدعلی کرامتی رضا غلامی جمکرانی محمدرضا کاشفی نیشابوری
        هدف این مقاله بهینه‌سازی پرتفوی سهام با استفاده از استراتژی یادگیری تقویتی کیوعمیق مبتنی بر ماتریس حالت-عمل می باشد. بدین منظور، برای بهینه‌سازی و سودآوری پرتفویی متشکل از سهام، عملکرد استراتژی یادگیری تقویتی مبتنی بر الگوریتم کیو عمیق و استراتژی منفعل خرید و نگهداری در چکیده کامل
        هدف این مقاله بهینه‌سازی پرتفوی سهام با استفاده از استراتژی یادگیری تقویتی کیوعمیق مبتنی بر ماتریس حالت-عمل می باشد. بدین منظور، برای بهینه‌سازی و سودآوری پرتفویی متشکل از سهام، عملکرد استراتژی یادگیری تقویتی مبتنی بر الگوریتم کیو عمیق و استراتژی منفعل خرید و نگهداری در دو حالت بازارهای صعودی و نزولی طی دوره زمانی 1396-1400 مورد بررسی قرار گرفت. جامعه آماری 672 شرکت پذیرفته شده در بورس اوراق بهادار تهران بوده که از میان آنها تعداد 7 شرکت (نمونه آماری) مناسب دانسته شد. مقایسه دو استراتژی نشان می‌دهد استراتژی یادگیری تقویتی، در بازارهای صعودی و نزولی در مقایسه با روش معاملاتی خرید و نگهداری که منجر به زیان شده است، در عمل توان بالایی برای سودآوری در بازار بورس اوراق بهادار ایران دارد. براساس نتایج، پیشنهاد می‌شود کارگزاران و شرکتهای بورسی و تحلیلگران از راهبرد یادگیری تقویتی برای سودآوری و بهینه‌سازی پرتفوی سهام استفاده کنند. همچنین، مقایسه نتایج این دو رویکرد روشن می‌کند که کاربرد یادگیری تقویتی برای سرمایه‌گذارهایی که توان ریسک‌پذیری بالای رهیافت خرید و نگه‌داری را ندارند، مناسب‌تر است. پرونده مقاله
      • دسترسی آزاد مقاله

        7 - بهبود عملکرد عاملها در جامعه مصنوعی با استفاده از یادگیری تقویتی
        امیر پویان خدابخشی آرش رحمان محسن روحانی
        چکیده معمولاً در سیستم‌های چندعاملی، تعاملات بین عامل‌ها و تعاملات عامل‌ها با محیط، به صورت انتخاب و اجرای عمل‌هایی از بین مجموعه‌ای محدود از اَعمال مشخص توسط عامل‌ها حاصل می‌شود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعدا چکیده کامل
        چکیده معمولاً در سیستم‌های چندعاملی، تعاملات بین عامل‌ها و تعاملات عامل‌ها با محیط، به صورت انتخاب و اجرای عمل‌هایی از بین مجموعه‌ای محدود از اَعمال مشخص توسط عامل‌ها حاصل می‌شود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعداد رفتارهای قابل اجرا توسط عامل‌ها وابسته است. در این پژوهش سعی شد با توسعه مدل کسب و انتقال تجربه و اضافه کردن قابلیت یادگیری به عامل‌ها، تاثیر یادگیری در بهبود رفتار عامل‌ها در انتخاب روش (راهبرد) های انتقال تجربه و در بهبود شاخص‌های رفاهی در جامعه مصنوعی مورد مطالعه قرار گیرد. روش یادگیری پیشنهاد شده در پژوهش برای افزایش دامنه توانایی‌های عامل‌ها، یادگیری تقویتی4 بود. با استفاده از این روش، عامل‌ها به مرور زمان یاد گرفتند که چگونه در مواجهه با شرایط مختلف محیطی، رفتارهای مناسب‌تری را انتخاب و اجرا کنند تا به اهداف فردی و اجتماعی نزدیک‌تر شوند. نتایج حاصل از شبیه‌سازی و انجام آزمایش‌ها نشان داد که اِعمال فرآیند یادگیری می‌تواند منجر به بهبود رفتار عامل‌ها و بهبود شاخص‌های رفاهی جامعه مصنوعی شود. پرونده مقاله