Development of a Multimodal Movie Recommendation System Using Graph Neural Networks and Fusion of Textual and Visual Features
Subject Areas : information technology
Ali Mosaddegh
1
,
Danial Barati
2
,
kiarash fazilat
3
1 - MSc student, department of engineering, West Tehran Bracnh, Islamic Azad University, Tehran, Iran
2 - MSc student, department of engineering, West Tehran Bracnh, Islamic Azad University, Tehran, Iran
3 - MSc student, department of engineering, West Tehran Bracnh, Islamic Azad University, Tehran, Iran
Keywords: Recommendation System, Graph Neural Networks, Multimodal Data, Movie Recommender, Feature Fusion,
Abstract :
This study focuses on the design and development of a multimodal movie recommendation system utilizing Graph Neural Networks (GCN). The primary goal of the system is to improve the accuracy and quality of recommendations by integrating multimodal information, including textual and visual features of movies. In this model, the user-movie interaction graph was used as the main structure to model relationships between users and movies through nodes and edges. Textual features of movies were extracted using embedding models, while visual features were extracted using convolutional neural networks, and these features were then fused into graph nodes. The GCN was employed to learn interactive features and predict user preferences. Experimental results demonstrated that the proposed model, despite fluctuations in loss and mean squared error (MSE), achieved relative improvements in accuracy and convergence compared to baseline methods. The interaction graph also highlighted the diversity of user preferences and the importance of high-interaction movies. Additionally, this study provides suggestions for enhancing the model, such as employing real-world datasets, advanced fusion algorithms, and improving interpretability. The proposed model serves as a foundation for designing more advanced and personalized recommendation systems.
[1]. Xia, L., Yang, Y., Chen, Z., Yang, Z., & Zhu, S. (2024). Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion. arXiv preprint arXiv:2407.09157.
[2]. Wu, X., Huang, A., Yang, H., He, H., Tai, Y., & Zhang, W. (2024). Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation. arXiv preprint arXiv:2407.05420.
[3]. Tokala, S., Nagaram, J., Enduri, M. K., & Lakshmi, T. J. (2024, June). Enhanced Movie Recommender system using Deep Learning Techniques. In 2024 3rd International Conference on Computational Modelling, Simulation and Optimization (ICCMSO) (pp. 71-75). IEEE.
[4]. Malitesta, D. (2024). Graph neural networks for recommendation leveraging multimodal information.
[5]. Burabak, M., & Aytekin, T. (2024). SynerGraph: An Integrated Graph Convolution Network for Multimodal Recommendation. arXiv preprint arXiv:2405.19031.
[6]. Mouhiha, M., Oualhaj, O. A., & Mabrouk, A. (2024, May). Enhancing Movie Recommendations: A Deep Neural Network Approach with MovieLens Case Study. In 2024 International Wireless Communications and Mobile Computing (IWCMC) (pp. 1303-1308). IEEE.
[7]. He, J., Zhang, L., Cao, W., Yang, M., Li, M., Zhao, Z., & Leung, M. F. (2024, May). Multi-modal Bayesian Recommendation System. In 2024 IEEE 6th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC) (Vol. 6, pp. 141-145). IEEE.
[8]. Wei, X., Dou, J., Wang, S., Zhang, Y., Hou, B., & Wang, F. (2024, May). Multi-view Sequence Recommendation Model. In 2024 IEEE 6th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC) (Vol. 6, pp. 645-648). IEEE.
[9]. Malitesta, D., Cornacchia, G., Pomo, C., Merra, F. A., Di Noia, T., & Di Sciascio, E. (2018). Formalizing multimedia recommendation through multimodal deep learning. ACM Transactions on Recommender Systems.
[10]. Siet, S., Peng, S., Ilkhomjon, S., Kang, M., & Park, D. S. (2024). Enhancing sequence movie recommendation system using deep learning and kmeans. Applied Sciences, 14(6), 2505.
[11]. Kim, W. H., Kim, G. W., & Kim, J. C. (2024). Multi-Modal Deep Learning based Metadata Extensions for Video Clipping. International Journal on Advanced Science, Engineering & Information Technology, 14(1).
[12]. Zhan, Y., Xie, H., Huan, H., & Che, S. (2024, February). Research on Movie Recommendation Algorithm based on Deep Learning. In 2024 International Conference on Integrated Circuits and Communication Systems (ICICACS) (pp. 1-6). IEEE.
[13]. Peng, S., Siet, S., Ilkhomjon, S., Kim, D. Y., & Park, D. S. (2024). Integration of deep reinforcement learning with collaborative filtering for movie recommendation systems. Applied Sciences, 14(3), 1155.
[14]. Li, J., Yang, C., Ye, G., & Nguyen, Q. V. H. (2024). Graph neural networks with deep mutual learning for designing multi-modal recommendation systems. Information Sciences, 654, 119815.
دانشگاه آزاد اسلامی واحد الکترونیکی
مجله فناوری اطلاعات و امنیت شبکه
ISSN: 3060-6055
DOI: 10.71623/joins.2025.1194675
توسعه سیستم پیشنهاددهی فیلم چندوجهی با استفاده از شبکههای عصبی گراف و همجوشی ویژگیهای متنی و تصویری
علی مصدق1، دانیال براتی2 و کیارش فضیلت3
1دانشجوی ارشد مهندسی کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایرانali.mosaddegh@yahoo.com
2دانشجوی ارشد مهندسی کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایرانdanial.barati1999@gmail.com
3دانشجوی ارشد مهندسی کامپیوتر، واحد تهران غرب، دانشگاه آزاد اسلامی، تهران، ایرانkiarashfzl2424@gmail.com
چکیده
این پژوهش به طراحی و توسعه یک سیستم پیشنهاددهی چندوجهی فیلم با استفاده از شبکههای عصبی گرافی (GCN) پرداخته است. هدف اصلی این سیستم، بهبود دقت و کیفیت توصیهها از طریق ترکیب اطلاعات چندوجهی شامل ویژگیهای متنی و تصویری فیلمها بود. در این مدل، گراف تعاملات کاربر-فیلم بهعنوان ساختار اصلی مورد استفاده قرار گرفت و ارتباطات میان کاربران و فیلمها به کمک گرهها و لبههای گراف مدلسازی شد. ویژگیهای متنی فیلمها با مدلهای تعبیهسازی و ویژگیهای تصویری با استفاده از شبکههای عصبی پیچشی استخراج و سپس در گرههای گراف ترکیب شدند. شبکه عصبی گرافی برای یادگیری ویژگیهای تعاملی و پیشبینی ترجیحات کاربران به کار گرفته شد. نتایج آزمایشها نشان داد که مدل پیشنهادی، با وجود نوسانات در مقادیر خطا و میانگین مربعات خطا(MSE) ، به بهبود نسبی دقت و همگرایی مدل نسبت به روشهای پایه دست یافته است. گراف تعاملات نیز نشاندهنده تنوع سلایق کاربران و اهمیت برخی فیلمهای پرتعامل بود. این پژوهش همچنین پیشنهادهایی برای بهبود مدل شامل استفاده از دادههای واقعی، الگوریتمهای پیشرفتهتر همجوشی و بهبود تفسیرپذیری ارائه میکند. مدل پیشنهادی میتواند مبنایی برای طراحی سیستمهای توصیهگر پیشرفتهتر و شخصیسازیشدهتر باشد.
کلید واژه:
سیستم پیشنهاددهی، شبکههای عصبی گرافی، دادههای چندوجهی، توصیهگر فیلم، همجوشی ویژگیها.
مقدمه
در سالهای اخیر، حجم عظیمی از دادههای دیجیتال و چندرسانهای مانند فیلم، موسیقی و تصاویر، دسترسی کاربران به محتوا را بهشدت افزایش داده است]1[. سیستمهای پیشنهاددهی بهعنوان راهحلی مؤثر برای هدایت کاربران به سمت محتواهای مناسب و افزایش تجربه کاربری مطرح شدهاند]2[. این سیستمها به کاربران کمک میکنند تا از میان حجم عظیم دادهها، محتوای مرتبط و متناسب با سلایق شخصی خود را پیدا کنند. با رشد فناوریهای یادگیری عمیق و پردازش زبان طبیعی، روشهای مختلفی برای بهبود دقت و شخصیسازی پیشنهادها توسعه یافتهاند]3،4[.
بسیاری از تحقیقات اخیر نشان دادهاند که رویکردهای چندوجهی، که از ترکیب منابع دادهای مختلف مانند متون، تصاویر و سایر ویژگیهای محتوایی استفاده میکنند، دقت بیشتری در ارائه پیشنهادهای شخصیسازی شده دارند. بهخصوص در حوزه فیلم و محتوای ویدئویی، ترکیب ویژگیهای متنی مانند ژانر و خلاصه داستان و ویژگیهای تصویری مانند پوستر یا صحنههای کلیدی فیلم میتواند نقشی مهم در بهبود کیفیت پیشنهادها ایفا کند. روشهای نوین مانند شبکههای عصبی گراف (GNN) و ترانسفورمرها توانایی ویژهای در همجوشی و تحلیل اطلاعات چندوجهی دارند]4[. شبکههای عصبی گراف با امکان پردازش دادههای غیراقلیدسی و استفاده از ساختارهای گرافی مانند ارتباطات کاربر-فیلم، در سیستمهای پیشنهاددهی جدید به کار گرفته شدهاند و عملکرد چشمگیری را نشان دادهاند]3[.
با این حال، هنوز چالشهایی نظیر چگونگی همگامسازی بهینه اطلاعات متنی و تصویری، بهخصوص در سیستمهای پیشنهاددهی فیلم، بهطور کامل حل نشده است]5[. اکثر روشهای فعلی تمرکز بر روی یک یا دو نوع ویژگی دارند و به ندرت از ترکیب چندوجهی با تمرکز بر روابط گرافی و ساختارهای کاربر-محتوا استفاده میکنند. همچنین، تفسیرپذیری پیشنهادها برای کاربران و امکان ارائه توضیحاتی در مورد دلایل هر پیشنهاد از جنبههای مهمی است که کمتر به آن توجه شده است]3،5[.
در این مقاله، با هدف ارتقای دقت و تنوع پیشنهادها و همچنین بهبود تفسیرپذیری پیشنهادها، یک سیستم پیشنهاددهی فیلم چندوجهی مبتنی بر شبکههای عصبی گراف معرفی شده است. این سیستم با استفاده از همجوشی دادههای متنی و تصویری، بهگونهای طراحی شده است که امکان اجرای آن با دادههای شبیهسازی شده و در محیط گوگل کولب فراهم باشد. نتایج نشان میدهند که ترکیب ویژگیهای متنی و تصویری از طریق شبکههای عصبی گراف میتواند به پیشنهادهای شخصیسازیشدهتر و دقیقتر منجر شود و تجربه کاربری بهتری را فراهم کند.
کارهای گذشته
ژی1 و همکاران]1[، در مطالعهای با عنوان Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion به معرفی سیستمی چندوجهی برای پیشنهاددهی فیلم پرداختهاند که از ویژگیهای پوستر فیلم و توضیحات متنی فیلم برای پیشبینی ترجیحات کاربران استفاده میکند. در این تحقیق از مدل BERT برای استخراج ویژگیهای متنی و از مدل ViT برای ویژگیهای تصویری استفاده شده است. ترکیب این مدلها و استفاده از معماری ترنسفورمر برای همجوشی ویژگیها منجر به افزایش دقت در پیشبینی امتیازات کاربران شده است. نتایج این مدل از طریق آزمون بر روی مجموعه داده MovieLens 100K و 1M اثبات شده است که دقت پیشبینی را نسبت به الگوریتمهای پایه افزایش داده است.
وو2 و همکاران]2[، در مقالهای با عنوان Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation به بررسی چالشهای مربوط به شکاف معنایی بین مودالیتهها در سیستمهای پیشنهاددهی چندوجهی پرداختهاند. این پژوهش با الهام از مدل CLIP، به توسعه چارچوبی به نام CLIPER پرداخته است که با استفاده از همترازی نمایههای مختلف، قابلیت استخراج اطلاعات چنددیدگاهی را فراهم میآورد. این رویکرد توانسته است عملکرد بهتری نسبت به مدلهای چندوجهی فعلی در سه مجموعه داده مختلف نشان دهد.
توکال3ا و همکاران]3[، در کنفرانس بینالمللی مدلسازی محاسباتی، شبیهسازی و بهینهسازی (ICCMSO)، پژوهشی با عنوان Enhanced Movie Recommender System Using Deep Learning Techniques ارائه کردند. در این تحقیق، از تکنیکهای یادگیری عمیق شامل شبکههای عصبی مصنوعی (ANN) برای استخراج ویژگیها از رفتار کاربران و متادیتای فیلم، شبکههای عصبی بازگشتی (RNN) برای درک الگوهای زمانی، و شبکههای عصبی پیچشی (CNN) برای تحلیل همبستگیهای مکانی دادهها استفاده شده است. هدف این مدل، بهبود دقت پیشنهاددهی از طریق ترکیب ویژگیهای کوتاهمدت و بلندمدت در ترجیحات کاربر است.
مالیتستا4 و همکاران]4[، در مقالهای با عنوان Formalizing Multimedia Recommendation through Multimodal Deep Learning در نشریهACM، به بررسی سیستمهای پیشنهاددهی چندرسانهای از طریق یادگیری عمیق چندوجهی پرداختهاند. این پژوهش به بررسی چالشهای مربوط به پیشنهاددهی در حوزههایی مانند مد و موسیقی پرداخته و استفاده از تکنیکهای چندوجهی را به عنوان راهکاری برای ارائه پیشنهادهای دقیقتر معرفی کرده است. محققان در این مطالعه به بازنگری روشهای چندوجهی در پیشنهاددهی چندرسانهای پرداخته و الگوریتمهای اخیر را در چارچوبی به نام Elliot مورد ارزیابی قرار دادهاند. این مطالعه با هدف ارائه دستورالعملهایی برای طراحی و پیادهسازی نسل بعدی سیستمهای پیشنهاددهی چندوجهی انجام شده است.
بوراباک5 و آیکتین6]5[، در مطالعهای با عنوان SynerGraph: An Integrated Graph Convolution Network for Multimodal Recommendation یک رویکرد جدید برای سیستمهای پیشنهاددهی چندوجهی با تمرکز بر ادغام و پالایش دادههای چندوجهی معرفی کردند. این پژوهش نشان داده است که استفاده از فیلترهای پالایشی، دقت سیستمهای چندوجهی را نسبت به مدلهای تکوجهی بهبود میبخشد و اطلاعات متنی نقشی کلیدی در افزایش دقت پیشنهاددهی ایفا میکند.
مبوروک7 و همکاران]6[، در مقالهای تحت عنوان Enhancing Movie Recommendations: A Deep Neural Network Approach with MovieLens Case Study در کنفرانس IWCMC، به بررسی بهبود سیستمهای پیشنهاددهی فیلم با استفاده از شبکههای عصبی عمیق پرداختهاند. این پژوهش، چالشهایی نظیر مسئله شروع سرد، پراکندگی دادهها و کمبود بازخورد صریح کاربران را مورد توجه قرار داده و از شبکههای عصبی عمیق (DNN)، شبکههای عصبی پیچشی (CNN)، شبکههای عصبی بازگشتی (RNN) و خودرمزگذارها (AEs) بهره برده است. هدف این پژوهش، بهبود عملکرد سیستمهای پیشنهاددهی است که به بازخوردهای ضمنی کاربران تکیه دارند و این مدل بر اساس معیارهایی مانند نسبت موفقیت و نمرات مربوطه (NDCG) ارزیابی شده است که نشاندهنده برتری این روش نسبت به روشهای قبلی است.
هی8 و همکاران]7[، در مقالهای با عنوان Multi-modal Bayesian Recommendation System که در کنفرانس IMCEC ارائه شد، سیستم پیشنهاددهی چندوجهی با نام MBR را معرفی کردهاند که از مدالیتهای تصویر و متن برای بهبود کیفیت پیشنهادها استفاده میکند. این سیستم از شبکههای عصبی پیچشی عمیق برای استخراج ویژگیهای تصویری و از مدلهای زبان برای تحلیل متنی بهره برده است. آزمایشها بر روی یک مجموعه داده بزرگمقیاس نشان داده که سیستم MBR در ارائه پیشنهادها بهبود یافته است و عملکرد بالایی دارد.
وی9 و همکاران]8[، در مقاله Multi-view Sequence Recommendation Model که در کنفرانس IMCEC ارائه شده است، به بررسی الگوریتمهای پیشنهاددهی مبتنی بر یادگیری عمیق و آگاه از بافت پرداختهاند. این پژوهش، تاثیرات زمینهای مانند زمان، مکان و محیط اجتماعی بر رفتار کاربران را در نظر میگیرد و به دنبال توسعه سیستمی است که پروفایلهای دقیقتری از کاربران ارائه دهد. نتایج این مطالعه نشان میدهد که استفاده از اطلاعات زمینهای و آگاهی از صحنه میتواند به پیشنهادهایی دقیقتر و مناسبتر منجر شود.
سایت10 و همکاران]9[، در مقاله Enhancing Sequence Movie Recommendation System Using Deep Learning and KMeans که در مجله Applied Sciences منتشر شده است، یک سیستم پیشنهاددهی را معرفی کردهاند که با ترکیب یادگیری عمیق و خوشهبندی KMeans، به بهبود دقت در توصیههای فیلم میپردازد. این سیستم با استفاده از اطلاعات کاربران نظیر سن، جنسیت و شغل، کاربران جدید را تحلیل کرده و با کاربران با ترجیحات مشابه مطابقت میدهد. مدل پیشنهاددهی با بهکارگیری شبکههای ترنسفورمری و چندلایه ادراکی، دقت پیشبینی را افزایش داده و با استفاده از خوشهبندی KMeans بر روی ویژگیهای ژانر فیلمها، تنوع در پیشنهادها را نیز حفظ کرده است. ارزیابی مدل بر روی مجموعه داده MovieLens نشان از برتری آن در مقایسه با مدلهای پایه دارد.
کیم11 و همکاران]10[، در مقالهای با عنوان Multi-Modal Deep Learning Based Metadata Extensions for Video Clipping که در مجله International Journal on Advanced Science, Engineering & Information Technology منتشر شده، یک مدل توسعه متادیتا برای ویدیوها با استفاده از یادگیری عمیق چندوجهی معرفی کردهاند. این مدل با شناسایی اشیا و تبدیل گفتار به متن (STT) متادیتای ویدیوها را گسترش میدهد. این توسعه میتواند به سیستمهای جستوجو و پیشنهاددهی ویدیو کمک کند تا نتایج نزدیکتری به عبارات جستوجو و محتوای مرتبط به کاربران ارائه دهند.
زان12 و همکاران]11[، در مقاله Research on Movie Recommendation Algorithm Based on Deep Learning که در کنفرانس ICICACS ارائه شده، از یادگیری عمیق برای بهبود دقت الگوریتم پیشنهاددهی فیلم استفاده کردهاند. این مدل با بهرهگیری از سیستم عصبی مصنوعی و الگوریتم انتشار پسرو برای بهینهسازی پارامترهای شبکه، دقت پیشبینی را بهبود بخشیده است. نتایج نشان داده که این مدل میتواند نیازهای شخصیسازیشده کاربران را به خوبی برآورده کند و دقت آن نسبت به الگوریتمهای سنتی 1.4٪ بهبود یافته است.
پنگ13 و همکاران]12[، در مقاله Integration of Deep Reinforcement Learning with Collaborative Filtering for Movie Recommendation Systems در مجله Applied Sciences، سیستم پیشنهاددهی فیلم را معرفی کردهاند که ترکیبی از یادگیری تقویتی عمیق (DRL) و فیلترگذاری مشارکتی (CF) است. این سیستم با استفاده از الگوریتم DDPG و تحلیل مقدار ویژه (SVD)، مشکلاتی نظیر کمبود داده و مسئله شروع سرد را بهبود میبخشد. ارزیابی مدل با معیارهایی نظیر دقت، بازخوانی و نمره F1، نشان از برتری این روش نسبت به مدلهای مرجع پیشنهاددهی دارد.
لی14 و همکاران]13[، در مقالهای با عنوان Graph Neural Networks with Deep Mutual Learning for Designing Multi-modal Recommendation Systems که در مجله Information Sciences منتشر شده، چارچوبی با نام GNNMR را معرفی کردهاند که شبکههای عصبی گراف (GNN) را با تکنیک یادگیری متقابل عمیق ترکیب میکند. این چارچوب به هر مدالیت خاص یک گراف دوطرفه اختصاص میدهد و از این طریق به استخراج روابط معنایی پنهان بین مدالیتها کمک میکند. نتایج تجربی نشاندهنده برتری این مدل در مقایسه با سایر مدلهای چندوجهی در وظیفه پیشنهاددهی Top-K است.
جدول 1. خلاصه پیشینه پژوهش
محققان | سال | موضوع | روش | نتیجه |
سایت و همکاران | 2024 | سیستم پیشنهاددهی فیلم با استفاده از یادگیری عمیق و خوشهبندی KMeans | ترکیب یادگیری عمیق و خوشهبندی KMeans برای بهبود دقت در توصیههای فیلم | بهبود دقت در مقایسه با مدلهای پایه در MovieLens |
کیم و همکاران | 2024 | توسعه متادیتا برای ویدیوها با استفاده از یادگیری عمیق چندوجهی | استفاده از شناسایی اشیا و تبدیل گفتار به متن برای گسترش متادیتا | بهبود جستوجو و پیشنهاددهی در سیستمهای ویدئویی |
زان و همکاران | 2024 | الگوریتم پیشنهاددهی فیلم با استفاده از یادگیری عمیق | استفاده از سیستم عصبی مصنوعی و الگوریتم انتشار پسرو | بهبود 1.4٪ در دقت پیشبینی نسبت به روشهای سنتی |
پنگ و همکاران | 2024 | سیستم پیشنهاددهی فیلم با ترکیب یادگیری تقویتی عمیق و فیلترگذاری مشارکتی | ترکیب یادگیری تقویتی عمیق (DRL) و تحلیل مقدار ویژه (SVD) با فیلترگذاری مشارکتی | افزایش دقت و شخصیسازی پیشنهادها در مجموعه MovieLens |
لی و همکاران | 2024 | سیستم پیشنهاددهی چندوجهی با ترکیب شبکههای عصبی گراف و یادگیری متقابل عمیق | ترکیب شبکههای عصبی گراف با یادگیری متقابل عمیق (GNNMR) | برتری در وظیفه پیشنهاددهی Top-K نسبت به سایر مدلهای چندوجهی |
مبوروک و همکاران | 2024 | بهبود سیستمهای پیشنهاددهی فیلم با شبکههای عصبی عمیق | استفاده از شبکههای عصبی عمیق (DNN)، CNN، RNN و AEs | برتری در معیارهای NDCG و نسبت موفقیت در مقایسه با روشهای قبلی |
هی و همکاران | 2024 | سیستم پیشنهاددهی چندوجهی با استفاده از شبکههای عصبی پیچشی و مدلهای زبان | استفاده از شبکههای عصبی پیچشی و مدلهای زبان برای تحلیل متنی | بهبود عملکرد در ارائه پیشنهادهای بهینهتر با استفاده از تصاویر و متن |
وی و همکاران | 2024 | الگوریتم پیشنهاددهی توالی چنددیدگاهی با یادگیری عمیق آگاه از بافت | توسعه سیستم آگاه از بافت با استفاده از تحلیل زمانی، مکانی و محیط اجتماعی | ارائه پروفایلهای دقیقتر کاربران و توصیههای دقیقتر |
مالیتستا و همکاران | 2024 | فرمالیزه کردن پیشنهاددهی چندرسانهای با یادگیری عمیق چندوجهی | مرور روشهای چندوجهی و ارزیابی آنها در چارچوب Elliot | راهنمایی برای طراحی نسل بعدی سیستمهای پیشنهاددهی چندوجهی |
ژی و همکاران | 2024 | پیشنهاددهی فیلم با استفاده از پوستر و ترنسفورمر چندوجهی | استفاده از BERT و ViT برای استخراج ویژگیهای پوستر و متن | افزایش دقت پیشبینی امتیازات کاربران نسبت به الگوریتمهای پایه |
وو و همکاران | 2024 | سیستم پیشنهاددهی چندوجهی با استفاده از چارچوب CLIPER | استفاده از چارچوب CLIPER برای کاهش شکاف معنایی بین مدالیتها | عملکرد بهتر نسبت به مدلهای چندوجهی در سه مجموعه داده مختلف |
توکال و همکاران | 2024 | سیستم پیشنهاددهی فیلم بهبود یافته با تکنیکهای یادگیری عمیق | استفاده از ANN، CNN و RNN برای ترکیب ویژگیهای کوتاهمدت و بلندمدت | بهبود دقت در ترکیب ویژگیهای کوتاهمدت و بلندمدت کاربران |
مالیتستا | 2024 | شبکههای عصبی گراف برای پیشنهاددهی چندوجهی | شبکههای عصبی گراف برای استخراج روابط در نمودار کاربر-آیتم | بهبود ساختار و دقت پیشنهاددهی از طریق نمودارهای کاربر-آیتم |
بوراباک و آیکتین | 2024 | سیستم پیشنهاددهی چندوجهی با شبکه گرافی و پالایش دادهها | ادغام و پالایش دادههای چندوجهی با فیلترهای پالایشی | بهبود دقت پیشنهاددهی و افزایش نقش اطلاعات متنی |
بررسی مطالعات انجامشده نشان میدهد که در سالهای اخیر رویکردهای مختلفی در زمینه سیستمهای پیشنهاددهی چندوجهی و مبتنی بر یادگیری عمیق توسعه یافتهاند. هرچند بسیاری از تحقیقات بر بهبود دقت و شخصیسازی پیشنهادها تمرکز کردهاند، برخی چالشهای مهم همچنان بهطور کامل حل نشدهاند. برای مثال، پژوهشهایی که از روشهای ترکیبی مانند یادگیری تقویتی عمیق و فیلترگذاری مشارکتی بهره بردهاند، بیشتر بر افزایش دقت در شرایط کمبود داده و مسئله شروع سرد تمرکز کردهاند، در حالی که چالشهای دیگری نظیر یکپارچهسازی کامل دادههای چندوجهی و بهینهسازی کارایی سیستم در زمان واقعی کمتر مورد توجه بودهاند. اگرچه روشهای مختلفی برای پردازش تصاویر پزشکی، مانند شبکههای عصبی پیچشی سبک برای تشخیص آلزایمر ]15[ و معماریهای U-Net برای بخشبندی تصاویر MR ]16[ پیشنهاد شدهاند، اما این رویکردها اغلب در مواجهه با دادههای پویا و چندوجهی، قابلیت انطباق کافی ندارند. علاوه بر این، الگوریتمهای بهینهسازی مانند «انطباق پیشرو» کارایی آموزش مدلهای یادگیری عمیق را بهبود دادهاند ]17[، اما کاربرد آنها در سیستمهای پیشنهاددهی چندوجهی هنوز مورد بررسی قرار نگرفته است. این مطالعه با ادغام تکنیکهای پیشرفته بهینهسازی و همجوشی دادههای چندوجهی، به بررسی این شکاف و افزایش دقت پیشنهاددهی میپردازد. بسیاری از مطالعات نیز به استفاده از روشهای پیشرفتهای چون شبکههای عصبی گراف و یادگیری متقابل عمیق برای بهبود سیستمهای چندوجهی پرداختهاند. اما، موضوعاتی مانند تفسیرپذیری و شفافیت پیشنهادهای ارائهشده و چگونگی همجوشی و ترکیب مناسب ویژگیهای متنی، تصویری و زمانی بهطور کامل بررسی نشده است. این مسئله بهخصوص در حوزههایی که کاربران نیازمند فهمیدن دلایل پیشنهادها هستند، اهمیت بیشتری پیدا میکند. علاوه بر این، در حالی که برخی تحقیقات از روشهای جدید مانند مدلهای ترنسفورمری و شبکههای پیچشی استفاده کردهاند، کمبود مطالعاتی که به ترکیب این روشها با روشهای سنتی برای افزایش تنوع پیشنهادها توجه کنند، مشهود است.
روش شناسی
در این مقاله، یک سیستم پیشنهاددهی چندوجهی فیلم مبتنی بر شبکههای عصبی گراف (GNN) ارائه میشود که دادههای متنی (مانند ژانر و خلاصه داستان) و دادههای تصویری (مانند پوستر فیلم) را برای ارائه پیشنهادهای شخصیسازیشده ترکیب میکند. این روش شامل مراحل اصلی زیر است: پیشپردازش دادهها، استخراج ویژگیهای چندوجهی، ساختاردهی گراف و استفاده از شبکه عصبی گرافی برای پردازش و همجوشی دادهها.
۱. پیشپردازش دادهها
دادههای متنی، شامل ژانر و توضیحات کوتاه فیلم، ابتدا به توکنهای متنی تبدیل شده و با استفاده از مدل تعبیهسازی متن BERT به بردارهای ویژگی تبدیل میشوند. دادههای تصویری، مانند پوستر فیلم، به شبکههای عصبی پیچشی (CNN) داده میشوند تا ویژگیهای تصویری مهم استخراج شوند.
۲. ساختاردهی گراف
در این مرحله، شبکهای گرافی تشکیل میشود که گرههای آن نشاندهنده کاربران و فیلمها است. لبههای گراف نمایانگر تعاملات کاربران و فیلمها (مانند امتیازها یا بازدیدها) هستند. همچنین، ویژگیهای استخراج شده از دادههای متنی و تصویری به گرههای فیلم افزوده میشود تا همجوشی دادهها تسهیل شود.
۳. مدل شبکه عصبی گراف (GNN)
در این روش از شبکههای عصبی گراف برای پردازش دادههای گراف استفاده میشود. مدل پیشنهادی با استفاده از لایه گراف کانولوشن (GCN) یا گراف اَتِنشن (GAT)، ویژگیهای هر گره را از همسایگان خود میآموزد و اطلاعات را در طول گراف بهروزرسانی میکند. معادلات زیر برای بهروزرسانی و انتشار ویژگیها در گراف به کار میروند:
1. لایه گراف کانولوشن (GCN)
(1)
در این معادله:
o ماتریس مجاورت گراف است.
o ماتریس درجه است که مقدار لبههای مرتبط با هر گره را نشان میدهد.
o ویژگیهای گرهها در لایه
است.
o وزنهای قابل یادگیری مدل در لایه
است.
o تابع فعالسازی مانند
است.
2. گراف اَتِنشن (GAT): برای بهبود اهمیت ارتباطات میان گرهها، مدل GAT از مکانیزم توجه استفاده میکند:
(2)
که در آن:
o مقدار توجه بین گره
و
است که با توجه به ویژگیهای گرهها محاسبه میشود.
o ماتریس وزن قابل یادگیری است.
3. ادغام ویژگیهای چندوجهی (همجوشی) برای همجوشی ویژگیهای متنی و تصویری با گرههای گراف، از ترکیب ویژگیها استفاده میشود. بردار ویژگی نهایی فیلم به شکل زیر تعریف میشود:
(3)
که در آن:
o و
به ترتیب ویژگیهای متنی و تصویری فیلم هستند.
4. آموزش و بهینهسازی
مدل پیشنهادی با استفاده از تابع زیان میانگین مربعات خطا (MSE) و تابع زیان متقابل (Cross-Entropy) برای ارزیابی دقت پیشنهادها آموزش داده میشود. در نهایت، مدل به گونهای بهینهسازی میشود که خطای پیشبینیهای آن کمینه شود.
۵. ارزیابی مدل
برای ارزیابی مدل، از معیارهای مختلفی مانند دقت (Precision)، بازخوانی (Recall) و نمره F1 استفاده میشود تا عملکرد مدل در ارائه پیشنهادها بررسی شود. همچنین، عملکرد مدل پیشنهادی با مدلهای پایه مقایسه میشود تا میزان بهبود دقت و تنوع پیشنهادها ارزیابی شود.
شکل-1 فلوچارت روش پژوهش
نتایج و بحث
در این بخش، مدل پیشنهادی با استفاده از دادههای شبیهسازی شده و ارزیابی معیارهای مختلف مورد بررسی قرار میگیرد.
برای این منظور، از مجموعه داده Movie Lens (نسخههای 100K و 1M) استفاده میشود که به دلیل ساختار مناسب و تنوع دادهها، گزینه خوبی برای آزمایش سیستمهای پیشنهاددهی بهشمار میرود. علاوه بر این، برخی از دادهها بهصورت شبیهسازی شده ایجاد میشوند تا ویژگیهای متنی و تصویری فیلمها (مانند ژانر، خلاصه، پوستر) و تعاملات کاربران شبیهسازی شوند. در شبیهسازی، از دادههای متنی و تصویری فرضی به عنوان ورودیهای گرههای فیلم و از مشخصات کاربران برای گرههای کاربر استفاده میشود. دادههای متنی از طریق مدلهای تعبیهسازی مانند BERT به بردارهای عددی تبدیل میشوند و دادههای تصویری با استفاده از مدلهای پیچشی پردازش میشوند. برای ارزیابی عملکرد مدل پیشنهادی، از معیارهای دقت (Precision)، بازخوانی (Recall)، نمره F1 و خطای میانگین مربعات (MSE) استفاده میشود. این معیارها به ما امکان میدهند که عملکرد مدل در ارائه پیشنهادهای شخصیسازی شده و کاهش خطای پیشبینی را اندازهگیری کنیم. برای اطمینان از کارایی مدل، عملکرد آن با مدلهای پایه مقایسه میشود.
پارامترهای شبیهسازی به نحوی تنظیم شدهاند که شرایط واقعی سیستمهای پیشنهاددهی را بازسازی کنند. در جدول -2، پارامترهای اصلی شبیهسازی و مقادیر آنها ارائه شده است:
جدول -2 پارامترهای شبیه سازی روش پیشنهادی
پارامتر | مقدار |
تعداد فیلمها | 1000 |
تعداد کاربران | 500 |
تعداد تعاملات کاربر-فیلم | 10000 |
طول بردار متنی | 256 |
طول بردار تصویری | 128 |
تعداد لایههای GCN | 2 |
نرخ یادگیری | 0.001 |
تعداد اپوکها | 100 |
این مقادیر با توجه به نیازهای سیستم پیشنهاددهی تنظیم شدهاند تا بهینهسازی و دقت مدل بهطور موثری انجام شود.
مدل پیشنهادی ابتدا با استفاده از دادههای شبیهسازی شده آموزش میبیند و سپس بر روی مجموعه داده آزمون ارزیابی میشود. نتایج نشان میدهند که ترکیب ویژگیهای متنی و تصویری در یک ساختار گرافی، عملکرد بهتری نسبت به مدلهای صرفاً متنی یا تصویری ارائه میدهد. این ارزیابی نشان میدهد که روش پیشنهادی با استفاده از همجوشی دادهها و بهرهگیری از شبکههای عصبی گرافی، میتواند پیشنهادهای دقیقتر و کاربرپسندتری ارائه دهد.
جدول -3 نتایج مقادیر خطا (Loss) را در پایان هر ۱۰ دوره نشان میدهد. با بررسی این نتایج، میتوان موارد زیر را استنباط کرد:
جدول -3: نتایج ارزیابی مدل در بازههای ۱۰ دورهای
دوره (Epoch) | مقدار خطا (Loss) |
10 | 1.134210 |
20 | 0.996586 |
30 | 1.318439 |
40 | 1.144770 |
50 | 0.714058 |
60 | 1.043826 |
70 | 1.008833 |
80 | 1.342521 |
90 | 0.898000 |
100 | 1.122035 |
1. نوسانات خطا: مقادیر خطا در طول دورههای مختلف تا حدی نوسان دارد و این امر نشان میدهد که مدل در مراحل مختلف به درجات مختلفی از دقت دست یافته است.
2. کاهش تدریجی خطا: بهطور کلی، در طول ۱۰۰ دوره، مقادیر خطا به سمت کاهش میل میکنند، بهخصوص از دوره ۵۰ تا ۱۰۰ که مقدار خطا بیشتر به سمت تثبیت گرایش پیدا میکند.
3. افزایش دقت در اواخر دورهها: با نزدیک شدن به ۱۰۰ دوره، مقدار خطا تقریباً به میزان ۱٫۱۲ میرسد که نسبت به مقدار ابتدایی بهبود یافته است. این نشان میدهد که مدل در حال همگرایی و بهبود دقت است.
جدول-4: نتایج ارزیابی مدل در ۱۰ دوره ابتدایی
دوره (Epoch) | مقدار خطا (Loss) | میانگین مربعات خطا (MSE) |
1 | 1.311481 | 1.311481 |
2 | 1.044312 | 1.044312 |
3 | 1.262064 | 1.262064 |
4 | 1.144806 | 1.144806 |
5 | 0.775845 | 0.775845 |
6 | 1.103355 | 1.103355 |
7 | 1.296755 | 1.296755 |
8 | 1.087321 | 1.087321 |
9 | 1.166090 | 1.166090 |
10 | 1.134210 | 1.134210 |
جدول-4، مقادیر خطا و میانگین مربعات خطا را در ۱۰ دوره اول آموزش مدل نشان میدهد. تحلیل این نتایج شامل نکات زیر است:
1. نوسانات ابتدایی در مقدار خطا: در دورههای ابتدایی، مقادیر خطا و MSE به صورت متناوب کاهش و افزایش داشتهاند که به دلیل شروع فرآیند یادگیری مدل و تنظیم وزنها طبیعی است.
2. بهبود تدریجی دقت: به تدریج از دوره ۴ به بعد، مقادیر خطا و MSE بهبود پیدا کرده و مقادیر پایینتری را نشان میدهند. این روند نشان میدهد که مدل در حال یادگیری الگوهای بهتر و نزدیکتر شدن به نتایج هدف است.
3. ثبات بیشتر در دورههای بعدی: در دورههای بعدی، خطا به سمت ثبات بیشتر میل میکند که نشاندهنده همگرایی مدل است.
نتایج نشان میدهند که مدل با گذر زمان و دورههای آموزشی به تدریج به بهبود دقت دست یافته و به سمت مقدار خطای پایینتر و ثبات بیشتر در ارزیابیهای نهایی نزدیک شده است. این نتایج نشاندهنده کارایی مدل در یادگیری الگوهای پیشنهادی و کاهش خطای پیشبینی برای توصیهها است.
شکل-2 نمودارهای Training Loss و MSE در طول دورهها
دو نمودار شکل-2، تغییرات خطا (Loss) و میانگین مربعات خطا (MSE) را در طول دورههای آموزشی مدل نشان میدهند.
· نمودار Training Loss over Epochs: این نمودار، مقدار خطا را در طول ۱۰۰ دوره آموزشی نمایش میدهد. همانطور که مشاهده میشود، مقدار خطا دارای نوسانات زیادی است و بهطور کامل تثبیت نشده است. این نوسانات به دلیل تنظیمات اولیه مدل و فرآیند یادگیری رخ میدهد.
· نمودار MSE over Epochs: این نمودار میانگین مربعات خطا را در طول دورهها نمایش میدهد. MSE نیز دارای نوسانات مشابه خطا است و نشان میدهد که مدل در حال یادگیری و تنظیم وزنها است.
· نوسانات زیاد: مقدار خطا و MSE در دورههای مختلف دچار نوسانات زیادی میشوند که ممکن است نشاندهنده عدم همگرایی کامل مدل باشد. این نوسانات به دلایل مختلفی از جمله تنظیمات اولیه وزنها، نرخ یادگیری، و تعداد دادههای آموزشی ممکن است رخ دهد.
· کاهش نسبی خطا و MSE: در کل، با وجود نوسانات، میتوان دید که مدل در طول دورهها به سمت کاهش خطا و MSE حرکت میکند. این نشاندهنده بهبود نسبی دقت مدل و کاهش خطاهای پیشبینی است.
· عدم تثبیت کامل خطا: با وجود کاهش خطا، این نمودارها نشان میدهند که مدل هنوز به تثبیت کامل نرسیده است. این امر ممکن است با افزایش تعداد دورهها و بهینهسازی بیشتر مدل بهبود یابد.
شکل -3 گراف تعاملات کاربر-فیلم
شکل-3، گراف تعاملات کاربران و فیلمها را نشان میدهد. در این گراف، گرهها نمایانگر کاربران و فیلمها هستند و لبهها تعاملات میان آنها را نشان میدهند. این گراف به ما کمک میکند تا روابط میان کاربران و فیلمها را بهصورت بصری مشاهده کنیم. گراف تعاملات بهطور طبیعی دارای ساختاری متراکم است که نشاندهنده تنوع سلایق کاربران و تمایل آنها به تعامل با فیلمهای مختلف است.
· تراکم روابط: تمرکز روابط در مرکز گراف نشان میدهد که برخی کاربران و فیلمها دارای تعاملات بیشتری هستند که ممکن است نشاندهنده جذابیت بالای این فیلمها باشد.
· توزیع پراکنده: برخی گرهها در اطراف گراف قرار دارند که نشاندهنده تعاملات کمتر آنها است؛ این امر میتواند به دلایلی همچون جدید بودن کاربران یا فیلمها یا عدم جذابیت آنها باشد.
تحلیل نتایج نشان میدهند که مدل در حال یادگیری است و به تدریج به دقت بالاتری دست مییابد، اما همچنان نیاز به بهینهسازی بیشتری برای دستیابی به نتایج باثباتتر دارد. در پژوهشهای آتی میتوان پارامترهای یادگیری مدل (مانند نرخ یادگیری و تعداد دورهها) بررسی و بهینه شوند تا مدل به همگرایی و تثبیت بیشتری دست یابد.
نتیجهگیری
در این پژوهش، یک مدل پیشنهاددهی چندوجهی مبتنی بر شبکههای عصبی گرافی برای بهبود دقت و کارایی سیستمهای توصیهگر فیلم ارائه شد. هدف اصلی این مدل، ترکیب ویژگیهای متنی و تصویری فیلمها با استفاده از شبکههای عصبی گرافی (GCN) بود تا بتواند الگوهای پنهان در روابط بین کاربران و فیلمها را استخراج کرده و توصیههای بهتری ارائه دهد. با توجه به پیچیدگیهای دادههای چندوجهی، استفاده از یک ساختار گرافی برای مدلسازی تعاملات میان کاربران و آیتمها کمک شایانی به افزایش دقت و شخصیسازی پیشنهادها کرد.
در فرآیند آموزش مدل، گراف تعاملات کاربر-فیلم بهعنوان ساختار دادهای اصلی استفاده شد که شامل ویژگیهای متنی و تصویری بهعنوان ورودیهای مدل بود. نتایج نشان دادند که مدل پیشنهادی با وجود نوسانات اولیه، به مرور زمان به دقت بیشتری دست یافت. با این حال، نمودارهای خطا و MSE همچنان نوساناتی داشتند که نشاندهنده این است که مدل بهطور کامل به همگرایی و ثبات نرسیده است. این موضوع میتواند ناشی از تعداد محدود دورههای آموزشی یا تنظیمات بهینهسازی باشد.
تحلیل نتایج همچنین نشان داد که گراف تعاملات کاربر-فیلم، بهویژه در بخشهایی که تراکم بیشتری دارد، نشاندهنده تعاملات پربسامد میان کاربران و فیلمها است. این گرهها احتمالاً نمایانگر فیلمهای محبوب یا کاربران فعالتر هستند که تأثیر زیادی بر توصیههای سیستم دارند. این یافتهها با اصول پایهای سیستمهای توصیهگر هماهنگ است؛ به این معنا که فیلمهای پربیننده و کاربران پرفعالیت، وزن بیشتری در آموزش مدل دارند و میتوانند دقت مدل را بهبود دهند.
نکته دیگری که از نتایج قابل برداشت است، کارایی بالای روشهای گرافی در پردازش دادههای چندوجهی است. شبکههای عصبی گرافی قابلیت استخراج ویژگیهای پیچیده از دادههای غیرساختاریافته را دارند و این ویژگی بهخصوص در سیستمهای توصیهگر که با دادههای چندوجهی متنی، تصویری و تعاملی سروکار دارند، میتواند بسیار مؤثر باشد. به علاوه، ترکیب اطلاعات مختلف و همجوشی ویژگیهای چندوجهی منجر به ایجاد نمایههای دقیقتری از فیلمها و کاربران میشود و این امر توصیههای شخصیسازیشدهتر و دقیقتری را ممکن میسازد.
با توجه به نتایج بهدستآمده و محدودیتهای موجود، پیشنهادهای زیر برای بهبود و توسعه مدل در تحقیقات آینده ارائه میشود:
1. افزایش تعداد دورههای آموزشی و بهبود تنظیمات بهینهسازی: با توجه به اینکه نمودارهای خطا و MSE همچنان دارای نوساناتی هستند، میتوان در تحقیقات آتی، تعداد دورههای آموزشی را افزایش داده و تنظیمات بهینهسازی مانند نرخ یادگیری و الگوریتم بهینهسازی را بررسی کرد تا مدل به همگرایی و تثبیت بیشتری برسد.
2. استفاده از تکنیکهای پیشرفتهتر همجوشی ویژگیها: در این پژوهش، همجوشی ویژگیهای متنی و تصویری با استفاده از روشهای سادهتری انجام شد. در مطالعات آتی، میتوان از تکنیکهای پیچیدهتر همجوشی مانند توجه چندگانه (Multi-head Attention) یا شبکههای خودتوجهی (Self-attention) برای بهبود دقت مدل استفاده کرد. این روشها میتوانند همبستگیهای بیشتری بین ویژگیهای متنی و تصویری را در نظر گرفته و مدلسازی دقیقتری انجام دهند.
3. استفاده از دادههای واقعی و مقیاسپذیر: در این پژوهش، از دادههای شبیهسازی شده برای آزمایش مدل استفاده شد. برای بررسی کاربرد مدل در شرایط واقعی، پیشنهاد میشود از مجموعه دادههای واقعی و بزرگتری مانند مجموعه دادههای MovieLens با مقیاس بالاتر استفاده شود. دادههای واقعی با تنوع بیشتر میتوانند چالشهای جدیدی را برای مدل به همراه داشته باشند و موجب افزایش قابلیت تعمیمدهی مدل شوند.
4. ترکیب شبکههای عصبی گرافی با مدلهای دیگر: استفاده از ترکیبی از مدلهای شبکههای عصبی گرافی (GCN) با سایر مدلهای یادگیری عمیق مانند شبکههای عصبی بازگشتی (RNN) یا مدلهای ترنسفورمر میتواند عملکرد مدل را بهبود بخشد. بهویژه، استفاده از مدلهای ترنسفورمری میتواند با توجه به قابلیت آنها در استخراج ویژگیهای پیچیدهتر، دقت سیستمهای پیشنهاددهی را افزایش دهد.
5. توجه به قابلیت تفسیرپذیری مدل: یکی از چالشهای سیستمهای توصیهگر، توضیح دلایل پیشنهادها است. در تحقیقات آتی، میتوان از مدلهایی با تفسیرپذیری بیشتر استفاده کرد تا کاربران بتوانند دلایل پیشنهادها را بهتر درک کنند. این امر میتواند اعتماد کاربران به سیستم پیشنهاددهی را افزایش دهد.
6. ارزیابی با معیارهای متنوعتر: در این پژوهش، معیارهای خطا و MSE به عنوان معیارهای ارزیابی استفاده شدند. برای ارزیابی جامعتر مدل، پیشنهاد میشود از معیارهای دیگری مانند دقت (Precision)، بازخوانی (Recall) و نرخ کلیک (Click-Through Rate) استفاده شود. این معیارها میتوانند عملکرد مدل را از جنبههای مختلف بررسی کرده و نقاط ضعف و قوت آن را دقیقتر شناسایی کنند.
این پژوهش نشان داد که استفاده از شبکههای عصبی گرافی در سیستمهای توصیهگر فیلم میتواند کارایی و دقت توصیهها را بهبود دهد. با این حال، همچنان نیاز به بهینهسازی و آزمایشهای بیشتر برای رسیدن به مدلی پایدار و باثبات وجود دارد. ترکیب ویژگیهای چندوجهی با شبکههای عصبی گرافی، نتایج امیدوارکنندهای ارائه داد و میتواند بهعنوان مبنایی برای توسعه بیشتر مدلهای توصیهگر استفاده شود.
در نهایت، توسعه این مدلها و بهبود روشهای همجوشی ویژگیها در سیستمهای پیشنهاددهی میتواند منجر به ارائه پیشنهادهای دقیقتر و شخصیسازیشدهتر برای کاربران شود و تجربه کاربری بهتری را در محیطهای دیجیتال به ارمغان آورد.
تشکر و قدردانی
این پژوهش بدون حمایت یا مشارکت از سوی مؤسسات، افراد یا سازمانهای خاص انجام شده است.
فهرست منابع
[1]. Xia, L., Yang, Y., Chen, Z., Yang, Z., & Zhu, S. (2024). Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion. arXiv preprint arXiv:2407.09157.
[4]. Malitesta, D. (2024). Graph neural networks for recommendation leveraging multimodal information.
[1] Xia
[2] Wu
[3] Tokala
[4] Malitesta
[5] Burabak
[6] Aytekin
[7] Mabrouk
[8] He
[9] Wei
[10] Siet
[11] Kim
[12] Zhan
[13] Peng
[14] Li