رویکرد یادگیری اشتراکی بر مبنای شبکه های عصبی مبتنی بر توجه برای مشابهت یابی متون
محورهای موضوعی : سامانه های پردازشی و ارتباطی چند رسانه ای هوشمند
ابراهیم گنجعلی پور
1
(Department of Applied Mathematics and Computer Science,Lahijan Branch, Islamic Azad University,Lahijan,Iran)
امیر حسین رفاهی شیخانی
2
(Department of Applied Mathematics and Computer Science,Lahijan Branch, Islamic Azad University,Lahijan,Iran)
سهراب کردرستمی
3
(Department of Applied Mathematics and Computer Science,Lahijan Branch, Islamic Azad University,Lahijan,Iran)
علی اصغر حسین زاده
4
(Department of Applied Mathematics and Computer Science,Lahijan Branch, Islamic Azad University,Lahijan,Iran)
کلید واژه: پردازش زبان های طبیعی, مشابهت یابی معنایی متون, شبکه های عصبی مبتنی بر توجه, ترنسفورمر , اطلاعات مشترک نقطه ای,
چکیده مقاله :
مشابهت یابی معنایی متون (STS)یک وظیفه چالشبرانگیز در زبانهای با منابع دیجیتالی محدود است، دشواریهای اصلی ناشی از کمبود مجموعههای آموزشی دستهبندیشده و مشکلات مرتبط با آموزش مدلهای مؤثر است. در اینجا یک رویکرد یادگیری مشترک با استفاده از مدل خودتوجه بهبودیافته برای مقابله با چالش STS در ساختارهای زبانی (فاعل، مفعول، فعل) SOV و (فاعل، فعل، مفعول) SVO معرفی شده است. ابتدا یک مجموعه داده چندزبانه جامع با دادههای موازی برای زبانهای SOV و SVO را ایجاد کرده و تنوع زبانی گستردهای را تضمین میکنیم. ما یک مدل خودتوجه بهبودیافته با رمزگذاری نسبی موقعیت وزندار جدید غنیشده با تزریق اطلاعات همرخدادی از طریق عوامل اطلاعات مشترک نقطهای (PMI) معرفی میکنیم. علاوه بر این، ما از یک چارچوب یادگیری مشترک استفاده میکنیم که نمونه های مشترک بین زبانها را به منظور بهبود STS بین زبانی استفاده میکند. با آموزش همزمان در چندین جفت زبان، مدل ما توانایی انتقال دانش را به دست میآورد و به طور مؤثر پل ارتباطی بین زبانهای با ساختارهای متفاوت SOV و SVO ایجاد می کند. مدل پیشنهادی ما بر روی مجموعه دادههای STS- Benchmarks فارسی-انگلیسی و فارسی-فارسی ارزیابی شد و به ترتیب به ضریب همبستگی پیرسون 88.29٪ و 91.65٪ دستیافت. آزمایشهای انجامشده نشان میدهند که مدل پیشنهادی ما در مقایسه با مدلهای دیگر عملکرد بهتری داشته است. مطالعه کاهشی نیز نشان میدهد که سیستم ما قادر به همگرایی سریعتر است و کمتر مستعد بیش برازش است
Introduction: Semantic Textual Similarity (STS) across languages is a pivotal challenge in natural language processing, with applications ranging from plagiarism detection to machine translation. Despite significant strides in STS, it remains a formidable task in languages with distinct syntactic structures and limited digital resources. Linguistic diversity, especially in word order variation, poses unique challenges, exemplified by languages adhering to Subject-Object-Verb (SOV) or Subject-Verb-Object (SVO) patterns, compounded by complexities like pronoun-dropping. This paper addresses the intricate task of measuring STS in Persian, characterized by SOV word order and distinctive linguistic features. Method: We propose a novel joint learning approach, harnessing an enhanced self-attention model, to tackle the STS challenge in both SOV and SVO language structures. Our methodology involves establishing a comprehensive multilingual corpus with parallel data for SOV and SVO languages, ensuring a diverse representation of linguistic structures. An improved self-attention model is introduced, featuring weighted relative positional encoding and enriched context representations infused with co-occurrence information through pointwise mutual information (PMI) factors. A joint learning framework leverages shared representations across languages, facilitating effective knowledge transfer and bridging the linguistic gap between SOV and SVO languages. Results: Our model, trained on Persian-English and Persian-Persian language pairs simultaneously, successfully extracts informative features, explicitly considering differences in word order and pronoun-dropping. During the training, the batch is sampled from STS benchmark with English and Translated Persian Pair texts and fed into customized encoder to get attention matrix and output embeddings. Then, the similarity module predicts the STS score. We use the STS score to compute the Mean Square Error (MSE) loss. Evaluation on Persian-English and Persian-Persian STS-Benchmarks demonstrates impressive performance, achieving Pearson correlation coefficients of 89.51% and 92.47%, respectively. Comparative experiments reveal superior performance against existing models, emphasizing the effectiveness of our proposed approach. Discussion: The ablation study further substantiates the robustness of our system, showcasing faster convergence and reduced susceptibility to overfitting. The results underscore the significance of our enhanced model in addressing the complexities of measuring semantic similarity in languages with diverse linguistic structures and limited digital resources. The approach not only advances cross-lingual STS capabilities but also provides insights into handling syntactic variations, such as SOV and SVO word orders, and pronoun-dropping. This research opens avenues for future investigations into enhancing STS in languages with unique structural characteristics.