مشابهت یابی معنایی متون (STS)یک وظیفه چالشبرانگیز در زبانهای با منابع دیجیتالی محدود است، دشواریهای اصلی ناشی از کمبود مجموعههای آموزشی دستهبندیشده و مشکلات مرتبط با آموزش مدلهای مؤثر است. در اینجا یک رویکرد یادگیری مشترک با استفاده از مدل خودتوجه بهبودیافته برا چکیده کامل
مشابهت یابی معنایی متون (STS)یک وظیفه چالشبرانگیز در زبانهای با منابع دیجیتالی محدود است، دشواریهای اصلی ناشی از کمبود مجموعههای آموزشی دستهبندیشده و مشکلات مرتبط با آموزش مدلهای مؤثر است. در اینجا یک رویکرد یادگیری مشترک با استفاده از مدل خودتوجه بهبودیافته برای مقابله با چالش STS در ساختارهای زبانی (فاعل، مفعول، فعل) SOV و (فاعل، فعل، مفعول) SVO معرفی شده است. ابتدا یک مجموعه داده چندزبانه جامع با دادههای موازی برای زبانهای SOV و SVO را ایجاد کرده و تنوع زبانی گستردهای را تضمین میکنیم. ما یک مدل خودتوجه بهبودیافته با رمزگذاری نسبی موقعیت وزندار جدید غنیشده با تزریق اطلاعات همرخدادی از طریق عوامل اطلاعات مشترک نقطهای (PMI) معرفی میکنیم. علاوه بر این، ما از یک چارچوب یادگیری مشترک استفاده میکنیم که نمونه های مشترک بین زبانها را به منظور بهبود STS بین زبانی استفاده میکند. با آموزش همزمان در چندین جفت زبان، مدل ما توانایی انتقال دانش را به دست میآورد و به طور مؤثر پل ارتباطی بین زبانهای با ساختارهای متفاوت SOV و SVO ایجاد می کند. مدل پیشنهادی ما بر روی مجموعه دادههای STS- Benchmarks فارسی-انگلیسی و فارسی-فارسی ارزیابی شد و به ترتیب به ضریب همبستگی پیرسون 88.29٪ و 91.65٪ دستیافت. آزمایشهای انجامشده نشان میدهند که مدل پیشنهادی ما در مقایسه با مدلهای دیگر عملکرد بهتری داشته است. مطالعه کاهشی نیز نشان میدهد که سیستم ما قادر به همگرایی سریعتر است و کمتر مستعد بیش برازش است
پرونده مقاله