ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

الموضوعات :

ایمان جمالی ¹ , سید جواد میرعابدینی ² , علی هارون آبادی ³

1 - گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران
2 - عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران
3 - عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر

تاريخ الإرسال : 23 الجمعة , ذو القعدة, 1437 تاريخ التأكيد : 18 الأربعاء , شوال, 1438 تاريخ الإصدار : 06 الإثنين , جمادى الأولى, 1442

الکلمات المفتاحية: Support vector machine, principal component analysis, Feature Selection, ماشین بردار پشتیبان, انتخاب ویژگی, تحلیل مولفه اصلی, Classification of texts, دسته بندی متون,

ملخص المقالة :

برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته ای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاک سازی متون به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگی ها وزن داده می شود و در طی دو مرحله ویژگی ها با استفاده از روش های فرکانس سند (DF) و مربع چی(SChi) انتخاب می شوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگی ها کاهش داده می شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی می پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحله‌ای ارزیابی می کنیم نتایج تجربی نشان می دهد که این مدل می تواند عمل دسته بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.

المصادر:

]1[ ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی PCA و الگوریتم ژنتیک،" کنفرانس ملی برق و الکترونیک، گناباد، 29-28 مرداد1394.

]2[ محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریه علمی پژوهشی انجمن کامپیوتر ایران، جلد 8 ، شماره 1 و3 ، صفحه 13-8، 1389.

]3[ محمدحسین. الهی‌منش، و بهروز. مینایی، "رده‌بندی متون فارسی با استفاده از روش‌های آماری،" ارائه شده در سمینار فناوری‌های پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90.

]4[ الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه های کامپیوتری، مدل سازی و امنیت سیستم ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر1392.

]5[ سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر1393.

]6[ مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند1385.

]7[ سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریه دانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385.

]8[ مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم های PCA , KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکرد های نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر1392.

]9[ محمد. صنیعی آباده، و همکاران، دادهکاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.

[10] A. Bagheri, and et al, “PSA: A Hybrid Feature Selection Approach for Persian Text Classification,” Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.

[11] http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html.

[12] B. Schölkopf, and et al, “Advances in Kernel Methods Support Vector Learning,” Cambridge, MA: MIT Press, 1998.

[13] B. E. Boser, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.

[14] N. Christiani, and et al, “An introduction to support vector machines,” Cambridge, MA: Cambridge University, 2000.

[15] J. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Technical Report MSR-TR-98-14, 1998.

[16] D. Ruta, and et al, “An Overview of Classifier Fusion Methods,” Computing and Information Systems, Vol. 7, pp. 1-10, 2000.

_||_

]9[ محمد. صنیعی آباده، و همکاران، دادهکاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.

[10] A. Bagheri, and et al, “PSA: A Hybrid Feature Selection Approach for Persian Text Classification,” Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.

[11] http://ece.ut.ac.ir/dbrg/hamshahri/faindex.html.

[12] B. Schölkopf, and et al, “Advances in Kernel Methods Support Vector Learning,” Cambridge, MA: MIT Press, 1998.

[13] B. E. Boser, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.

[14] N. Christiani, and et al, “An introduction to support vector machines,” Cambridge, MA: Cambridge University, 2000.

[15] J. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Technical Report MSR-TR-98-14, 1998.

[16] D. Ruta, and et al, “An Overview of Classifier Fusion Methods,” Computing and Information Systems, Vol. 7, pp. 1-10, 2000.

شارک

عنوان URL للمقالة

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

سند

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية