ارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
محورهای موضوعی : مهندسی الکترونیکایمان جمالی 1 , سید جواد میرعابدینی 2 , علی هارون آبادی 3
1 - گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران
2 - عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران
3 - عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر
کلید واژه: Support vector machine, principal component analysis, Feature Selection, ماشین بردار پشتیبان, انتخاب ویژگی, تحلیل مولفه اصلی, Classification of texts, دسته بندی متون,
چکیده مقاله :
برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته ای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاک سازی متون به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگی ها وزن داده می شود و در طی دو مرحله ویژگی ها با استفاده از روش های فرکانس سند (DF) و مربع چی(SChi) انتخاب می شوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگی ها کاهش داده می شود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی می پردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحلهای ارزیابی می کنیم نتایج تجربی نشان می دهد که این مدل می تواند عمل دسته بندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد.
To classify text information extraction techniques, natural language processing and machine learning has been widely used general purpose of categories of documents, classified documents in the form of a certain number of categories are pre-determined. Each document can be in one, several or no category is placed. In the case of any document to this question will be placed the document on which of the categories. This can be in the form of an automatic learning to use it any document can be automatically assigned to a category. In this thesis, data collection and cleanup after you select text using the normal method of word frequency -inverse document frequency (norm TF-IDF) is the weight features and features in two stages using document frequency (DF) and Chi square (SChi) are selected, and then using principal component analysis (PCA) features reduced dimensions, and at a later stage by combining 21 support vector machine (SVM) the proposed model we have implemented, and the accuracy of the model to assess the 10-step method validation. Experimental results show that this model can text classification accuracy of 91.86 for the seven categories do, which has a higher accuracy than the earlier work done.
]1[ ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی PCA و الگوریتم ژنتیک،" کنفرانس ملی برق و الکترونیک، گناباد، 29-28 مرداد1394.
]2[ محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریه علمی پژوهشی انجمن کامپیوتر ایران، جلد 8 ، شماره 1 و3 ، صفحه 13-8، 1389.
]3[ محمدحسین. الهیمنش، و بهروز. مینایی، "ردهبندی متون فارسی با استفاده از روشهای آماری،" ارائه شده در سمینار فناوریهای پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90.
]4[ الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه های کامپیوتری، مدل سازی و امنیت سیستم ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر1392.
]5[ سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر1393.
]6[ مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند1385.
]7[ سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریه دانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385.
]8[ مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم های PCA , KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکرد های نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر1392.
]9[ محمد. صنیعی آباده، و همکاران، دادهکاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.
[10] A. Bagheri, and et al, “PSA: A Hybrid Feature Selection Approach for Persian Text Classification,” Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.
[12] B. Schölkopf, and et al, “Advances in Kernel Methods Support Vector Learning,” Cambridge, MA: MIT Press, 1998.
[13] B. E. Boser, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.
[14] N. Christiani, and et al, “An introduction to support vector machines,” Cambridge, MA: Cambridge University, 2000.
[15] J. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Technical Report MSR-TR-98-14, 1998.
[16] D. Ruta, and et al, “An Overview of Classifier Fusion Methods,” Computing and Information Systems, Vol. 7, pp. 1-10, 2000.
]1[ ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی PCA و الگوریتم ژنتیک،" کنفرانس ملی برق و الکترونیک، گناباد، 29-28 مرداد1394.
]2[ محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریه علمی پژوهشی انجمن کامپیوتر ایران، جلد 8 ، شماره 1 و3 ، صفحه 13-8، 1389.
]3[ محمدحسین. الهیمنش، و بهروز. مینایی، "ردهبندی متون فارسی با استفاده از روشهای آماری،" ارائه شده در سمینار فناوریهای پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90.
]4[ الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه های کامپیوتری، مدل سازی و امنیت سیستم ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر1392.
]5[ سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر1393.
]6[ مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند1385.
]7[ سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریه دانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385.
]8[ مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم های PCA , KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکرد های نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر1392.
]9[ محمد. صنیعی آباده، و همکاران، دادهکاوی کاربردی، تهران: انتشارات نیاز دانش، 1391.
[10] A. Bagheri, and et al, “PSA: A Hybrid Feature Selection Approach for Persian Text Classification,” Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.
[12] B. Schölkopf, and et al, “Advances in Kernel Methods Support Vector Learning,” Cambridge, MA: MIT Press, 1998.
[13] B. E. Boser, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.
[14] N. Christiani, and et al, “An introduction to support vector machines,” Cambridge, MA: Cambridge University, 2000.
[15] J. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Technical Report MSR-TR-98-14, 1998.
[16] D. Ruta, and et al, “An Overview of Classifier Fusion Methods,” Computing and Information Systems, Vol. 7, pp. 1-10, 2000.