یک الگوریتم انتخاب ویژگی برخط گروهی با استفاده از نظریه اطلاعات متقابل
محورهای موضوعی : سامانه های پردازشی و ارتباطی چند رسانه ای هوشمند
مریم رحمانی نیا
1
(گروه کامپیوتر دانشگاه آزاد اسلامی مرکز قصرشرین کرمانشاه ایران)
سندس بهادری
2
(استادیار گروه کامپیوتر دانشگاه ازاد واحد ایلام)
کلید واژه: الگوریتمهای انتخاب ویژگی گروهی برخط, دادههای با جریان برخط, اطلاعات متقابل,
چکیده مقاله :
امروزه ویژگی¬ها به¬صورت پیوسته و یکی¬یکی یا گروهی به مجموعه داده¬ها اضافه¬می¬شوند. این امر باعث افزایش بی¬رویه ابعاد داده¬های آموزشی می¬شود. روش¬های انتخاب ویژگی برخط، با انتخاب یک زیر مجموعه مهم از میان مجموعه ویژگی¬های دیده¬شده تا آن لحظه اندازه داده¬های آموزشی را کاهشمی¬دهند و در نتیجه عملکرد الگوریتم¬های یادگیری ماشین را بهبود می¬بخشند. اما به¬دلیل عدم¬قطعیت و ابهام در داده¬های آموزشی، روش¬های انتخاب ویژگی برخط موجود معمولاً از مشکلاتی مانند مقیاس¬پذیری، دقت پایین و زمان اجرای بالا رنج-می¬برند. همچنین بسیاری از این روش¬ها توانایی انتخاب ویژگی¬های مهم هنگامی که ویژگی¬ها به¬صورت گروهی به مجموعه داده¬ها اضافه-می¬شوند را ندارند. بنابراین در این مقاله، یک روش انتخاب ویژگی برخط گروهی بر اساس نظریه اطلاعات متقابل ارائه¬داده¬ایم. در روش پیشنهادی در ابتدا مقدار ارتباط هر یک از ویژگی¬های موجود در گروه تازه¬وارد شناسایی و سپس مقدار افزونگی ویژگی¬های انتخابی در گروه تازه¬وارد و مجموعه ویژگی¬هایی که قبلاً انتخاب¬شده محاسبه و ویژگی¬های اضافی حذف¬می¬شوند. نتایج به¬دست¬آمده توسط الگوریتم پیشنهادی در مقایسه با 3 الگوریتم انتخاب ویژگی برخط گروهی دیگر ارزیابی¬شده¬است. طبق نتایج حاصل، الگوریتم پیشنهادی کارایی بالاتری نسبت به سایر الگوریتم¬ها به¬دست¬آورده¬است.
Introduction: In the area of big data, the dimension of data in many fields are increasing dramatically. To deal with the high dimensions of training data, online feature selection algorithms are considered as very important issue in data mining. Recently, online feature selection methods have attracted a lot of attention from researchers. These algorithms deal with the process of selecting important and efficient features and removing redundant features without any pre-knowledge of the set of features. Despite all the progress in this field, there are still many challenges related to these algorithms. Among these challenges, we can mention scalability, minimum size of selected features, sufficient accuracy and execution time. On the other hand, in many real-world applications, features are entered into the dataset in groups and sequentially. Although many online feature selection algorithms have been presented so far, but none of them have been able to find trade of between these criteria. Method: In this paper, we propose a group online feature selection method with feature stream using two new measures of redundancy and relevancy using mutual information theory. Mutual information can compute linear and non-linear dependency between the variables. With the proposed method, we try to create a better tradeoff between all the challenges. Results: In order to show the effectiveness of the proposed online group feature selection method, a number of experiments have been conducted on six large multi-label training data sets named ALLAML, colon, SMK-CAN-187, credit-g, sonar and breast-cancer in different applications and 3 online group feature selection algorithms named FNE_OGSFS، Group-SAOLA and OGSFS which are presented recently. Also, 3 evaluation criteria including average accuracy using KNN (k - nearest neighborhood (, SVM (Support Vector Machine) and NB (Naïve Bayesian) classifiers, number of selected features and executing time were used as criteria for comparing the proposed method. According to the obtained results, the proposed algorithm has obtained better results in almost of cases compared to other algorithms which it shows the efficiency of the proposed method. Discussion: In this paper, we will show that proposed online group feature selection method will achieve better performance by considering label group dependency between the new arrival features.