A novel and Intelligent Ensemble Framework for Real-Time Detection and Adaptation to Concept Drift in Data Streams Using Incremental Decision Trees
Subject Areas : Computer Engineering and IT
هادی ترازودار
1
,
کرم الله باقری فرد
2
,
صمد نجاتیان
3
,
حمید پروین
4
,
سیه راضیه ملک حسینی
5
1 -
2 -
3 -
4 -
5 -
Keywords: Concept Drift, Data Stream, Incremental Decision Tree, Hoeffding, Ensemble Learning,
Abstract :
Learning from real-time data has been increasingly considered over the past decade. The change in data distribution in online learning, known as concept drift, reduces the accuracy of learning models and makes them ineffective in future predictions. This research aims to design and develop a novel ensemble incremental decision tree algorithm that is capable of detecting concept drift and automatically adapting to changes in data distribution. To achieve this goal, a new architecture of ensemble incremental decision tree is presented that uses an adaptive probabilistic sampling strategy to continuously monitor the pattern of data changes and automatically and in real time performs structural updates in the decision tree. Unlike traditional methods that respond reactively to changes, this approach has an active monitoring mechanism that enables early detection of concept drift by tracking changes in the model error function. In this way, the proposed model is able to maintain high accuracy even in streaming data scenarios with irregular changes. Extensive experiments were conducted on the dataset and the results show that the proposed method performs better than existing methods in several evaluation criteria including accuracy, recall, and precision.
[1] Quintana, D., Suárez-Cetrulo, L., & Cervantes, A. (2022) "A survey on machine learning for recurring concept drifting data streams." Expert Systems with Applications, 118934. [DOI: 10.1016/j.eswa.2022.118934]
[2] Žliobaitė, R. (2019). Vyresnio amžiaus žmonių informacijos apdorojimo greičio, atminties ir vykdomųjų funkcijų sąsajos su subjektyviais kognityviniais nusiskundimais ir depresiškumu (Doctoral dissertation, Vilniaus universitetas.).
[3] Hoeffding, W. (1994). Probability inequalities for sums of bounded random variables. The collected works of Wassily Hoeffding, 409-426.
[4] Gama, J., P. Medas, G. Castillo, and P. Rodrigues (2004). Learning with drift detection. In SBIA Brazilian Symposium on Artificial Intelligence, pp. 286–295. Springer
[5] Lu, J., Liu, A., Dong, F., Gu, F., Gama, J., & Zhang, G. (2018). Learning under concept drift: A review. IEEE transactions on knowledge and data engineering, 31(12), 2346-2363.
[6] Amin, M., Al-Obeidat, F., Tubaishat, A., Shah, B., Anwar, S., & Tanveer, T. A. (2023). Cyber security and beyond: Detecting malware and concept drift in AI-based sensor data streams using statistical techniques. Computers and Electrical Engineering, 108, 108702.
[7] Ko, A. H., Sabourin, R., & Britto Jr, A. S. (2008). From dynamic classifier selection to dynamic ensemble selection. Pattern recognition, 41(5), 1718-1731.
[8] Ikonomovska, E., Gama, J., Sebastião, R., & Gjorgjevik, D. (2009). Regression trees from data streams with drift detection. In Discovery Science: 12th International Conference, DS 2009, Porto, Portugal, October 3-5, 2009 12 (pp. 121-135). Springer Berlin Heidelberg.
[9] Bifet, A., & Gavalda, R. (2009). Adaptive learning from evolving data streams. In Advances in Intelligent Data Analysis VIII: 8th International Symposium on Intelligent Data Analysis, IDA 2009, Lyon, France, August 31-September 2, 2009. Proceedings 8 (pp. 249-260). Springer Berlin Heidelberg.
[10] Xu, Y., Xu, R., Yan, W., & Ardis, P. (2017, May). Concept drift learning with alternating learners. In 2017 International Joint Conference on Neural Networks (IJCNN) (pp. 2104-2111). IEEE.
[11] Pratama, M., Ashfahani, A., & Hady, A. (2019, December). Weakly supervised deep learning approach in streaming environments. In 2019 IEEE International Conference on Big Data (Big Data) (pp. 1195-1202). IEEE
[12] Pratama, M., Pedrycz, W., & Webb, G. I. (2019). An incremental construction of deep neuro fuzzy system for continual learning of nonstationary data streams. IEEE Transactions on Fuzzy Systems, 28(7), 1315-1328.
[13] Das, M., Pratama, M., Savitri, S., & Zhang, J. (2019, November). Muse-rnn: A multilayer self-evolving recurrent neural network for data stream classification. In 2019 IEEE International Conference on Data Mining (ICDM) (pp. 110-119). IEEE.
[14] Pratama, M., Za’in, C., Lughofer, E., Pardede, E., & Rahayu, D. A. (2021). Scalable teacher forcing network for semi-supervised large scale data streams. Information Sciences, 576, 407-431.
[15] Komorniczak, J., Zyblewski, P., & Ksieniewicz, P. (2022). Statistical drift detection ensemble for batch processing of data streams. Knowledge-Based Systems, 252, 109380.
[16] Yu, H., Liu, W., Lu, J., Wen, Y., Luo, X., & Zhang, G. (2023). Detecting group concept drift from multiple data streams. Pattern Recognition, 134, 109113.
[17] Tanha, J., Samadi, N., Abdi, Y., & Razzaghi-Asl, N. (2022). CPSSDS: Conformal prediction for semi-supervised classification on data streams. Information Sciences, 584, 212-234.
[18] da Silva, B. L. S., & Ciarelli, P. M. (2024). A fast online stacked regressor to handle concept drifts. Engineering Applications of Artificial Intelligence, 131, 107757.
[19] Cai, S., Zhao, Y., Hu, Y., Wu, J., Wu, J., Zhang, G., ... & Sosu, R. N. A. (2024). CD-BTMSE: A Concept Drift detection model based on Bidirectional Temporal Convolutional Network and Multi-Stacking Ensemble learning. Knowledge-Based Systems, 294, 111681.
[20] Arora, S., Rani, R., & Saxena, N. (2024). SETL: a transfer learning based dynamic ensemble classifier for concept drift detection in streaming data. Cluster Computing, 27(3), 3417-3432.
[21] Deng, D., Shen, W., Deng, Z., Li, T., & Liu, A. (2025). An Ensemble Learning Model Based on Three-Way Decision for Concept Drift Adaptation. Tsinghua Science and Technology, 30(5), 2029-2047.
[22] Kumar, A., Kaur, P., & Sharma, P. (2015). A survey on Hoeffding tree stream data classification algorithms. CPUH-Res. J, 1(2), 28-32.
[23] Banar, F., Tabatabaei, A., & Saleh, M. (2023, May). Stream Data Classification with Hoeffding Tree: An Ensemble Learning Approach. In 2023 9th International Conference on Web Research (ICWR) (pp. 208-213).
[24] Svoboda R et al (2023) A natural gas consumption forecasting system for continual learning scenarios based on Hoeffding trees with change point detection mechanism. arXiv preprint. arXiv:2309
[25] Gonçalves Jr, P. M., de Carvalho Santos, S. G., Barros, R. S., & Vieira, D. C. (2014). A comparative study on concept drift detectors. Expert Systems with Applications, 41(18), 8144-8156.
[26] Weinberg, A. I., & Last, M. (2023). Enhat—synergy of a tree-based ensemble with hoeffding adaptive tree for dynamic data streams mining. Information Fusion, 89, 397-404.
[27] Ouyang, Z., Zhou, M., Wang, T., & Wu, Q. (2009, November). Mining concept-drifting and noisy data streams using ensemble classifiers. In 2009 International Conference on Artificial Intelligence and Computational Intelligence (Vol. 4, pp. 360-364). IEEE
[28] Lucas, J. M., & Saccucci, M. S. (1990). Exponentially weighted moving average control schemes: properties and enhancements. Technometrics, 32(1), 1-12.
[29] Ikonomovska, E., & Gama, J. (2008, October). Learning model trees from data streams. In International Conference on Discovery Science (pp. 52-63). Berlin, Heidelberg: Springer Berlin Heidelberg.
[30] Ikonomovska E, Gama J, Džeroski S. (2011).Learning model trees from evolving data streams. Data Mining and Knowledge Discovery 2011, 23: 128–168
[31] Gomes, H. M., Barddal, J. P., Enembreck, F., & Bifet, A. (2017). A survey on ensemble learning for data stream classification. ACM Computing Surveys (CSUR), 50(2), 1-36.
[32] Ikonomovska, E., Gama, J., & Džeroski, S. (2015). Online tree-based ensembles and option trees for regression on evolving data streams. Neurocomputing, 150, 458-470
[33] Gomes, H. M., Barddal, J. P., Ferreira, L. E. B., & Bifet, A. (2018, April). Adaptive random forests for data stream regression. In ESANN.
[34] Kumar, M., Khan, S. A., Bhatia, A., Sharma, V., & Jain, P. (2023, February). Machine learning algorithms: A conceptual review. In 2023 1st International Conference on Intelligent Computing and Research Trends (ICRT) (pp. 1-7). IEEE.
[35] Zhong, Y., Zhou, J., Li, P., & Gong, J. (2023). Dynamically evolving deep neural networks with continuous online learning. Information Sciences, 646, 119411.
[36] Wu, Y., Liu, L., Yu, Y., Chen, G., & Hu, J. (2023). An Adaptive Ensemble Framework for Addressing Concept Drift in IoT Data Streams. Authorea Preprints.
[37] Liu, Wenzheng, et al. "An Adaptive Hoeffding Tree Model Based on Differential Entropy and Relative Entropy for Concept Drift Detection." 2024 International Joint Conference on Neural Networks (IJCNN). IEEE, 2024.
[38] Gama J, Rocha R, Medas P.(2003). Accurate decision trees for mining high-speed data streams. In: ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Washington DC: ACM; 2003, 523–528.
[39] Littlestone, N., & Warmuth, M. K. (1994). The weighted majority algorithm. Information and computation, 108(2), 212-261.
A novel and Intelligent Ensemble Framework for Real-Time …/ Tarazodar, H., et. al.
A novel and Intelligent Ensemble Framework for Real-Time Detection and Adaptation to Concept Drift in Data Streams Using Incremental Decision Trees
Hadi Tarazodar1, Karamollah Bagherifard*2, Samad Nejatian3, Hamid Parvin4, Razieh Malekhosseini5
1 Department of computer Engineering ,Yas.C., Islamic Azad University ,Yasuj, Iran
2 Department of computer Engineering ,Yas.C., Islamic Azad University ,Yasuj, Iran
3 Department of Electrical Engineering ,Yas.C., Islamic Azad University ,Yasuj, Iran
4 Department of computer Engineering , NoM.C., Islamic Azad University , Noorabad Mamasani, Iran
5 Department of computer Engineering ,Yas.C., Islamic Azad University ,Yasuj, Iran
Abstract: Learning from real-time data has been increasingly considered over the past decade. The change in data distribution in online learning, known as concept drift, reduces the accuracy of learning models and makes them ineffective in future predictions. This research aims to design and develop a novel ensemble incremental decision tree algorithm that is capable of detecting concept drift and automatically adapting to changes in data distribution. To achieve this goal, a new architecture of ensemble incremental decision tree is presented that uses an adaptive probabilistic sampling strategy to continuously monitor the pattern of data changes and automatically and in real time performs structural updates in the decision tree. Unlike traditional methods that respond reactively to changes, this approach has an active monitoring mechanism that enables early detection of concept drift by tracking changes in the model error function. In this way, the proposed model is able to maintain high accuracy even in streaming data scenarios with irregular changes. Extensive experiments were conducted on the dataset and the results show that the proposed method performs better than existing methods in several evaluation criteria including accuracy, recall, and precision.
Keywords: Concept Drift, Data Stream, Incremental Decision Tree, Hoeffding, Ensemble Learning
JCDSA, Vol. 3, No. 2, Summer 2025 | Online ISSN: 2981-1295 | Journal Homepage: https://sanad.iau.ir/en/Journal/jcdsa |
Received: 2025-07-09 | Accepted: 2025-09-11 | Published: 2025-09-21 |
CITATION | Tarazodar, H., et. al., " A novel and Intelligent Ensemble Framework for Real-Time Detection and Adaptation to Concept Drift in Data Streams Using Incremental Decision Trees", Journal of Circuits, Data and Systems Analysis (JCDSA), Vol. 3, No. 2, pp. 57-72, 2025. DOI: 00.00000/0000 | |
COPYRIGHTS
| ©2025 by the authors. Published by the Islamic Azad University Shiraz Branch. This article is an open-access article distributed under the terms and conditions of the Creative Commons Attribution 4.0 International (CC BY 4.0) |
* Corresponding author
Extended Abstract
1- Introduction
The rise of real-time data streams in various domains such as finance, healthcare, cybersecurity, and e-commerce has emphasized the importance of adaptive machine learning models. Traditional models, which rely on stationary data distributions, are often inadequate in these settings due to concept drift — a phenomenon where the statistical properties of the target variable change over time. This drift can be sudden, gradual, recurring, or incremental and severely impacts the predictive performance of static models. Existing methods often rely on reactive strategies that adapt only after detecting a significant loss in performance, which may not be optimal in high-speed or highly dynamic data environments.To address these challenges, this paper proposes a novel ensemble-based incremental decision tree architecture designed for both concept drift detection and real-time adaptation. The model enhances traditional Hoeffding Trees by integrating multithreaded learning, adaptive sampling, and active drift monitoring. It aims to maintain high accuracy and robustness while processing data streams with evolving patterns and limited storage capacity.
2- Methodology
The proposed algorithm is structured into five integrated phases, aiming to provide accurate, adaptive, and efficient learning in streaming environments. In the first phase, multithreaded learning is implemented using an ensemble of incremental Hoeffding Trees (HTs), where each thread processes data independently to achieve low-latency updates. The second phase focuses on managing leaf nodes and their counters, which track feature-value-label statistics. These counters enable real-time decision-making, and structural updates are triggered when localized error deviations are detected.The third phase introduces ensemble consensus and adaptive probabilistic sampling. Final predictions are obtained through majority voting across trees, with each tree trained on different data subsets selected via a dynamic sampling strategy. This promotes diversity among models and enhances generalization. The fourth phase incorporates a hybrid concept drift adaptation mechanism, combining proactive monitoring of error trends with reactive structural adjustments. Subtrees exhibiting performance degradation are retrained or replaced automatically to restore accuracy.The fifth phase implements a sliding sample buffer that stores recent data points for efficient reuse. This buffer allows rapid retraining of affected submodels when drift occurs, improving recovery speed without overloading memory resources. Altogether, the five-phase methodology offers a robust, scalable framework capable of maintaining high predictive performance and real-time adaptability in dynamic data stream environments.
3- Results and discussion
The proposed ensemble-based incremental decision tree model was evaluated on widely used benchmark data stream datasets, including SEA, Hyperplane, Electricity, and CovType. These datasets cover various types of concept drift scenarios such as sudden, gradual, and recurring drifts. The model consistently outperformed baseline methods like HAT, FIMT-DD, and ARF-Reg across key metrics including classification accuracy, precision, recall, and drift adaptation latency. The results showed that the proposed approach maintains high predictive performance even as data distributions evolve over time. The multithreaded implementation contributed significantly to runtime efficiency, reducing sample processing time by 30–50% compared to single-threaded models. Adaptive probabilistic sampling improved data diversity within the ensemble, enhancing generalization and robustness. Ensemble majority voting also proved effective in mitigating the impact of noise and irrelevant features, delivering stable predictions under challenging stream conditions. Another key advantage was the sample buffer mechanism, which facilitated quick retraining of underperforming trees without requiring full model resets. This enabled faster recovery from concept drift and maintained model responsiveness in real-time applications. Overall, the results confirm that the integration of parallel learning, adaptive sampling, and drift-aware model updates provides a scalable and resilient solution for data stream classification in dynamic environments
4- Conclusion
This paper proposed an adaptive, ensemble-based incremental decision tree model for effective concept drift detection and adaptation in data streams. The integration of multithreaded learning, adaptive sampling, and buffer-driven retraining led to improved accuracy, fast response to drift, and efficient resource usage. The model proved suitable for real-time, evolving environments such as fraud detection and sensor networks. Future extensions may explore hybrid models and broader data types.
یک چارچوب گروهی نوین و هوشمند برای شناسایی و انطباق بلادرنگ با رانش مفهومی در جریان دادهها با استفاده از درخت تصمیمگیری افزایشی
هادی ترازودار1، کرم اله باقری فرد21، صمد نجاتیان3، حمید پروین4، راضیه ملک حسینی5
1- گروه مهندسی کامپیوتر، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران (Hadi.Tarazodar@iau.ac.ir)
2- گروه مهندسی کامپیوتر، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران (Ka.bagherifard@iau.ac.ir)
3- گروه مهندسی برق، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران (Sa.nejatian@iau.ac.ir)
4- گروه مهندسی کامپیوتر، واحد نورآباد ممسنی، دانشگاه آزاد اسلامی، نورآباد ممسنی ، ایران (Parvin@iaut.ac.ir)
5- گروه مهندسی کامپیوتر، واحد یاسوج، دانشگاه آزاد اسلامی، یاسوج، ایران (Malekhoseini.r@iau.ac.ir)
چکیده: یادگیری از دادههای بلادرنگ از دهه گذشته به طور فزایندهای موردتوجه قرار گرفته است تغییر در توزیع دادهها در یادگیری آنلاین که بنام رانش مفهوم شناخته میشود باعث کاهش دقت مدلهای یادگیری و ناکارآمدی آنها در پیشبینیهای آینده میشود. این تحقیق باهدف طراحی و توسعه یک الگوریتم درخت تصمیمگیری افزایشی گروهی نوین ارائه شده است که قادر به شناسایی رانش مفهومی و انطباق خودکار با تغییرات توزیع دادهها باشد. برای نیل به این هدف، یک معماری جدید از درخت تصمیمگیری افزایشی گروهی ارائه شده است که با بهرهگیری از یک استراتژی نمونهبرداری احتمالی تطبیقی، الگوی تغییرات دادهها را بهصورت مداوم پایش کرده و بهروزرسانیهای ساختاری در درخت تصمیم را به طور خودکار و بلادرنگ انجام میدهد. این رویکرد برخلاف روشهای سنتی که واکنشی به تغییرات پاسخ میدهند، دارای یک مکانیزم نظارت فعال است که از طریق رهگیری تغییرات تابع خطای مدل، امکان شناسایی زودهنگام رانش مفهومی را فراهم میکند. بهاینترتیب، مدل پیشنهادی قادر است در سناریوهای دادههای جریانی با تغییرات نامنظم نیز دقت بالایی را حفظ کند. آزمایشهای گستردهای روی مجموعهدادهها انجام شد و نتایج نشان میدهد که روش پیشنهادی در چندین معیار ارزیابی از جمله دقت، حساسیت و صحت عملکرد بهتری نسبت به روشهای موجود دارد.
واژه های کلیدی: رانش مفهومی، جریان داده، درخت تصمیمگیری افزایشی، هافدینگ، یادگیری گروهی
DOI: 00.00000/0000 |
| نوع مقاله: پژوهشی |
تاریخ چاپ مقاله: 31/06/1404 | تاریخ پذیرش مقاله: 20/06/1404 | تاریخ ارسال مقاله: 18/04/1404 |
[1] نویسنده مسئول
1- مقدمه
یادگیری ماشین، بهعنوان یکی از زیرشاخههای مهم علوم کامپیوتر، طی سالهای اخیر پیشرفت چشمگیری را تجربه کرده است و در کاربردهای متعددی از تشخیص الگوهای پیچیده تا سامانههای تصمیمگیری مبتنی بر داده مورداستفاده قرار گرفته است ]1.[ در حوزه یادگیری ماشین، مدلها بهطورکلی برای تخمین تابع هدف طراحی شدهاند که در آن
فضای ویژگیها و
فضای برچسبها است. در شرایط ایدهآل، توزیع دادههای آموزشی و تست یکسان در نظر گرفته میشود، اما در محیطهای واقعی، این توزیع در طول زمان دستخوش تغییر میشود که این پدیده تحت عنوان رانش مفهوم شناخته میشود ]2[. تحقیقات موجود روشها و الگوریتمهای مختلفی را با هدف تشخیص رانش مفهوم و تسهیل انطباق مدل معرفی کردهاند. در این میان، الگوریتمهای مبتنی بر کران هافدینگ ]3[ گامهای قابل توجهی در تنظیمات یادگیری آنلاین برداشتهاند. با این وجود، یک خلأ آشکار در حوزه مدلهای رگرسیون مبتنی بر درخت، از جمله درختهای رگرسیون و درختهای مدل با تشخیص رانش باقی میماند. علاوه بر این، کار تجربی محدودی قلمرو مدلهای چند هدفه آنلاین را در زمینه جریانهای داده بررسی کرده است. برای پرداختن به این شکافهای مهم و ارائه یک رویکرد جدید برای تشخیص رانش مفهومی و انطباق در جریانهای داده، یک الگوریتم درخت تصمیم ابتکاری و افزایشی ارائه میکنیم. این الگوریتم به طور خاص برای یادگیری درختهای رگرسیون و درختهای مدل از جریانهای داده پویا طراحی شده است که با جذب دادهها با سرعت بالا و پتانسیل ورود دادههای نامحدود مشخص میشود. رویکرد ما چندین عنصر پیشگام را معرفی میکند که آن را از روشهای موجود متمایز میکند.
سنگ بنای نوآوری ما در تشخیص فعال رانش مفهوم نهفته است. بهجای اینکه صرفاً به اشتباهات پیشبینی افزایشیافته واکنشی نشان دهیم، یک استراتژی جدید پیشنهاد میکنیم. ما به طور مداوم کیفیت و عملکرد زیر درختهای جداگانه در درخت تصمیم را با ردیابی تحول خطای آنها نظارت میکنیم. این امکان تشخیص زودهنگام تغییرات در تابع هدف اساسی را فراهم میکند و باعث سازگاری بهموقع در ساختار مدل میشود. کار ما فراتر از تشخیص رانش مفهومی است. ما یک استراتژی نمونهگیری تعریفشده احتمالی را برای بهبود فرآیند یادگیری معرفی میکنیم و آن را در گرفتن اطلاعات مرتبط از جریانهای داده کارآمدتر میکنیم. علاوه بر این، ما یک روش خودکار پیشرفته را ارائه میکنیم که قادر به مدیریت برازنده توزیعهای دادههای غیر ثابت - یک اتفاق رایج در جریانهای داده پویا است. از طریق آزمایش و ارزیابی جامع، ما عملکرد برتر الگوریتم پیشنهادی خود را به نمایش میگذاریم. ما کارایی آن را از نظر دقت پیشبینی، امتیاز فیشر، صحت، اندازه مدل و قابلیتهای تشخیص تغییر نشان میدهیم. در انجام این کار، ما نه تنها یک رقیب قدرتمند برای طبقهبندیکنندههای جریان موجود ارائه میکنیم، بلکه با مقابله مستقیم با چالش فراگیر رانش مفهومی در جریانهای داده، سهم قابلتوجهی در زمینه در حال تکامل یادگیری ماشینی داریم.
بقیه این مقاله به شرح زیر سازماندهی شده است: بخش دوم پیشزمینه و کارهای مرتبط ارائه میدهد. بخش سوم روش پیشنهادی را توضیح میدهد. بخش چهار نتایج ارزیابی را ارائه میدهد و به دنبال آن بحث و مقایسه نتایج ارائه میشود. در نهایت، بخش پنجم مقاله نتیجهگیری و توصیههایی برای تحقیقات آتی ارائه میدهد.
2- پیش زمینه و کارهای مرتبط
رانش مفهوم زمانی رخ میدهد که توزیع شرطی دادهها تغییر کند، بهطوری که مدل پیشبینیگر دیگر نتواند با دقت اولیه خود عمل کند ]4[. این مسئله در سیستمهای نظارتی، تشخیص تقلب، بازارهای مالی و بسیاری از حوزههای دیگر چالشبرانگیز است. رانش مفهوم ممکن است ناگهانی، تدریجی، بازگشتی یا افزایشی باشد که هر یک، استراتژیهای خاصی را برای تطبیق مدلها میطلبد ]5[. مقاله حاضر به ارائه رویکردی مبتنی بر درخت تصمیم تطبیقی میپردازد که توانایی شناسایی و جبران رانش مفهوم را در محیطهای پویا دارد. بهمنظور مدیریت رانش مفهوم، لازم است ابتدا انواع آن بهدرستی تشخیص داده شود. بر اساس مطالعات گذشته ]5 و6[، رانش مفهوم به چهار دستة کلی تقسیم میشود:
1. رانش مفهوم ناگهانی1: تغییرات ناگهانی و غیرمنتظره در توزیع دادهها، بهطوری که مدل قبلی بلافاصله ناکارآمد میشود:
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
(6) |
|
Algorithm 1: Phase 1 - Low Latency Multithreaded Consensus Learning
Input: DataStream: Input data stream Hoeffding Trees: List of incremental Hoeffding Trees Number of Threads: N
Output: Final Prediction: Consensus prediction
Initialize N worker threads
For each worker thread i from 1 to N do: Create a sample buffer i End For while DataStream is not empty do: For each worker thread i from 1 to N do: Read next data sample Data i from DataStream Add Data i to sample buffer i End For End while For each Hoeffding Tree Learner j in Hoeffding Trees do: Train Learner j asynchronously on sample buffer i End For Wait for all threads to finish training
Initialize Predictions array Predictions j for each Learner j
For each Learner j in Hoeffding Trees do: Predictions j = Predict(Learner j , Data i ) for each Data i in on sample buffer i
End For FinalPrediction = CombinePredictions (Predictions 1 , Predictions 2 , … , Predictions L)
Output FinalPrediction
End Algorith |
شکل (1): شبه کد برای فاز 1 روش پیشنهادی
3-2- فاز 2: برگها و شمارندهها
در این مرحله، به عبارات جبری حاکم بر برگها و شمارندهها در رویکرد نوآورانه خود برای یادگیری جریان داده پویا میپردازیم. این مؤلفهها در دستیابی به یادگیری مدل کارآمد و دقیق مؤثر هستند. نمادهای ریاضی رسمی را بدین صورت معرفی کنیم:
L : تعداد کل برچسبها، جایی که
N : تعداد کل ویژگی که در آن
: تعداد کل مقادیر ویژگی ممکن، که در آن
هر شمارنده مربوط به یکj برچسب،i ویژگی و k مقدار ویژگی خاص است. هدف آن محاسبه وقوع ویژگی i با فرض مقدار k درون برچسب j است. به طور رسمی، این میتواند بهصورت زیر بیان شود:
(7) |
|
(8) |
|
(9) |
|
Algorithm2: Phase 2 - Leaves and Counters
Input: L: Total number of labels N Total number of attributes V0 : Total number of possible attribute values
Output: Leaf Counters: Counters for each label, attribute, and attribute value Total Attribute Counts: Total counts of attributes for each label
Initialize Leaf Counters and Total Attribute Counts arrays
For each label j from 0 to L-1 do: For each attribute i from 0 to N-1 do: For each attribute value k from 0 to V0-1 do:
Leaf Counters [j][i][k]=0 // Initialize counters to zero
For each label j from 0 to L-1 do: For each attribute i from 0 to N-1 do: For each data sample D in the dataset do: If D.Lable [i] == j then: Total Attribute Counts [j] [i] + = 1
For each attribute value K from 0 to V0-1 do:
If D.attributes [i] == k then: Leaf Counters [j] [i] [k] + = 1 End Algorithm |
شکل (2) : شبه کد فاز دوم از مرحله پیشنهادی
شکل (3): مکانیسم اجماع درختان تصمیمگیری رگرسیون در روش پیشنهادی
این مرحله علاوه بر توضیح فرایند ایجاد اجماع، مفهوم دستیابی به تنوع در گروه درختان را معرفی میکند. رویکرد ما بهجای تکیه بر زیرمجموعههای متنوع نمونههای تولید شده توسط روشهای نمونهگیری، بر ایجاد تنوع در خود گروه تمرکز دارد. این تنوع شامل اعضایی شامل درختان رگرسیون متمایز است که بهصورت پویا و تطبیقی در زمان واقعی بر اساس ویژگیهای در حال تحول درختهای رگرسیون افزایشی تولید میشوند. تنوع طبقهبندیکنندهها در گروه تضمین میکند که هر طبقهبندیکننده پیشبینیهای منحصربهفردی را ارائه میدهد. به طور معمول، ترکیب چنین طبقهبندیکنندههای متنوعی منجر به بهبود عملکرد کلی میشود. یک روش متداول برای جمعآوری پیشبینیهای اعضای گروه از طریق اکثریت آرا است. در سادهترین شکل، این شامل یک سیستم دموکراتیک است که در آن تصمیم نهایی بر اساس اجماع اکثریت است. بااینحال، رویکرد ما با تخصیص وزنهای مختلف به طبقهبندیکنندههای منفرد در گروه فراتر میرود و هر کدام را بهعنوان یک خبره مجزا در نظر میگیریم. این مفهوم سنتی رأی اکثریت را گسترش میدهد و فرایند تصمیمگیری دقیقتری را ارائه میدهد.
کار ]40[ مزایای رأی اکثریت وزنی را نشان داد. آنها روش آبشاری17 را بهعنوان افزایشی برای رأیگیری اکثریت وزنی معرفی کردند. بااینحال، این روشها یک گروه بسته را در نظر میگیرند که در آن هر یک از اعضای گروه دارای دانش قبلی از همه کلاسها هستند. مشکل "شروع سرد"18 زمانی پدیدار میشود که یک عضو جدید گروه با دانش کلاسی که قبلاً برای اعضای موجود شناخته نشده بود به آن ملحق شود. اکثریت آرای اعضای فعلی ممکن است غالب باشد که منجر به پیشبینیهای نادرست میشود تا زمانی که طبقهبندیکنندهها با دانش قبلی از طبقه جدید نفوذ کافی را جمع کنند. برای پرداختن به این موضوع در سناریوهای باز، ما یک رویکرد جدید رأی اکثریت وزنی را پیشنهاد میکنیم. روش گروهی پیشنهادی ما به طور خاص با مشکل شروع سرد زمانی که اکثر طبقهبندیکنندهها در گروه فاقد دانش یک کلاس خاص هستند، مقابله میکند. الگوریتم 3 و 4 که به ترتیب در شکل 5 و 6 ارائه شده است، شبه کد این روش ابتکاری را تشریح میکند. در این رویکرد، ما از معیار ماهالانوبیس19 برای اندازهگیری فاصله بین نمونههای آزمایشی و مرکز توزیع نقطه داده در هر منطقه از مجموعه داده اصلی استفاده میکنیم. اگر یک نقطه داده آزمایشی در همان منطقه از فضای داده بهعنوان طبقهبندیکننده آموزشدیده باشد، در نظر گرفته میشود که اطمینان بیشتری در پیشبینیهای خود دارد. در نتیجه، فرایند طبقهبندی وزن بیشتری را به منطقه با کمترین فاصله ماهالانوبیس تا نقطه داده آزمون اختصاص میدهد. روش پیشنهادی ما با ذخیره ماتریسهای میانگین و کوواریانس20 مجموعه آموزشی، کارایی محاسباتی را افزایش میدهد که کارآمدتر از ذخیره کل مجموعهداده است. پارامتر بهعنوان کسری عمل میکند که کاهش وزن را کنترل میکند. به طور خلاصه، فاز 3 بر دستیابی به اجماع در میان درختان رگرسیون افزایشی، توضیح در مورد فرآیند ایجاد اجماع و معرفی استراتژیهای نوآورانه برای افزایش تنوع، سازگاری و دقت در یادگیری جریان دادههای پویا تمرکز دارد.
Algorithm 3: Phase 3- Incremental Regression Tree Weighted Majority Vote System Input: Initialize all weights wi= 1 . Output: A final predictive decision. For each round: Given a set of predictions Calculate a new prediction Pi using multiple incremental regression trees (i.w). Update the history of predictions.
Penalize each mistake made by an expert as follows:
End | ||||||||
این الگوریتم فرایند رأی اکثریت وزنی برای یادگیری گروهی را با درختان رگرسیون افزایشی ترسیم میکند. در هر دور، پیشبینیهای چند خبره (درخت) را با درنظرگرفتن وزنهای مربوطه ترکیب میکند. وزنها برای جریمهکردن اشتباهات و کنترل تأثیر آنها بر تصمیم نهایی تنظیم میشوند، جایی که یک کسر از پیش تعریف شده است. پیشبینی نهایی از طریق این فرایند تکراری به دست میآید. |
Algorithm 4: Multiple Incremental Regression Tree Input: Output: A probability for the confidence weight of the 1. For each prediction of the committee with data Compute the Mahalanobis distance
Where,
Calculate the inverse Mahalanobis distance
2. Compute the posterior distribution of the weight |
در این الگوریتم، وزن اطمینان را برای عضو i- اجماع درختان رگرسیون افزایشی بر اساس فاصله ماهالانوبیس بین p نقطه داده و مرکز توزیع داده برای آن عضو محاسبه میکنیم. سپس فاصله معکوس ماهالانوبیس محاسبه میشود که سطح اطمینان را منعکس میکند. وزن اطمینان نهایی با مدل سازی توزیع پسین بر اساس این اطمینان به دست می آید. |
شکل (5) : شبه کد درخت رگرسیون افزایشی چندگانه
3-4- فاز 4: یادگیری گروهی نخی چندگانه
روش ما برای استفاده از قدرت پردازندههای چندهستهای مدرن طراحی شده است و درعینحال به رانش مفهوم و بهینهسازی ترکیب رأیگیری میپردازد:
1-استراتژی های مدیریت رانش مفهومی: در رویکرد خود، ما از استراتژی بازنشانی درختی پویا برای رسیدگی به رانش مفهومی استفاده میکنیم. هنگامی که تغییر قابل توجهی در توزیع داده ها شناسایی شد، درخت تصمیم را بازنشانی میکنیم. این به صورت ریاضی به صورت زیر نمایش داده می شود:
(10) |
|
(11) |
|
Algorithm 5: Phase 4- Multi-threaded Ensemble Learning Input: N: Number of threads Ensemble: List of L learners DataStream: Input data stream Output: Final Prediction: Ensemble prediction Initialize N worker threads For each worker thread I from 1 to N do: Create a sample buffer i End For while DataStream is not empty do: For each worker thread Read next data sample Data i from DataStream Add Data i to samble Buffer i End For End while For each Learner j from 1 to L do: Train Learner j asynchronously on samble Buffer i Loss = Calculate Loss (Learner j , samble Buffer j ) // Loss calculation End For Wait for all threads to finish training Initialize Predictions array Predictions j for each Learner j For each Learner j from 1 to L do: Predictions j = Predict ( Learner j , Data i ) FinalPrediction = CombinePredictions (Predictions 1 , Predictions 2 , … , Predictions L) Output FinalPrediction End For End Algorithm |
شکل (6) : شبه کد برای فاز 4 از روش پیشنهادی
شکل (7) : طراحی اجماع یادگیرندگان و چند نخی
3-5- فاز 5: بافر نمونه
بافر نمونه، یک جزء حیاتی در طراحی اجماع چند نخی، نقشی محوری در بهینهسازی پردازش جریانهای داده پویا ایفا میکند. طراحی نمونه بافر ما با الهام از معماری LMAX ، یک بافر حلقه معروف با تأخیر کم، بر اشتراکگذاری دادهها به طور مؤثر در سراسر نخها، کاهش اختلاف و افزایش مقیاسپذیری تمرکز دارد. در معماری LMAX ، هر نخ دارای یک شماره دنباله منحصربهفرد است که برای دسترسی به بافر حلقه استفاده میشود. برای بهحداقلرساندن مشاجره نوشتن، طرح LMAX از اصل "نویسنده تک" پیروی میکند، عملیات اتمی برای دستیابی به اعداد دنباله استفاده میشود و حداقل یک معناشناسی پیشرفت را تضمین میکند که اغلب در ساختارهای داده بدون قفل مشاهده میشود.
طراحی نمونه بافر: شکل (8) طرح نمونه بافر را نشان می دهد که از بافر حلقه LMAX مدل شده است. Head اشارهگر آخرین عنصر حلقه را نشان میدهد و تنها در صورتی که شرط برقرار باشد توسط نخ تجزیهکننده داده نوشته میشود. این نشان میدهد که می توان یک عنصر جدید به بافر اضافه کرد. هر نخ کارگر که با
نشان داده میشود، شماره دنباله
خود را حفظ میکند، که نشاندهنده آخرین نمونه پردازش شده توسط آن کارگر است. نخ تجزیه بافر سراسری با استفاده از کمترین مقدار
در میان همه کارگران، «Tail» را تعیین میکند و دسترسی همگام را تضمین میکند.
پردازش دستهای: برای بهحداقلرساندن سربار ناشی از عملیات اتمی، طراحی ما به نخهای کارگر اجازه میدهد تا نمونهها را از بافر حلقه بهصورت دستهای واکشی کنند. اندازه دسته، بسته به مقادیر و Head برای هر کارگر متفاوت است.
در شکل (8) طراحی بافر نمونه احتمالاً ساختار یا مکانیزم دادهای را برای ذخیره و مدیریت نمونهها یا نمونههای داده نشان میدهد. شفافسازی می تواند مستلزم جزئیات نحوه پر شدن، نگهداری و استفاده از بافر نمونه در الگوریتم باشد.
پردازش و ترکیب: ترکیب در روش اجماع پیشنهادی ما مسئول نمونهبرداری مجدد از موارد بافر، انجام استنتاج تصادفی HT، و بازنشانی یادگیرندگان در هنگام شناسایی رانش است. به هر نخ کارگر تعدادی یادگیرنده اختصاص مییابد که بهصورت ایستا توزیع میشوند و اطمینان حاصل میشود که عدم تعادل بار از طریق تصادفیسازی در نمونهها و ساخت HT کاهش مییابد.
ساختار بافر: هر ورودی در بافر حلقه نمونه ورودی را ذخیره میکند و برای هر کارگر یک بافر برای ذخیره خروجی طبقهبندیکنندههای اختصاصدادهشده اختصاص داده میشود. برای بهحداقلرساندن دسترسی به این بافر، هر کارگر بهصورت محلی خروجیهای یادگیرندگان اختصاصدادهشده خود را برای هر نمونه ترکیب میکند. هنگامی که تمام یادگیرندگان اختصاصدادهشده به پایان رسید، کارگر نتیجه ترکیب را در بافر مینویسد.
شمارنده: دو نوع از تابع شمارنده پیادهسازی شده است (شکل (9)). در opt1 , برچسب هر نماد در جریان ورودی تعداد نمادهایی است که از آخرین صفر (و 0 هنگام ظاهر شدن نماد صفر) ظاهر شده اند. در opt2، برچسب تنها زمانی که یک صفر در جریان ورودی ظاهر میشود با 0 متفاوت است، در این مورد تعداد نمادها از زمان ظهور صفر قبلی برمیگردد. جریان ورودی یک توالی تصادفی از نماد صفر و یک است که بهدنبال یک توزیع طبیعی تولید میشود. شبه کد فاز 5 روش پیشنهادی در شکل (10) نشان داده شده است.
شکل (8): طراحی بافر نمونه
شکل (9): تابع تولیدکننده شمارنده
Algorithm 6: Phase 5- Sample Buffer Design
Input: Number of worker threads: N Maximum number of samples in the buffer: # samples Worker thread ID: ID
Output: Sample buffer operations for each worker
Initialize Head to 0 Initialize LastProcessed [ID] to 0 to 0
while true do: if (Head-Tail ) < # samples then: Read next data sample Data i from DataStream Add Data i to Ring Buffer at position Head Head ++ if (Head - LastProcessed [ID] ) >=BatchSize then: Process Batch of Data from LastProcessed [ID] to Head Update LastProcessed [ID] to head Perform Random HT Inference on the Batch Reset Learner on Drift Detection
if Drift Detected then: Reset Learner and Update LastProcessed [ID] accordingly End Algorithm
|
شکل (10) : شبه کد برای فاز 5 از روش پیشنهادی
4- نتایج
برای ارزیابی الگوریتم ما از چند مجموعهداده مصنوعی و واقعی استفاده میکنیم: مجموعهداده مصنوعی فریدمن، Losc و Lexp. برای معیار ارزیابی خطا، دقت با استفاده از معیارهای زیر اندازهگیری میشود: خطای نسبی (RE)، ریشه خطای مربع نسبی (RRSE) و ضریب همبستگی (CC). ما تعداد کل گرهها و تعداد گرههای در حال رشد را بیشتر اندازهگیری میکنیم. هنگام یادگیری تحت رانش مفهومی، تعداد هشدارهای نادرست، تشخیص اشتباه و تأخیرها را اندازهگیری میکنیم.
4-1- نتایج ارزیابی در سناریو1
کیفیت مدلها: ازآنجاییکه 10 مجموعه داده واقعی نسبتاً کوچک هستند، ارزیابی با استفاده از روش اعتبارسنجی متقاطع ده لایه استاندارد انجام شد که در آن لایههای یکسان برای همه الگوریتمها استفاده شد. برای انجام یک تحلیل منصفانه و ارزیابی اثر مدلهای خطی در برگها، دو مقایسه جداگانه انجام شد. چهار نوع اصلی الگوریتم ما با خود و با سایر الگوریتمها مقایسه شد: نوع اصلی FIMT-DD شامل مدلهای خطی در برگها و تشخیص رانش است. FIRT-DD مدل خطی در برگها ندارد، FIMT تشخیص رانش ندارد و FIRT مدل خطی در برگها و تشخیص رانش ندارد. ابتدا، FIRT و M5'با گزینه انتخاب رگرسیون (M5'RT) مقایسه شد. دوم، FIMT با M5′ با گزینه درخت رگرسیون (M5′RT)، روش رگرسیون LR، الگوریتم تجاری CUBIST و چهار الگوریتم برای یادگیری درختان مدل ارائه شده در دو نوع یادگیرنده دستهای (RD دستهای و RA دستهای) و دو یادگیرنده افزایشی (RD آنلاین و RA آنلاین) مقایسه شدند.
ما همچنین از دو نوع FIMT استفاده کردیم: FIMT-const با نرخ یادگیری ثابت و FIMT-Decent با کاهش نرخ یادگیری. نتایج عملکرد یادگیرندگان مدل درختی به طور میانگین در 10 مجموعه داده در جدول (2) نشان داده شده است. FIMT-Decent و FIMT-const دقتی مشابه LR دارند، در حالیکه بقیه یادگیرندگان بهتر هستند. همچنین نشان داد که بین روشهای FIMT و RA آنلاین و دستهبندیRA و RD آنلاین تفاوت معناداری وجود ندارد. تفاوت معناداری در دقت بین M5'RT، CUBIST و دستهبندی RD در مقایسه با FIMT و LR وجود داشت، در حالی که تفاوت معناداری در مقایسه با دستهبندی RA، RA آنلاین و RD آنلاین وجود نداشت. همچنین مشاهده شد که مدلهای خطی در برگها به ندرت دقت درخت رگرسیون افزایشی را در این مجموعه دادههای واقعی کوچک بهبود میبخشد. این میتواند به این دلیل باشد که سطح رگرسیون برای این مجموعه داده ها هموار نیست. بزرگترین مدلها به طور متوسط توسط M5′RT و دستهبندی RD تولید میشوند، یادگیرندگان آنلاین نسبت به همتایان کلاس خود دقت کمتری دارند. روش پیشنهادی مزیت سرعت قابلتوجهی نسبت به تمامی یادگیرندگان دارد. مزیت دیگر روش پیشنهادی این است که می تواند با حافظه محدود یاد بگیرد، در حالی که سایر الگوریتمها این گزینه را ارائه نمیدهند.
جدول (1): مجموعه داده 1
مجموعهداده | تعداد رکوردها | تعداد متغیر عددی | تعداد متغیر طبقه بندی | تعداد کل طبقه بندی |
ABALONE | 4.98E3 | 8 | 1 | 3 |
AILERONS | 1.38E4 | 41 | 0 | 0 |
CAL_HOUSING | 2.05E4 | 9 | 0 | 0 |
ELEVATORS | 1.66E4 | 19 | 0 | 0 |
HOUSE_8L | 2.28E4 | 9 | 0 | 0 |
HOUSE_16H | 2.28E4 | 17 | 0 | 0 |
MV_DELVE | 4.10E4 | 8 | 3 | 7 |
POL | 1.56E4 | 49 | 0 | 0 |
WIND | 6.57E3 | 13 | 2 | 43 |
WINEQUALITY | 5.30E3 | 12 | 0 | 0 |
FRIED | 1.00E6 | 10 | 0 | 0 |
Lexp | 300000 | 5 | - | - |
Losc | 300000 | 5 | - | - |
Expo | 116000000 | 13 | - | - |
جدول (2): نتایج ارزیابی متقابل 10 لایه بهطور میانگین در مجموعه دادههای واقعی
CC | Time (s) | Leaves | RRSE% | RE% | Algorithm |
0.85 | 29.54 | 76.71 | 46.09 | 42.10 | M5'RT |
0.74 | 2.59 | 1.00 | 63.01 | 60.48 | LR |
0.75 | 1.02 | 20.67 | - | 48.75 | CUBIST |
070 | 0.42 | 35.54 | 104.01 | 60.21 | FIMT_Const |
0.73 | 0.42 | 35.54 | 74.11 | 59.40 | FIMT_Decent |
0.85 | 6.13 | 55.58 | 45.27 | 41.84 | BachRD |
0.81 | 2.24 | 22.85 | 53.39 | 50.22 | BachRA |
0.80 | 32.67 | 9.98 | 53.26 | 49.77 | OnlineRD |
0.82 | 3.08 | 12.78 | 52.03 | 48.18 | OnlineRA |
0.97 | 12.25 | 38.12 | 26.85 | 24.63 | Proposed |
جدول (3): نتایج ارزیابی Holdout به طور میانگین در 1000k/300k مجموعه داده ساختگی
CC | Time (s) | Leaves | RRSE% | RE% | Algorithm |
0.98 | 24.75 | 2452.23 | 0.19 | 0.16 | FIRT |
0.98 | 104.79 | 37.50 | - | 0.13 | CUBIST |
0.98 | 27.11 | 2452.23 | 0.14 | 0.11 | FIM'T Const |
0.98 | 26.93 | 2452.23 | 0.14 | 0.11 | FIMT-Decent |
0.83 | 2468.61 | 1.00 | 0.51 | 0.46 | LR |
0.00 | 5234.85 | 27286.30 | 0.10 | 0.08 | BatchRD |
0.51 | 2316.03 | 56.97 | 0.69 | 0.71 | BatchRA |
0.98 | 3099.82 | 6579.50 | 0.13 | 0.10 | OnlineRD |
0.53 | 2360.56 | 57.77 | 0.68 | 0.70 | OnlineRA |
0.99 | 1400.36 | 42.75 | 0.25 | 0.20 | Proposed |
برای مسائل ساختگی ما 10 مجموعه داده تصادفی، هر کدام با 1 میلیون نمونه، با مجموعه آزمایشی مجزا از 300 k نمونه تولید کردیم. همه الگوریتمها با استفاده از لایههای مشابه آموزش و آزمایش شدند. نتایج جدول 3 نشان میدهد که الگوریتمهای افزایشی میتوانند به دقت بهتری نسبت به الگوریتمهای CUBIST، LR و RA دستهای دست یابند. مدلهای خطی در برگها دقت FIMT را بهبود میبخشد زیرا اکنون در حال مدلسازی سطوح هموار هستیم. درختان مدل FIMT-const و FIMT-Decent دقت مشابهی با RD آنلاین دارند. اما از نظر اندازه و زمان یادگیری حداقل 100 برابر کوچکتر هستند.
نمای انحراف - واریانس: یک ابزار بسیار مفید برای ارزیابی کیفیت مدلها، تحلیل انحراف - واریانس میانگین مربعات خطا است. مولفه انحراف خطا نشانه توانایی ذاتی روش در مدلسازی پدیده مورد مطالعه و مستقل از مجموعه آموزشی است. مؤلفه واریانس خطا مستقل از مقدار واقعی متغیر پیشبینیشده است و تغییرپذیری پیشبینیها را با توجه به مجموعههای آموزشی مختلف اندازهگیری میکند. آزمایشها برای همه مجموعههای داده واقعی در همان لایههای مورد استفاده در ارزیابی متقابل و برای مجموعه دادههای ساختگی در همان مجموعههای آموزشی و همان مجموعه آزمایشی انجام شد.
روش آزمایش به شرح زیر است: ما 10 مجموعه آموزشی مستقل را آموزش میدهیم و پیشبینی مدلهای مربوطه را در مجموعه آزمایشی ثبت میکنیم. سپس از آن پیشبینیها برای محاسبه انحراف و واریانس استفاده میکنیم. جدول (4) نمای انحراف واریانس مدلهای آموختهشده توسط FIRT، FIMT-const ، RD آنلاین، و روش پیشنهادی را نشان میدهد. نتایج نشان میدهد که تغییر پذیری (تنوع) کمتر آنها را در پیشبینیها با توجه به مجموعههای آموزشی مختلف توجیه میکند. این نشان میدهد که درختان ساخته شده به صورت تدریجی پایدارتر هستند و کمتر به انتخاب دادههای آموزشی وابسته هستند.
4-2- نتایج ارزیابی در سناریو 2
در این بخش، از هشت مجموعه داده شامل چهار مجموعه داده واقعی و چهار مجموعه داده مصنوعی استفاده شده است، که مشخصات آنها در جدول (5) آمده است. در میان مجموعه دادههای مصنوعی، مجموعه داده SEA به عنوان پایه اصلی مورد استفاده قرار گرفته است. همچنین، برای گسترش مجموعه دادهها، سه نسخه تکمیلی از SEA با نامهای SEA-1، SEA-2 و SEA-3 تولید شدهاند که ویژگیهای اصلی مجموعه داده SEA را حفظ کردهاند. شکل (11) مقایسه جامعی از نتایج دقت بین روش پیشنهادی و مدلها را با استفاده از بهترین درختها با اندازه گروهی 5 در طیف متنوعی از مجموعههای داده و اندازههای مجموعه داده ارائه میکند. تجزیهوتحلیل این شکل چندین مشاهدات قابل توجه به دست میدهد.
نمودار به طور واضح نشان میدهد که روش پیشنهادی به طور مداوم از مدل گروهی با اندازه گروهی 5 و الگوریتم EnHAT از نظر دقت بهتر عمل میکند. شکل (12) نشاندهنده برتری مداوم روش پیشنهادی از نظر دقت در مقایسه با مدل گروهی با اندازه گروه ۱۰ است. این روش در مجموعه دادهها و اندازههای مختلف عملکرد پایداری دارد و دقت بالایی را حفظ میکند. نتایج نشان میدهد که روش پیشنهادی در طبقهبندی دادههای جریانی حتی با وجود تغییر الگوها نیز عملکرد قابل اعتمادی دارد. این یافتهها بر استحکام و کاربرد عملی بالای روش پیشنهادی تأکید میکنند.
شکل (13) عملکرد روش پیشنهادی را از نظر دقت، حساسیت و معیار فیشر با سایر روشها مقایسه میکند. نتایج نشان میدهد که روش پیشنهادی در بیشتر مجموعه دادهها دقت رقابتی و عملکردی پایدار و قابل مقایسه یا بهتر از الگوریتمهایی مانند CUBIST، OnlineRD، FIRT_Const و FIRT دارد. همچنین، میزان پوشش بالا نشاندهنده توانایی آن در شناسایی مؤثر نمونههای مرتبط است. امتیاز فیشر نیز تعادل مناسب بین دقت و حساسیت را نشان میدهد و عملکرد روش پیشنهادی را در مقایسه با سایر روشها برتر یا همتراز نشان میدهد. شکل (14) نشاندهنده مقایسه روش پیشنهادی با سایر روشها از نظر مقیاسپذیری است. نتایج حاکی از برتری مداوم الگوریتم پیشنهادی در معیارهایی مانند دقت، حساسیت و معیار فیشر در مجموعه دادههای مختلف است. این الگوریتم توانایی بالایی در مدیریت جریانهای داده پویا و متغیر دارد. همچنین، از نظر سرعت پردازش و مصرف حافظه عملکرد بهتری داشته و برای کاربردهای بلادرنگ بسیار مناسب است
جدول (4): تجزیه و تحلیل انحراف - واریانس میانگین مربعات خطا برای مجموعه دادههای واقعی و مصنوعی
Proposed | OnlineRD | FIMT_Const | FIRT | Dataset | ||||
Variance | Bias | Variance | Bias | Variance | Bias | Variance | Bias | |
0.32E+01 | 0.40E+01 | 0.53E401 | 1.17E+01 | 0.39E+01 | 1.22@401 | 0.41E+01 | 1.19E+01 | Abalone |
0.00E+00 | 0.00E+00 | 0.00E400 | 0.00E+00 | 4.00E.06 | 1.00E-06 | 0,00E400 | 0.00E400 | Ailerons |
8.63E+01 | 8.96E+01 | 9.71E+01 | 9.79E+01 | 9.83E+01 | 9.83E+01 | 9.68E+01 | 9.80E+01 | Mv _delve |
2.98E+01 | 1.56E+01 | 3.20E+01 | 4.20E+01 | 3.59E+01 | 4.29E+01 | 2.64E+01 | 4.26E+01 | Wind |
0.98E+08 | 5.15E+09 | 7.93E+09 | 1.25E+10 | 7.75E+09 | 1.25E+10 | 7.51E+09 | 1.27E+10 | Cal_housing |
1.87E+09 | 0.96E+08 | 1.35E+09 | 2.59E+09 | 1.55E+09 | 2.59E+09 | 1.42E+09 | 2.58E+09 | House_8L |
1.23F+09 | 0.90E+09 | 0.93E+09 | 2.61E+09 | 1.21E+09 | 2.61E+09 | 1.09E+09 | 2.61E+09 | House_16H |
0.32E-03 | 0.15E-03 | 0.36E-04 | 0.37E-04 | 1.98E-04 | 0.59E-04 | 0.19E-04 | 0.38E-04 | Elevators |
0.92E+06 | 0.78E+03 | 0.96E+03 | 1.60E+03 | 1.50E+03 | 1.58E+03 | 1.42E+03 | 1.58E+03 | Pol |
0.438+01 | 0.12E+02 | 0.24E+00 | 0.69E+00 | 0.31E+00 | 0.71E+00 | 0.21E+00 | 0.72E+00 | Winequality |
1.32E-03 | 1.15E-03 | 1.30E-02 | 9.80E-01 | 4.30E-01 | 1.40E+00 | 9.20E-01 | 1.62B+00 | Fried |
1.12E+06 | 1.08E+03 | 1.05E-03 | 1.25E-03 | 1.90E-03 | 5.57E-04 | 4.88E-02 | 2.75E-02 | Lexp |
1.138+01 | 1.10E+02 | 1.20E-05 | 1.90E-01 | 1.95E-02 | 9.61E-02 | 2.18E-02 | 1.02E-01 | Losc |
جدول (5): مجموعه دادههای جریانی مورد استفاده برای ارزیابی تجربی.
ID | UCI Dataset Name | Samples | Attributes | Classes |
DS1 | Poker Hand | 1,025,010 | 11 | 9 |
DS2 | Electricity | 45,312 | 9 | 2 |
DS3 | CoverType | 581,012 | 54 | 7 |
DS4 | AirLines | 539,383 | 18 | 2 |
DS5 | SEA Concepts | 60,000 | 3 | 3 |
شکل (11): مقایسه بین دقت روش پیشنهادی و مدلسازی بهترین درختان با اندازه گروه 5
شکل (12): مقایسه بین دقت روش پیشنهادی و مدلسازی بهترین درختان با اندازه گروه 10
شکل (13): مقایسه روشهای مختلف در مجموعه داده های مختلف
شکل (14) : فشردهسازی مقیاسپذیری الگوریتم
5- نتیجه
در این مقاله، یک الگوریتم افزایشی برای استخراج مدلهای باکیفیت از مجموعه دادههای کوچک و نویزدار پیشنهاد شده است. این روش با کاهش نیاز به دادههای زیاد، مدلهایی مشابه مدلهای مبتنی بر کل داده تولید میکند. الگوریتم پیشنهادی شامل پنج فاز است و نتایج شبیهسازی، برتری آن را نسبت به روشهای دیگر نشان میدهد. این الگوریتم در طبقهبندی دادههای جریانی از نظر دقت، زمان یادگیری و مقیاسپذیری با سایر الگوریتمها مقایسه شده و نتایج حاکی از عملکرد برتر آن، بهویژه در شرایط رانش مفهومی و تغییرات داده، هستند.
1. دقت الگوریتم پیشنهادی در مجموعه دادههای مختلف از جمله دادههای جریانی با رانش مفهوم، و دادههای با نویز بهطور قابلتوجهی بالاتر از دیگر الگوریتمها از جمله Online RD و FIRT است. بهویژه، در مواجهه با رانشهای ناگهانی یا تدریجی
2. زمان یادگیری الگوریتم پیشنهادی نسبت به دیگر الگوریتمهای موجود، زمان یادگیری کوتاهتری داشت.
3. مقیاسپذیری الگوریتم پیشنهادی در مقایسه با دیگر الگوریتمها در مدیریت منابع محاسباتی و حافظه مؤثرتر عمل کرده است.
4. توانایی الگوریتم پیشنهادی در مدیریت دادههای غیرثابت از نظر شناسایی و انطباق سریع با این تغییرات.
5. روش پیشنهادی در مقایسه با دیگر الگوریتمها توانایی بیشتری در شناسایی و کنار گذاشتن نویز و دادههای متناقض نشان داد.
موارد زیر در کارهای آتی نیز پیشنهاد میشود :
1. پیشبینی و شبیهسازی رانشهای پیچیدهتر با استفاده از الگوریتمهای مبتنی بر شبکههای عصبی و مدلهای پیچیدهتر
2. استفاده از دادههای مقیاس بزرگ که دادهها را بهصورت موازی و با استفاده از پردازندههای گرافیکی و توزیعشده پردازش کنند.
3. افزایش کارایی مدلها در تعاملات پیچیده دادهها با توسعه مدلهایی که قادر به شبیهسازی تعاملات پیچیده دادهها باشند مانند روشهای هوش مصنوعی و الگوریتمهای مبتنی بر گراف
4. پیشرفت در تکنیکهای شناسایی رانشهای زمانبر و دقیق با استفاده از روشهای شناسایی
مراجع
[1] Quintana, D., Suárez-Cetrulo, L., & Cervantes, A. (2022) "A survey on machine learning for recurring concept drifting data streams." Expert Systems with Applications, 118934. [DOI: 10.1016/j.eswa.2022.118934]
[2] Žliobaitė, R. (2019). Vyresnio amžiaus žmonių informacijos apdorojimo greičio, atminties ir vykdomųjų funkcijų sąsajos su subjektyviais kognityviniais nusiskundimais ir depresiškumu (Doctoral dissertation, Vilniaus universitetas.).
[3] Hoeffding, W. (1994). Probability inequalities for sums of bounded random variables. The collected works of Wassily Hoeffding, 409-426.
[4] Gama, J., P. Medas, G. Castillo, and P. Rodrigues (2004). Learning with drift detection. In SBIA Brazilian Symposium on Artificial Intelligence, pp. 286–295. Springer
[5] Lu, J., Liu, A., Dong, F., Gu, F., Gama, J., & Zhang, G. (2018). Learning under concept drift: A review. IEEE transactions on knowledge and data engineering, 31(12), 2346-2363.
[6] Amin, M., Al-Obeidat, F., Tubaishat, A., Shah, B., Anwar, S., & Tanveer, T. A. (2023). Cyber security and beyond: Detecting malware and concept drift in AI-based sensor data streams using statistical techniques. Computers and Electrical Engineering, 108, 108702.
[7] Ko, A. H., Sabourin, R., & Britto Jr, A. S. (2008). From dynamic classifier selection to dynamic ensemble selection. Pattern recognition, 41(5), 1718-1731.
[8] Ikonomovska, E., Gama, J., Sebastião, R., & Gjorgjevik, D. (2009). Regression trees from data streams with drift detection. In Discovery Science: 12th International Conference, DS 2009, Porto, Portugal, October 3-5, 2009 12 (pp. 121-135). Springer Berlin Heidelberg.
[9] Bifet, A., & Gavalda, R. (2009). Adaptive learning from evolving data streams. In Advances in Intelligent Data Analysis VIII: 8th International Symposium on Intelligent Data Analysis, IDA 2009, Lyon, France, August 31-September 2, 2009. Proceedings 8 (pp. 249-260). Springer Berlin Heidelberg.
[10] Xu, Y., Xu, R., Yan, W., & Ardis, P. (2017, May). Concept drift learning with alternating learners. In 2017 International Joint Conference on Neural Networks (IJCNN) (pp. 2104-2111). IEEE.
[11] Pratama, M., Ashfahani, A., & Hady, A. (2019, December). Weakly supervised deep learning approach in streaming environments. In 2019 IEEE International Conference on Big Data (Big Data) (pp. 1195-1202). IEEE
[12] Pratama, M., Pedrycz, W., & Webb, G. I. (2019). An incremental construction of deep neuro fuzzy system for continual learning of nonstationary data streams. IEEE Transactions on Fuzzy Systems, 28(7), 1315-1328.
[13] Das, M., Pratama, M., Savitri, S., & Zhang, J. (2019, November). Muse-rnn: A multilayer self-evolving recurrent neural network for data stream classification. In 2019 IEEE International Conference on Data Mining (ICDM) (pp. 110-119). IEEE.
[14] Pratama, M., Za’in, C., Lughofer, E., Pardede, E., & Rahayu, D. A. (2021). Scalable teacher forcing network for semi-supervised large scale data streams. Information Sciences, 576, 407-431.
[15] Komorniczak, J., Zyblewski, P., & Ksieniewicz, P. (2022). Statistical drift detection ensemble for batch processing of data streams. Knowledge-Based Systems, 252, 109380.
[16] Yu, H., Liu, W., Lu, J., Wen, Y., Luo, X., & Zhang, G. (2023). Detecting group concept drift from multiple data streams. Pattern Recognition, 134, 109113.
[17] Tanha, J., Samadi, N., Abdi, Y., & Razzaghi-Asl, N. (2022). CPSSDS: Conformal prediction for semi-supervised classification on data streams. Information Sciences, 584, 212-234.
[18] da Silva, B. L. S., & Ciarelli, P. M. (2024). A fast online stacked regressor to handle concept drifts. Engineering Applications of Artificial Intelligence, 131, 107757.
[19] Cai, S., Zhao, Y., Hu, Y., Wu, J., Wu, J., Zhang, G., ... & Sosu, R. N. A. (2024). CD-BTMSE: A Concept Drift detection model based on Bidirectional Temporal Convolutional Network and Multi-Stacking Ensemble learning. Knowledge-Based Systems, 294, 111681.
[20] Arora, S., Rani, R., & Saxena, N. (2024). SETL: a transfer learning based dynamic ensemble classifier for concept drift detection in streaming data. Cluster Computing, 27(3), 3417-3432.
[21] Deng, D., Shen, W., Deng, Z., Li, T., & Liu, A. (2025). An Ensemble Learning Model Based on Three-Way Decision for Concept Drift Adaptation. Tsinghua Science and Technology, 30(5), 2029-2047.
[22] Kumar, A., Kaur, P., & Sharma, P. (2015). A survey on Hoeffding tree stream data classification algorithms. CPUH-Res. J, 1(2), 28-32.
[23] Banar, F., Tabatabaei, A., & Saleh, M. (2023, May). Stream Data Classification with Hoeffding Tree: An Ensemble Learning Approach. In 2023 9th International Conference on Web Research (ICWR) (pp. 208-213).
[24] Svoboda R et al (2023) A natural gas consumption forecasting system for continual learning scenarios based on Hoeffding trees with change point detection mechanism. arXiv preprint. arXiv:2309
[25] Gonçalves Jr, P. M., de Carvalho Santos, S. G., Barros, R. S., & Vieira, D. C. (2014). A comparative study on concept drift detectors. Expert Systems with Applications, 41(18), 8144-8156.
[26] Weinberg, A. I., & Last, M. (2023). Enhat—synergy of a tree-based ensemble with hoeffding adaptive tree for dynamic data streams mining. Information Fusion, 89, 397-404.
[27] Ouyang, Z., Zhou, M., Wang, T., & Wu, Q. (2009, November). Mining concept-drifting and noisy data streams using ensemble classifiers. In 2009 International Conference on Artificial Intelligence and Computational Intelligence (Vol. 4, pp. 360-364). IEEE
[28] Lucas, J. M., & Saccucci, M. S. (1990). Exponentially weighted moving average control schemes: properties and enhancements. Technometrics, 32(1), 1-12.
[29] Ikonomovska, E., & Gama, J. (2008, October). Learning model trees from data streams. In International Conference on Discovery Science (pp. 52-63). Berlin, Heidelberg: Springer Berlin Heidelberg.
[30] Ikonomovska E, Gama J, Džeroski S. (2011).Learning model trees from evolving data streams. Data Mining and Knowledge Discovery 2011, 23: 128–168
[31] Gomes, H. M., Barddal, J. P., Enembreck, F., & Bifet, A. (2017). A survey on ensemble learning for data stream classification. ACM Computing Surveys (CSUR), 50(2), 1-36.
[32] Ikonomovska, E., Gama, J., & Džeroski, S. (2015). Online tree-based ensembles and option trees for regression on evolving data streams. Neurocomputing, 150, 458-470
[33] Gomes, H. M., Barddal, J. P., Ferreira, L. E. B., & Bifet, A. (2018, April). Adaptive random forests for data stream regression. In ESANN.
[34] Kumar, M., Khan, S. A., Bhatia, A., Sharma, V., & Jain, P. (2023, February). Machine learning algorithms: A conceptual review. In 2023 1st International Conference on Intelligent Computing and Research Trends (ICRT) (pp. 1-7). IEEE.
[35] Zhong, Y., Zhou, J., Li, P., & Gong, J. (2023). Dynamically evolving deep neural networks with continuous online learning. Information Sciences, 646, 119411.
[36] Wu, Y., Liu, L., Yu, Y., Chen, G., & Hu, J. (2023). An Adaptive Ensemble Framework for Addressing Concept Drift in IoT Data Streams. Authorea Preprints.
[37] Liu, Wenzheng, et al. "An Adaptive Hoeffding Tree Model Based on Differential Entropy and Relative Entropy for Concept Drift Detection." 2024 International Joint Conference on Neural Networks (IJCNN). IEEE, 2024.
[38] Gama J, Rocha R, Medas P.(2003). Accurate decision trees for mining high-speed data streams. In: ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Washington DC: ACM; 2003, 523–528.
[39] Littlestone, N., & Warmuth, M. K. (1994). The weighted majority algorithm. Information and computation, 108(2), 212-261.
[1] Sudden Drift
[2] Gradual Drift
[3] Recurring Drift
[4] IncrementalDrift
[5] group drift detection method
[6] Conformal prediction for semi-supervised classification on data streams
[7] Online Sequential Fast Deep Stacked Network
[8] Concept Drift detection based on Bidirectional Temporal convolutional network and Multi-Stacking Ensemble
[9] Bidirectional Temporal Convolutional Network
[10] Online Random Forest
[11] Adaptive random forest-Regression
[12] Adaptive random forest
[13] Binary classification
[14] Cache
[15] Single instruction, multiple data
[16] RAM
[17] Cascade
[18] Cold start
[19] Mahalanobis distance
[20] Covariance
[21] Parser
[22] worker