طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی
محورهای موضوعی : فناوری های نوین در سیستم های توزیع شده و محاسبات الگوریتمی
1 - گروه آموزش ریاضی، دانشگاه فرهنگیان، تهران، ایران
کلید واژه: سیستمهای توزیع شده, پردازش بیگ دیتا, الگوریتمهای هوش مصنوعی, بهبود عملکرد, کارایی سیستمها,
چکیده مقاله :
در این مقاله، به بررسی طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی پرداخته شده است. با توجه به رشد رو به افزایش حجم دادهها در دنیای امروز، استفاده از این سیستمها و الگوریتمهای هوش مصنوعی برای پردازش دادهها اهمیت بیشتری یافته است. نتایج به دست آمده نشان میدهد که این روشها میتوانند بهبود قابل توجهی در عملکرد پردازش بیگ دیتا ایجاد کنند و از مزایای قابل توجهی برای سازمانها و شرکتها به دنبال داشته باشند. این مقاله نشان میدهد که استفاده از سیستمهای توزیع شده و الگوریتمهای هوش مصنوعی میتواند بهبود قابل توجهی در عملکرد و کارایی سیستمها و برنامههای مختلف ایجاد کند.
[1] Aminizadeh, S., Heidari, A., Toumaj, S., Darbandi, M., Navimipour, N. J., Rezaei, M., ... & Unal, M. (2023). The applications of machine learning techniques in medical data processing based on distributed computing and the Internet of Things. Computer methods and programs in biomedicine, 107745.
[2] Al-Jumaili, A. H. A., Muniyandi, R. C., Hasan, M. K., Paw, J. K. S., & Singh, M. J. (2023). Big data analytics using cloud computing based frameworks for power management systems: Status, constraints, and future recommendations. Sensors, 23(6), 2952.
[3] Khang, A., Gupta, S. K., Rani, S., & Karras, D. A. (Eds.). (2023). Smart Cities: IoT Technologies, big data solutions, cloud platforms, and cybersecurity techniques. CRC Press.
[4] Manikandan, N., Tadiboina, S. N., Khan, M. S., Singh, R., & Gupta, K. K. (2023, May). Automation of Smart Home for the Wellbeing of Elders Using Empirical Big Data Analysis. In 2023 3rd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE) (pp. 1164-1168). IEEE.
[6] Hong, S. C. T.-L., S. D'Oca, D. Yan, S. P. (2016). Advances in research and applications of energy-related occupant behavior in buildings. Electronic Library, 116, 694-704.
[7] M. Denil, L. Bazzani, H. Larochelle, and N. de Freitas. Learning where to attend with deep architectures for image tracking. Neural computation, 24(8):2151–2184, 2012
[8] Chandrashekar, G., & Sahin, F. (2014). A survey on feature selection methods. Computers & Electrical Engineering, 40(1), 16-28.
[9] Chunduri, R. K., & Cherukuri, A. K. (2021). Scalable algorithm for generation of attribute implication base using FP-growth and spark. Soft Computing, 1-22.
[10] D’Oca, S., Chen, C. F., Hong, T., & Belafi, Z. . (2017). Synthesizing building physics with social psychology: An interdisciplinary framework for context and occupant behavior in office buildings. Energy research & social science, 34, 240-251.
[11] Fan, S. X., F. (2018). Mining big building operational data for improving building energy efficiency: a case study. Build. Serv. Eng. Res. Technol, 39, 117-128.
[12] Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255-260.
[13] Laender, A. H., Ribeiro-Neto, B. A., Da Silva, A. S., & Teixeira, J. S. (2002). A brief survey of web data extraction tools. ACM Sigmod Record, 31(2), 84-93.
Loshin, D. (2013). Business Intelligence (Second Edition):
[14] Morgan Kaufmann Mirmozaffari, M., Boskabadi, A., Azeem, G., Massah, R., Boskabadi, E., Dolatsara, H. A., & Liravian, A. (2020). Machine learning clustering algorithms based on the DEA optimization approach for banking system in developing countries. European Journal of Engineering and Technology Research, 5(6), 651-658.
[15] Nabilah, A., Devita, H. P., Van Halen, Y., & Jurizat, A. (2021). Energy Efficiency in Church Building Based on Sefaira Energy Use Intensity Standard. Paper presented at the IOP Conference Series: Earth and Environmental Science.
[16] Poelmans, J., Dedene, G., Verheyden, G., Van der Mussele, H., Viaene, S., & Peters, E. (2010). Combining business process and data discovery techniques for analyzing and improving integrated care pathways. Paper presented at the Industrial Conference on Data Mining.
[17] Qamar Shahbaz Ul Haq. (2016). Data Mapping for Data Warehouse Design: Morgan Kaufmann
[18] Qiu, F. F., Z. Li, G. Yang, P. Xu, Z. Li. (2019). Data mining based framework to identify rule based operation strategies for buildings with power metering system. Build. Simul, 12, 195-205.
[14] Salvador García, J. L., Francisco Herrera. (2014). Data Preprocessing in Data Mining: Springe
[15] Sherman, R. (2015). Business Intelligence Guidebook: Morgan Kaufmann.
Zhang. (2015). A New Data Transformation Method and Its Empirical Research Based on Inverted Cycloidal Kinetic Model. Procedia Computer Science, 55, 485-492.
[16] D. Held, S. Thrun, and S. Savarese. Learning to track at 100 fps with deep regression networks. arXiv preprint arXiv:1604.01802, 2016.
[17] Vatter, J., Mayer, R., & Jacobsen, H. A. (2023). The evolution of distributed systems for graph neural networks and their origin in graph processing and deep learning: A survey. ACM Computing Surveys, 56(1), 1-37.
[18] S. Hong, T. You, S. Kwak, and B. Han. Online tracking by learning discriminative saliency map with convolutional neural network. arXiv preprint arXiv:1502.06796, 2015.
[19] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. arXiv preprint arXiv:1603.08155, 2016.
[20] S. E. Kahou, V. Michalski, and R. Memisevic. Ratm: Recurrent attentive tracking model. arXiv preprint arXiv:1510.08660, 2015.
[21] M. Kristan, J. Matas, A. Leonardis, M. Felsberg, L. Cehovin, G. Fernandez, T. Vojir, G. Hager, G. Nebehay, and R. Pflugfelder. The visual object tracking vot2015 challenge results. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 1–23, 2015.
[22] Olaniyi, O., Okunleye, O. J., & Olabanji, S. O. (2023). Advancing data-driven decision-making in smart cities through big data analytics: A comprehensive review of existing literature. Current Journal of Applied Science and Technology, 42(25), 10-18.
[23] Himeur, Y., Elnour, M., Fadli, F., Meskin, N., Petri, I., Rezgui, Y., ... & Amira, A. (2023). AI-big data analytics for building automation and management systems: a survey, actual challenges and future perspectives. Artificial Intelligence Review, 56(6), 4929-5021.
5 طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش .../رحیم کریمی
مروری |
طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی
رحیم کریمی1
1 ، rahim.karimi@iau.ir
2آدرس سازمانی نویسنده دوم، second Author@mail.com
3آدرس سازمانی نویسنده سوم، third Author@mail.com
*رحیم کریمی - دکتری مهندسی فناوری اطلاعات، گروه آموزش ریاضی، دانشگاه فرهنگیان، صندوق پستی 56441 -888 تهران، ایران ، rahim.karimi@iau.ir |
در این مقاله، به بررسی طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی پرداخته شده است. با توجه به رشد رو به افزایش حجم دادهها در دنیای امروز، استفاده از این سیستمها و الگوریتمهای هوش مصنوعی برای پردازش دادهها اهمیت بیشتری یافته است. نتایج به دست آمده نشان میدهد که این روشها میتوانند بهبود قابل توجهی در عملکرد پردازش بیگ دیتا ایجاد کنند و از مزایای قابل توجهی برای سازمانها و شرکتها به دنبال داشته باشند. این مقاله نشان میدهد که استفاده از سیستمهای توزیع شده و الگوریتمهای هوش مصنوعی میتواند بهبود قابل توجهی در عملکرد و کارایی سیستمها و برنامههای مختلف ایجاد کند.
کلید واژهها: سیستمهای توزیع شده، پردازش بیگ دیتا، الگوریتمهای هوش مصنوعی، بهبود عملکرد، کارایی سیستمها.
https://doi.org/... |
1-مقدمه
تاریخ دریافت: 1/3/1404 تاریخ پذیرش: 6/5/1404
|
استفاده از کلان داده به شرکتها و سازمانها امکان میدهد تا از اطلاعات موجود در کلان دادهها بهرهبرداری کنند و از آنها برای تصمیمگیریهای بهتر و پیشبینیهای دقیقتر استفاده کنند. به عنوان مثال، از کلان داده میتوان برای تحلیل رفتار مشتریان، پیشبینی روند بازار، بهبود فرآیندهای تولید و سرویسدهی، تحلیل دادههای پزشکی و بهبود خدمات بهداشتی و سلامت استفاده کرد [2]. کلان داده با ویژگیهای خاصی که از جمله حجم بالا، سرعت تولید و تنوع دادهها است، چالشهای منحصر به فردی را برای سازمانها و محققان دارد. برخی از این چالشها عبارتند از [3، 4]:
• حجم بالا: مدیریت و ذخیره سازی کلان دادهها به چالش کشیدن سیستمهای ذخیرهسازی و پردازش داده میپردازد. این امر نیازمند فناوریهای پردازش توزیعشده و ذخیرهسازی ابری است.
• سرعت تولید: دادههای کلان به سرعت بالای تولید و به روزرسانی نیاز دارند که این موضوع نیازمند تکنولوژیهای پردازش و ذخیرهسازی با سرعت بالا و قابلیت بالای مقیاسپذیری است.
• تنوع دادهها: دادههای کلان ممکن است از منابع مختلف و با فرمتهای مختلفی مانند متن، تصاویر، ویدیو و صدا باشند. چالش اصلی در اینجا این است که چگونه این دادههای متنوع را یکپارچه کرده و تحلیل کنیم.
• امنیت و حریم خصوصی: حفظ امنیت و حریم خصوصی دادههای کلان یک چالش اساسی است. مدیریت دسترسی، رمزنگاری، و حفاظت از دادهها مسائلی است که باید به آنها توجه شود.
• تحلیل و استفاده از داده: تحلیل و استفاده از دادههای کلان نیازمند تواناییهای تحلیلی پیچیده و مدلسازی پیشرفته است. همچنین، اطمینان از صحت و قابل اعتماد بودن دادهها نیز یک چالش است.
• مدیریت فرآیندها و استراتژیها: تصمیمگیریهای مرتبط با مدیریت دادههای کلان و تعیین استراتژیهای مناسب برای بهرهبرداری از این دادهها نیازمند داشتن دانش و تجربه کافی است.
• هزینه: پیادهسازی و مدیریت یک سیستم کلان داده هزینهبر است و نیازمند سرمایهگذاریهای قابل توجهی است.
این چالشها نشاندهنده اهمیت و نیاز به داشتن استراتژیها و فناوریهای مناسب برای مدیریت دادههای کلان است. با وجود اهمیت بسزایی که کلان دادهها و پردازش آنها در سازمانهای گوناگون ایفا میکند. همچنان مسائلی در خصوص نحوه مدیریت آنها قرار دارد. در این میان حوزه مالی یکی از حوزههای فعالی است که با بحث کلان دادهها ارتباط زیادی دارد. بررسیهای صورت گرفته نشان میدهد هنوز چالشهای زیادی بر سر راه بهرهگیری از کلان دادهها در امور مالی قرار دارد. بدین منظور، مسئله اصلی این پژوهش شناسایی کاربردهای و چالشهای کلان دادهها در مالی است [5].
در علوم کامپیوتر، هوش مصنوعی یا هوش ماشینی به هوشمندی گفته میشود که از هرنوع ماشین (و نه انسان) بهدست بیاید. کتابهای مرجع در حوزهی هوش مصنوعی، این علم را دانش مطالعهی کارگزارهای هوشمند میدانند که چنین تعریف میشوند: «هر دستگاهی که توانایی درک محیط و فعالیت با حداکثر شانس موفقیت را داشته باشد». درمجموع اصطلاح هوش مصنوعی برای توصیف ماشینها یا کامپیوترهایی بهکار میرود که فعالیتهای شناختی وابسته به ذهن انسان را بهخوبی انجام دهند. ازمیان فعالیتهای مهم شناختی میتوان به «یادگیری» و «حل مسئله» اشاره کرد. حوزهی تحقیق پیرامون هوش مصنوعی، در سال ۱۹۵۶ و آزمایشگاهی در کالج دارتموث متولد شد. جان مککارتی این حوزه را از زیرمجموعهی سایبرنتیک و نظریههای سایبرنتیستهایی همچون نوربرت وینر خارج کرد و اصطلاح «هوش مصنوعی» بهنوعی توسط او متولد شد [5].
در عصر کلان دادهها، طراحی و پیادهسازی سیستمهای توزیعشده نقش مهمی در پردازش کارآمد حجم وسیعی از دادهها ایفا میکند. الگوریتمهای هوش مصنوعی بهعنوان ابزارهای قدرتمندی در این حوزه ظاهر شدهاند که امکان خودکارسازی وظایف پیچیده و استخراج بینشهای ارزشمند از مجموعه کلان دادهها را فراهم میکنند.
وقتی نوبت به طراحی سیستم های توزیع شده برای پردازش کلان داده می شود، باید چندین فاکتور را در نظر گرفت. مقیاس پذیری، تحمل خطا و سازگاری داده ها از جمله چالش های کلیدی هستند که باید مورد توجه قرار گیرند. با استفاده از الگوریتمهای هوش مصنوعی، مانند یادگیری ماشینی و یادگیری عمیق، میتوان این سیستمها را برای مدیریت حجم عظیمی از دادهها و ارائه تجزیه و تحلیل در زمان واقعی بهینه کرد.
پیاده سازی سیستم های توزیع شده برای پردازش داده های بزرگ با استفاده از الگوریتم های هوش مصنوعی شامل یکپارچه سازی فناوری ها و چارچوب های مختلف است. Apache Hadoop، Spark و TensorFlow برخی از ابزارهای محبوب مورد استفاده در این زمینه هستند. این پلتفرم ها زیرساخت های لازم را برای پردازش موازی، ذخیره سازی توزیع شده و پردازش کارآمد داده ها فراهم می کنند [6]. در نتیجه، طراحی و پیادهسازی سیستمهای توزیعشده برای پردازش کلان دادهها با استفاده از الگوریتمهای هوش مصنوعی برای سازمانهایی که به دنبال مهار قدرت بینشهای مبتنی بر داده هستند ضروری است. با استفاده از قابلیتهای هوش مصنوعی، کسبوکارها میتوانند فرصتهای جدیدی را برای نوآوری، بهینهسازی و تصمیمگیری در دنیای دادهمحور امروزی باز کنند [7]. با توجه به اهمیت پیادهسازی سیستمهای توزیعشده برای پردازش کلان دادهها مسئله اصلی این پژوهش بررسی ملزومات طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی است. نوآوری این پژوهش، توسعه سیستم هوشمند خودتنظیمی مبتنی بر یادگیری عمیق برای مدیریت منابع در سیستمهای توزیعشده بیگ دیتا است. در این سیستم، از الگوریتمهای یادگیری عمیق برای تحلیل وضعیت جاری و پیشبینی بار کاری و نیازهای منابع در آینده استفاده میشود. سیستم به طور پویا و خودکار، الگوهای بهینه تخصیص منابع (مانند حافظه، پردازنده، شبکه) را در محیطهای توزیعشده تنظیم میکند، بدون نیاز به دخالت انسانی مداوم. این رویکرد، برتریهایی چون کاهش تأخیر، مصرف بهینه انرژی و افزایش مقیاسپذیری در پردازش بیگ دیتا را ایجاد میکند.
2. روش پژوهش
این پژوهش از نظر هدف کاربردی است و با استفاده از روش مرور نظاممند انجام شد. بدین منظور به پایگاههای اطلاعاتی معتبر همانند Emerald، Google Scholar، Web of Science، Scopus مراجعه شد. همچنین پایگاههای داخلی مگیران، پرتال جامع علوم انسانی، نورمگز، ایرانداک و مرکز اطلاعات علمی جهاد دانشگاهی مورد جستجو قرار گرفتند. نخست، فرآیند جستجو جهت شناسایی، استخراج و نیز انتخاب مطالعات و پژوهشهای مرتبط مورد توجه قرار گرفت. این فرآیند برای شناسایی هرگونه مطالعه مرتبط بالقوه بر اساس پرسش های پژوهش، انجام میشود. فرآیند انتخاب شامل چهار مرحله یعنی انتخاب پایگاههای اطلاعاتی، جستجوی کلیدواژهها، معیارهای انتخاب پژوهشها و انتخاب پژوهشهای اولیه بود. برای جستجو از کلیدواژههای کلان داده و سیستمهای توزیعشده استفاده شد. پس از جستجو در پایگاههای اطلاعاتی تعداد 451 مقاله بازیابی شدند. پس از پالایش موارد تکراری که از پایگاههای گوناگون شناسایی شده بودند، تعداد 229 مقاله باقی ماند. با مطالعه عنوان و چکیده منابع تعداد 181 پژوهش به دلیل غیر مرتبط بودن با هدف پژوهش، حذف گردید. انتخاب پژوهشهای اولیه بر اساس معیارهای ورود و خروج صورت پذیرفت. سپس متن کامل مقالات مطالعه شده و معیارهای ورود و خروج اعمال گردید و در نتیجه، 25 پژوهش حذف گردید. در نهایت، 23 مقاله به مطالعه مروری راه یافتند.
3. یافتههای پژوهش
بررسی منابع گوناگون نشان داد، سیستم های توزیع شده به چندین کامپیوتر متصل به هم اشاره دارد که با یکدیگر برای دستیابی به یک هدف مشترک کار می کنند. این سیستم ها وظایف را در گره های مختلف توزیع می کنند و امکان افزایش کارایی و تحمل خطا را فراهم می کنند. با تقسیم یک کار به وظایف فرعی کوچکتر که توسط گره های مختلف انجام می شود، سیستم های توزیع شده می توانند فرآیندهای پیچیده را به طور موثرتری نسبت به یک سیستم متمرکز انجام دهند [6]
یکی از مزایای کلیدی سیستم های توزیع شده مقیاس پذیری است. با افزایش حجم کار، گره های اضافی را می توان به راحتی به سیستم اضافه کرد تا بار اضافی را مدیریت کند. این مقیاسپذیری سیستمهای توزیعشده را برای برنامههایی با تقاضای نوسانی ایدهآل میکند و عملکردی روان را حتی در زمانهای اوج مصرف تضمین میکند [7].
3-1. چالش های سیستم های توزیع شده
در حالی که سیستم های توزیع شده مزایای متعددی را ارائه می دهند، اما چالش های منحصر به فردی را نیز ارائه می دهند. یکی از این چالش ها اطمینان از سازگاری داده ها در تمام گره ها است. با توزیع داده ها در چندین مکان، حفظ ثبات برای جلوگیری از اختلافات و خطاها بسیار مهم است.
3-2. انواع سیستم های توزیع شده
انواع مختلفی از سیستم های توزیع شده وجود دارد که هر کدام اهداف متفاوتی را انجام می دهند. شبکههای همتا به همتا (P2P) به گرهها اجازه میدهند بدون سرور مرکزی مستقیماً با یکدیگر ارتباط برقرار کنند. از سوی دیگر، شبکههای سرویسدهنده-کلینت شامل مشتریانی است که از سرورهای مرکزی خدمات درخواست میکنند. علاوه بر این، سیستمهای محاسباتی توزیعشده از چندین رایانه برای کار با هم در یک کار واحد استفاده میکنند.
3-3. کاربردهای دنیای واقعی سیستم های توزیع شده
سیستم های توزیع شده نقش مهمی در فناوری مدرن ایفا می کنند. خدمات رایانش ابری، پلتفرمهای رسانههای اجتماعی و بازارهای آنلاین همگی به سیستمهای توزیعشده برای ارائه تجربیات یکپارچه کاربر متکی هستند. با استفاده از قدرت محاسبات توزیعشده، این پلتفرمها میتوانند به طور موثر حجم وسیعی از دادهها را پردازش کرده و خدمات قابل اعتمادی را به کاربران در سراسر جهان ارائه دهند.
امروزه، پردازش کلان داده به یک جنبه حیاتی در بسیاری از صنایع، از تجارت الکترونیک گرفته تا مراقبت های بهداشتی تبدیل شده است. از آنجایی که حجم داده ها به طور تصاعدی در حال رشد است، روش های سنتی پردازش داده ها دیگر کافی نیستند. این منجر به ظهور سیستمهای توزیعشدهای شده است که از الگوریتمهای هوش مصنوعی برای مدیریت کارآمد حجم عظیمی از دادهها استفاده میکنند.
الگوریتم های هوش مصنوعی نقش کلیدی در بهینه سازی پردازش داده های بزرگ در سیستم های توزیع شده ایفا می کنند. الگوریتمهای یادگیری ماشین، مانند شبکههای عصبی و درختهای تصمیم، میتوانند مجموعههای داده بزرگ را تجزیه و تحلیل کنند و بینشهای ارزشمند را با سرعت و دقت استخراج کنند.
هنگام طراحی سیستم های توزیع شده برای پردازش داده های بزرگ، در نظر گرفتن عواملی مانند تحمل خطا، مقیاس پذیری و تعادل بار ضروری است. این سیستمها با توزیع بار کاری بین گرههای متعدد، میتوانند حجم زیادی از دادهها را بدون مواجهه با تنگناها مدیریت کنند. پیادهسازی سیستمهای توزیعشده با الگوریتمهای هوش مصنوعی با چالشهایی مانند ثبات دادهها و هزینههای ارتباطی همراه است. با این حال، پیشرفت در فناوری هایی مانند Apache Hadoop و Spark غلبه بر این چالش ها و ساخت سیستم های قوی برای پردازش داده های بزرگ را آسان تر کرده است.
در نتیجه، طراحی و پیادهسازی سیستمهای توزیعشده برای پردازش کلان دادهها با استفاده از الگوریتمهای هوش مصنوعی، شیوه تحلیل و استخراج بینشهای ما از مجموعه کلان دادهها را متحول کرده است. با استفاده از قدرت هوش مصنوعی و محاسبات توزیعشده، سازمانها میتوانند پتانسیل کامل دادههای خود را باز کنند و در دنیای مبتنی بر داده امروزی مزیت رقابتی کسب کنند.
در طراحی و پیادهسازی سیستمهای توزیع شده، برخی از الگوریتمهای هوش مصنوعی که قابل استفاده در کلان دادهها هستند عبارتند از:
جدول 1. الگوریتمهای هوش مصنوعی قابل استفاده در کلان دادهها
ردیف | الگوریتم | توضیح الگوریتم |
| الگوریتم K-Means | این الگوریتم برای خوشهبندی دادهها به کار میرود. با استفاده از این الگوریتم، دادهها به چند خوشه مختلف تقسیم میشوند به گونهای که دادههای هر خوشه شباهت زیادی به یکدیگر داشته باشند. |
| شبکههای عصبی عمیق | این الگوریتمها بر اساس ساختار شبکههای عصبی انسانی طراحی شدهاند و برای تشخیص الگوها و پیشبینی دادهها از طریق یادگیری عمیق استفاده میشوند. |
| الگوریتم Random Forest | این الگوریتم بر اساس مفهوم یادگیری ماشین تصمیمگیری چندگانه استفاده میشود. با استفاده از این الگوریتم، میتوان بهترین تصمیمها را برای پیشبینی دادهها از مجموعه تصمیمهای تصادفی گرفت. |
| الگوریتم | یک الگوریتم یادگیری ماشین است که برای دستهبندی و رگرسیون دادهها استفاده میشود. این الگوریتم با استفاده از یک هسته (kernel)، دادهها را به خطی یا غیرخطی تقسیم میکند. |
| الگوریتم Apriori | این الگوریتم برای استخراج الگوهای تکراری از دادهها به کار میرود. با استفاده از این الگوریتم میتوان الگوهای معنیدار و مفیدی را در دادههای کلان شناسایی کرد. |
| الگوریتم درخت تصمیم | این الگوریتم برای ایجاد مدلهای تصمیمگیری استفاده میشود. با استفاده از این الگوریتم، دادهها بر اساس سوالات دودویی تقسیم میشوند تا بهترین تصمیمها برای دستهبندی دادهها گرفته شود. |
| الگوریتم K-NN | الگوریتم نزدیکترین همسایگان (k-NN) یک روش غیر پارامتری برای طبقه بندی است که برای حل بسیاری از مسائل طبقه بندی استفاده میشود. |
الگوریتمهای یادگیری بدون نظارت: خوشه بندی
الگوریتمهای خوشه بندی نیز برای شناسایی الگوهای معمول عملیات ساختمان از داده های عملیات ساختمان مانند الگوهای مصرف انرژی ساختمان ، الگوی توزیع محیط داخلی و الگوهای عملکرد سیستم انرژی ساختمان استفاده میشوند. الگوریتم های خوشه بندی بر اساس شباهت آماری بین هر یک از دو نقطه ، همه نقاط یک مجموعه داده را به چندین خوشه طبقه بندی می کنند. نقاط یک خوشه دارای ویژگی های آماری مشابه هستند. و نقاط در خوشه های مختلف دارای ویژگی های آماری قابل توجهی متفاوت هستند. به طور کلی ، شرایط مختلف عملکرد ویژگی های آماری متفاوتی دارند [2].
خوشه بندی K-means یکی از محبوب ترین الگوریتم های خوشه بندی در حوزه سیستم های انرژی ساختمان است. خوشه بندی c-means فازی نیز برای شناسایی الگوهای عملکرد ساختمان به کار گرفته شد. الگوریتم های خوشه بندی دیگر نیز مانند خوشه بندی بردار پشتیبانی ، خوشه بندی حداکثر انتظارات و خوشه بندی درخت تصمیم گیری استفاده شده است و این اهمیت این الگوریتمها را بیش از پیش مشخص میسازد. الگوریتم های استخراج نمودار ، الگوریتم های استخراج متن و الگوریتم های قواعد انجمنی پویا نیز برای تشخیص خطای سیستم های انرژی ساختمان استفاده شده است [3].
نحوه کار الگوریتم k-means به شرح زیر است:
مرحله 1: برای تصمیم گیری در مورد تعداد خوشه ها ، تعداد K را انتخاب میشود.
مرحله 2: K تا از نقاط را به صورت تصادفی یا با محاسبه انتخاب میشود. (این میتواند غیر از مجموعه داده ورودی باشد). بر اساس کد زیر از فاصلهی اقلیدوسی برای انتخاب مراکز استفاده شده است.
مرحله 3: هر نقطه داده را به نزدیکترین مرکز خود اختصاص میدهد، که خوشه های K از پیش تعریف شده را تشکیل میدهد.
مرحله 4: میانگین را محاسبه کرده و یک مرکز جدید برای هر خوشه قرار میدهد.
مرحله 5: مراحل سوم را تکرار میشود، به این معنی که هر پایگاه داده را به جدیدترین و نزدیکترین مرکز هر خوشه اختصاص میدهد.
مرحله 6: اگر تغییر مجددی اتفاق افتاد، سپس مرحله 4 مجدد اجرا میشود و الگوریتم به پایان میرسد.
مرحله 7: مدل آماده است.
درخت تصمیمگیری: یادگیری درخت تصمیم یکی از روشهای مدل سازی پیش بینی کننده است که در آمار، داده کاوی و یادگیری ماشین استفاده میشود. از درخت تصمیم استفاده میکند تا از مشاهدات مربوط به یک مورد به نتیجه گیری در مورد ارزش مورد (که در برگ نشان داده شده است) برسد [7]. الگوریتم درخت تصمیم در دسته یادگیری نظارت شده قرار می گیرد. می توان از آنها برای حل مسائل رگرسیون و طبقه بندی استفاده کرد. درخت تصمیم از نمایش درختی برای حل این مشکل استفاده می کند که در آن هر گره برگ با یک برچسب کلاس مطابقت دارد و ویژگی ها در گره داخلی درخت نشان داده می شوند. ما می توانیم هر تابع بولی را روی ویژگی های گسسته با استفاده از درخت تصمیم نمایش دهیم.
وقتی از یک گره در درخت تصمیم استفاده می کنیم تا نمونه های آموزشی را به زیر مجموعه های کوچکتر تقسیم کنیم، آنتروپی تغییر می کند. افزایش اطلاعات معیاری برای این تغییر در آنتروپی است.
تعریف: فرض کنید S مجموعه ای از نمونه ها، A یک ویژگی، Sv زیرمجموعه S با A = v، و مقادیر (A) مجموعه ای از تمام مقادیر ممکن A است، سپس براساس معادله (ا) است:
(1)
الگوریتم K-NN: الگوریتم نزدیکترین همسایگان (k-NN) یک روش غیر پارامتری برای طبقه بندی است که برای حل بسیاری از مسائل طبقه بندی استفاده میشود. رای اکثریت همسایگان آن یک شیء را طبقه بندی میکند و شیء به کلاس رایج ترین در بین k نزدیکترین همسایگان خود اختصاص داده میشود. بنابراین، این یک نوع یادگیری مبتنی بر نمونه است، که در آن تابع فقط به صورت محلی تقریبی است و همه محاسبات تا طبقه بندی به تعویق میافتد. اغلب از یک نوع فازی از الگوریتم k-NN استفاده میشود [8].
در آمار، الگوریتم k-نزدیکترین همسایه (k-NN) یک روش یادگیری نظارت شده ناپارامتریک است که ابتدا توسط Evelyn Fix و Joseph Hodges در سال 1951 توسعه یافت، [1] و بعداً توسط Thomas Cover گسترش یافت.[2] برای طبقه بندی و رگرسیون استفاده می شود. در هر دو مورد، ورودی شامل k نزدیکترین مثال آموزشی در یک مجموعه داده است. خروجی بستگی به این دارد که از k-NN برای طبقه بندی یا رگرسیون استفاده شود:
در طبقه بندی k-NN، خروجی یک عضویت در کلاس است. یک شی با رای کثرت همسایههایش طبقهبندی میشود و شی به کلاسی که در میان k نزدیکترین همسایههایش رایجتر است نسبت داده میشود (k یک عدد صحیح مثبت است، معمولاً کوچک). اگر k = 1، شی به سادگی به کلاس آن نزدیکترین همسایه اختصاص داده می شود.
در رگرسیون k-NN، خروجی مقدار ویژگی برای شی است. این مقدار میانگین مقادیر k نزدیکترین همسایه است.
k-NN نوعی طبقه بندی است که در آن تابع فقط به صورت محلی تقریبی می شود و تمام محاسبات تا ارزیابی تابع به تعویق می افتد. از آنجایی که این الگوریتم برای طبقهبندی به فاصله متکی است، اگر ویژگیها واحدهای فیزیکی متفاوتی را نشان دهند یا در مقیاسهای بسیار متفاوتی باشند، عادیسازی دادههای آموزشی میتواند دقت آن را به طور چشمگیری بهبود بخشد.[3][4] هم برای طبقه بندی و هم برای رگرسیون، یک تکنیک مفید می تواند تعیین وزن به سهم همسایگان باشد، به طوری که همسایه های نزدیکتر بیشتر از همسایگان دورتر به میانگین کمک می کنند. به عنوان مثال، یک طرح وزن دهی رایج شامل دادن وزن 1/d به هر همسایه است که d فاصله تا همسایه است.[5] همسایه ها از مجموعه ای از اشیاء گرفته می شوند که کلاس (برای طبقه بندی k-NN) یا مقدار ویژگی شی (برای رگرسیون k-NN) برای آنها شناخته شده است. این را می توان به عنوان مجموعه آموزشی برای الگوریتم در نظر گرفت، اگرچه هیچ مرحله آموزشی واضحی مورد نیاز نیست.
این الگوریتم با استفاده از معادله 2 محاسبه میگردد:
(2)
همانطور که اندازه مجموعه داده های آموزشی به بی نهایت نزدیک می شود، طبقه بندی کننده نزدیکترین همسایه نرخ خطای کمتر از دو برابر نرخ خطای بیز (حداقل میزان خطای قابل دستیابی با توجه به توزیع داده ها) را تضمین می کند.
ماشینهای بردار پشتیبان: مدلهای یادگیری تحت نظارت با الگوریتمهای یادگیری مرتبط هستند. یعنی ماشینهای بردار پشتیبان به مجموعه آموزشی نیاز دارد، مانند D در مورد ما. سپس، هر ورودی به یکی یا یکی از دو دسته تعلق میگیرد و الگوریتم آموزش ماشینهای بردار پشتیبان مدلی را ایجاد میکند که هر نمونه ورودی جدید را به یک دسته یا دسته دیگر اختصاص میدهد و آن را به یک طبقه بندی کننده خطی دوتایی غیر احتمالی تبدیل میکند [9]. این الگوریتم با استفاده از معادله 3 محاسبه میگردد:
(3)
جایی که مقدارy برابر با 1 یا -1 و هر xi برابر با یک مقدار حقیقی بعدی است. هدف پیدا کردن ابرصفحه جداکننده با بیشترین فاصله از نقاط حاشیهای است.
شبکههای عصبی مصنوعی: شبکههای عصبی مصنوعی طبقه بندی کنندههای بسیار غیر خطی هستند که کاربردهای زیادی در حوزههای گسترده دارند. ساختار آنها سعی میکند شبیه عملکرد مغز انسان با نورونها و سیناپسها باشد. به طور خاص، این شبکهها شامل یک لایه ورودی است که سیگنالهای ورودی را به عنوان داده دریافت میکند، یک یا چند لایه پنهان نورون که این دادهها را به روش غیر خطی پردازش میکند و یک لایه خروجی که نتیجه طبقه بندی نهایی را ارائه میدهد [10].
شبکههای عصبی کانولوشنی: این شبکهها از الگوهای یادگیری ماشین در ساختارهای عمیق استفاده میکنند. ابتدا مجموعه ای از ویژگیهای مناسب را از دادههای خام استخراج میکند، با استفاده از تحولات روی سیگنالهای ورودی که آنها را به لایههای عمیق منتقل میکند، در حالی که در لایه آخر یک طبقه بندی برای اختصاص دادههای ورودی به کلاسها اما با استفاده از ویژگیهای عمیق انجام میشود. توسط لایههای کانولوشن مشخص شده است [11].
بیز ساده: طبقه بندی کنندههای بیس خانواده ای از طبقه بندی کنندههای احتمالی هستند که بر اساس بکارگیری قضیه بیز با مفروضات استقلال قوی بین ویژگیها استفاده میشوند. این طبقه بندی کنندهها بسیار مقیاس پذیر هستند و به تعدادی پارامتر خطی در تعداد متغیرها (ویژگی ها/پیش بینی کننده ها) در یک مشکل یادگیری نیاز دارند [12].
3-4. الگوریتمهای پردازش سیگنال
تبدیل فوریه گسسته2
در ریاضیات، تبدیل فوریه گسسته (DFT) یک دنباله محدود از نمونههای با فاصله مساوی از یک تابع را به دنبالهای با طول یکسان از نمونههای با فواصل مساوی تبدیل فوریه گسسته (DTFT) تبدیل میکند، که یک مقدار مختلط است. تابع فرکانس فاصله زمانی که از DTFT نمونه برداری می شود، متقابل مدت زمان توالی ورودی است. یک DFT معکوس یک سری فوریه است که از نمونههای DTFT به عنوان ضرایب سینوسی پیچیده در فرکانسهای DTFT مربوطه استفاده میکند. دارای مقادیر نمونه مشابه با دنباله ورودی اصلی است. بنابراین DFT یک نمایش دامنه فرکانس از توالی ورودی اصلی است. اگر دنباله اصلی تمام مقادیر غیرصفر یک تابع را در بر بگیرد، DTFT آن پیوسته (و دوره ای) است و DFT نمونه های گسسته یک چرخه را ارائه می دهد. اگر دنباله اصلی یک چرخه از یک تابع تناوبی باشد، DFT تمام مقادیر غیر صفر یک چرخه DTFT را ارائه می دهد.
DFT مهمترین تبدیل گسسته است که برای انجام تحلیل فوریه در بسیاری از کاربردهای عملی استفاده می شود. در پردازش سیگنال دیجیتال، تابع هر مقدار یا سیگنالی است که در طول زمان تغییر میکند، مانند فشار موج صوتی، سیگنال رادیویی، یا خوانش دمای روزانه، نمونهبرداری شده در یک بازه زمانی محدود (اغلب توسط یک تابع پنجره تعریف میشود. ]). در پردازش تصویر، نمونه ها می توانند مقادیر پیکسل ها در امتداد یک ردیف یا ستون یک تصویر شطرنجی باشند. DFT همچنین برای حل موثر معادلات دیفرانسیل جزئی و انجام عملیات های دیگر مانند کانولوشن یا ضرب اعداد صحیح بزرگ استفاده می شود.
از آنجایی که با حجم محدودی از داده سروکار دارد، می توان آن را با الگوریتم های عددی یا حتی سخت افزار اختصاصی در رایانه ها پیاده سازی کرد. این پیادهسازیها معمولاً از الگوریتمهای تبدیل فوریه سریع (FFT) کارآمد استفاده میکنند؛ [3] تا جایی که اصطلاحات «FFT» و «DFT» اغلب به جای یکدیگر استفاده میشوند. پیش از استفاده کنونی، ابتدائی سازی "FFT" ممکن است برای اصطلاح مبهم "تبدیل فوریه محدود" نیز استفاده شده باشد.
این الگوریتم به صورت معادله 4 محاسبه میگردد:
(4)
تبدیل فوریه گسسته دنباله ای از N عدد مختلط را تبدیل می کند
تجزیه های موجک
تجزیه موجک3 جدیدا تکنیک های پردازش سیگنال چند مقیاسی اضافه شده است. بر خلاف اهرام گاوس و لاپلاس، آنها یک تصویر کامل ارائه می دهند و تجزیه را بر اساس مقیاس و جهت انجام می دهند. آنها با استفاده از بانک های فیلتر آبشاری که در آن فیلترهای پایین گذر و بالاگذر محدودیت های خاص خاصی را برآورده می کنند، اجرا می شوند. در حالی که مفاهیم پردازش سیگنال کلاسیک درک عملیاتی از چنین سیستمهایی را ارائه میدهند، ارتباطات قابل توجهی با کار در ریاضیات کاربردی و روانفیزیک وجود دارد که درک عمیقتری از تجزیه موجک و نقش آنها در بینایی ارائه میدهد. از نقطه نظر ریاضی، تجزیه موجک معادل بسط سیگنال در یک موجک است. ویژگیهای منظم و لحظه ناپدید شدن فیلتر پایینگذر بر شکل توابع پایه تأثیر میگذارد و از این رو توانایی آنها برای نمایش مؤثر تصاویر معمولی را دارد. از منظر روانی، مراحل اولیه پردازش اطلاعات بصری انسان ظاهراً شامل تجزیه تصاویر شبکیه به مجموعه ای از اجزای باند گذر مربوط به مقیاس ها و جهت گیری های مختلف است. این الگوریتم با استفاده از فرمول زیر محاسبه می گردد:
DFT توالی را با تداخل امواج فرکانسهای مختلف بیان میکند - بنابراین کوتاه کردن سری، یک نسخه فیلتر شده پایینگذر از سری را به دست میدهد.
تولید و استخراج ویژگی
در یادگیری ماشینی ، تشخیص الگو و پردازش تصویر ، استخراج ویژگی از مجموعه اولیه داده های اندازه گیری شروع می شود و مقادیر مشتق شده (ویژگی ها) را ایجاد می کند که آموزنده و غیر ضروری است ، مراحل یادگیری و تعمیم بعدی را تسهیل می کند و در برخی موارد منجر می شود به تفسیرهای بهتر انسانی استخراج ویژگی مربوط به کاهش ابعاد است. استخراج ویژگی شامل کاهش تعداد منابع مورد نیاز برای توصیف مجموعه ای بزرگ از داده ها است. هنگام انجام تجزیه و تحلیل داده های پیچیده ، یکی از مشکلات عمده ناشی از تعداد متغیرهای درگیر است. تجزیه و تحلیل با تعداد زیادی از متغیرها به طور کلی به مقدار زیادی حافظه و قدرت محاسباتی نیاز دارد ، همچنین ممکن است باعث شود الگوریتم طبقه بندی برای آموزش نمونه ها مناسب باشد و به نمونه های جدید ضعیف شود. استخراج ویژگی یک اصطلاح کلی برای روش های ایجاد ترکیبی از متغیرها برای حل این مشکلات است در حالی که هنوز داده ها را با دقت کافی توصیف می کنید. بسیاری از تمرین کنندگان یادگیری ماشین معتقدند که استخراج بهینه ویژگی ها ، کلید ایجاد مدل موثر است [8]
روشهای استخراج ویژگی ، علاوه بر ویژگیها و بافت سیگنال تغییر یافته و بدون تغییر ، توصیفگرهای ساختاری و نمودار را شامل می شود. استخراج ویژگی با استخراج ویژگی ها از داده های ورودی ، دقت مدل های آموخته شده را افزایش می دهد. این مرحله از چارچوب کلی با حذف داده های اضافی ، ابعاد داده ها را کاهش می دهد. البته باعث افزایش آموزش و سرعت استنباط می شود. روش های استخراج ویژگی ها با انجام ترکیبات و تبدیل مجموعه ویژگی های اصلی ، ویژگی های جدید ایجاد شده را به دست می آورند [9].
اصول4
تجزیه و تحلیل مؤلفه اصلی (PCA) یک تکنیک محبوب برای تجزیه و تحلیل مجموعه داده های بزرگ حاوی تعداد زیادی از ابعاد / ویژگی ها در هر مشاهده، افزایش تفسیرپذیری داده ها در حالی که حداکثر مقدار اطلاعات را حفظ می کند، و امکان تجسم داده های چند بعدی را فراهم می کند. به طور رسمی، PCA یک تکنیک آماری برای کاهش ابعاد یک مجموعه داده است. این امر با تبدیل خطی داده ها به یک سیستم مختصات جدید انجام می شود که در آن (بیشتر) تغییرات در داده ها را می توان با ابعاد کمتری نسبت به داده های اولیه توصیف کرد. بسیاری از مطالعات از دو جزء اصلی اول برای ترسیم دادهها در دو بعد و شناسایی بصری خوشههایی از نقاط داده نزدیک به هم استفاده میکنند. تجزیه و تحلیل مؤلفه های اصلی در بسیاری از زمینه ها مانند ژنتیک جمعیت، مطالعات میکروبیوم، علوم جوی و غیره کاربرد دارد.
بنابراین برای به حداکثر رساندن واریانس، اولین بردار وزن w(1) باید برآورده شود.
انتخاب ویژگی
انتخاب ویژگی5 یک رویکرد مهم برای کاهش ابعاد داده های با ابعاد بالا است. در سال های اخیر ، الگوریتم های انتخاب ویژگی های زیادی پیشنهاد شده است. با این حال ، اکثر آنها فقط از اطلاعات موجود در فضای داده استفاده می کنند. آنها اغلب از اطلاعات مفید موجود در فضای ویژگی غافل می شوند و معمولاً از اطلاعات مربوط به هندسه زیرین داده ها سوء استفاده نمی کنند [10].
انتخاب ویژگی فرایندی است که در آن ویژگی ها به صورت خودکار یا دستی انتخاب می شوند و بیشترین نقش را در متغیر یا خروجی پیش بینی مورد نظر دارند. وقوع ویژگی های اضافی یا نامربوط در داده های به دست آمده ، دقت مدل ها را کاهش می دهد و باعث می شود مدل بر اساس ویژگی های نامربوط یاد بگیرد. بر اساس همبستگی متقابل از روش انتخاب ویژگی فیلتر استفاده می شود. هر دو روش پیچاندن و فیلتر مزایای خود را دارند و همچنین ضربه ها [11].
روشهای اصلی انتخاب ویژگی
در کل سه نوع انتخاب ویژگی وجود دارد: روشهای بستهبندی6 (انتخاب جلو ، عقب و گام به گام) ، روشهای فیلتر7 (روش آنووا، همبستگی پیرسون ، آستانه واریانس) و روشهای جاسازی شده8 (همانند درخت تصمیم)
روشهای بستهبندی مدلها را با زیر مجموعه خاصی از ویژگی ها محاسبه میکنند و اهمیت هر ویژگی را ارزیابی می کند. سپس آنها زیر مجموعه ای متفاوت از ویژگی ها را امتحان می کنند تا به زیرمجموعه بهینه برسند. دو اشکال این روش زمان محاسبه بزرگ داده ها با ویژگی های زیاد است و این که وقتی تعداد داده های زیادی وجود ندارد ، به مدل برتری می بخشد [12].
روشهای فیلتر از معیاری غیر از میزان خطا برای تعیین مفید بودن آن ویژگی استفاده می کنند. به جای تنظیم یک مدل (مانند روش های بسته بندی) ، زیر مجموعه ای از ویژگی ها از طریق رتبه بندی آنها با یک روش توصیفی مفید انتخاب می شود. مزایای روشهای فیلتر این است که زمان محاسبه بسیار پایینی دارند و بر داده ها بیش از حد مناسب نیستند. با این حال ، یک اشکال این است که آنها در برابر هر گونه تعامل یا ارتباط بین ویژگی ها کور هستند.
روشهای جاسازی شده ، انتخاب ویژگی را به عنوان بخشی از فرایند ایجاد مدل انجام می دهند. این امر به طور کلی منجر به ایجاد محیطی شاد بین دو روش انتخاب ویژگی می شود که قبلاً توضیح داده شد ، زیرا انتخاب همراه با فرایند تنظیم مدل انجام می شود [13].
کشف دانش
کشف دانش9 یک علم بین رشته ای است که هدف آن استخراج دانش مفید و کاربردی از مخازن داده های بسیار بزرگ است. به طور عمده ، با توجه به مجموعه داده ها ، یک فرایند کشف دانش در جستجوی موارد زیر است:
طبقه بندی کننده ها طبقه بندی کننده یک تصمیم گیرنده است که می تواند داده ها را به دسته های از پیش تعریف شده تقسیم کند ، که اغلب کلاس نامیده می شوند.
· پیش بینی: پیش بینی کننده یک تابع مناسب است که می تواند یک ویژگی هدف را با استفاده از داده های باقی مانده پیش بینی کند.
· خوشه بندی: خوشه بندی فرایندی است که بر اساس شباهت نقاط داده ، داده ها را به دسته های ناشناخته ای تقسیم می کند که خوشه نامیده می شوند.
· الگوها: الگو یک قاعده قابل تشخیص در داده ها است که عناصر و/یا ویژگی های آن در یک طرح قابل پیش بینی تکرار می شود.
· ناهنجاری ها: یک ناهنجاری ، که غالباً بیرونی نامیده می شود ، اطلاعات غیرمنتظره ای است که بطور قابل توجهی از بقیه داده ها منحرف می شود.
· انجمن ها: ارتباط پیوند بین دو یا چند پدیده است که در قطعات اطلاعات کدگذاری شده است.
· مدل ها: مدل مجموعه ای از توابع ریاضی و/یا منطقی است که می تواند توزیع و رفتار داده ها را توصیف کند [14]
الگوریتمهای خوشه بندی نیز برای شناسایی الگوهای معمول استفاده میشوند. الگوریتم های خوشه بندی بر اساس شباهت آماری بین هر یک از دو نقطه ، همه نقاط یک مجموعه داده را به چندین خوشه طبقه بندی می کنند. نقاط یک خوشه دارای ویژگی های آماری مشابه هستند. و نقاط در خوشه های مختلف دارای ویژگی های آماری قابل توجهی متفاوت هستند. به طور کلی ، شرایط مختلف عملکرد ویژگی های آماری متفاوتی دارند [2]
خوشه بندی K-means یکی از محبوب ترین الگوریتم های خوشه بندی است. خوشه بندی c-means فازی نیز برای شناسایی الگوهای عملکرد به کار گرفته شد. الگوریتم های خوشه بندی دیگر نیز مانند خوشه بندی بردار پشتیبانی ، خوشه بندی حداکثر انتظارات و خوشه بندی درخت تصمیم گیری استفاده شده است و این اهمیت این الگوریتمها را بیش از پیش مشخص میسازد. الگوریتم های استخراج نمودار ، الگوریتم های استخراج متن و الگوریتم های قواعد انجمنی پویا نیز برای تشخیص خطای سیستمها استفاده شده است [2].
های استخراج متن و الگوریتم های قواعد انجمنی پویا نیز برای تشخیص خطای سیستمها استفاده شده است [2].
درخت الگوی مکرر (FP-growth)
درخت الگوی مکرر (FP-growth) یکی دیگر از الگوریتم های رایج قواعد انجمنی ن است. الگوریتم رشد FP برای یافتن مجموعه های مکرر در پایگاه داده تراکنشی مورد استفاده قرار میگیرد. رشد FP نشان دهنده موارد مکرر در درختان الگوی مکرر یا FP-tree است. به طور کلی ، رشد FP در استخراج حجم عظیمی از داده ها بسیار مفید ظاهر می شود [15-16].
الگوریتم یادیگری با نظارت: روش طبقه بندی
الگوریتمهای طبقه بندی می توانند رابطه پیچیده بین خطاها و علائم را بر اساس دادههای جمع آوری شده در شرایط پیچیده و گوناگون یاموزند. سپس می تواند تشخیص دهد که یک وضعیت جدید متعلق به کدام خطا است. دو نوع الگوریتم طبقه بندی استفاده شده است، یعنی الگوریتمهای طبقه بندی چند طبقه و الگوریتمهای طبقه بندی یک طبقه. ماشین بردار پشتیبانی10 یکی از پرکاربردترین الگوریتمهای طبقه بندی چند طبقه است. برخی از الگوریتمهای پیش پردازش دادهها با ماشین بردار پشتیبانی ادغام شده اند تا کارایی الگوریتمهای دادهکاوی افزایش یابد در ادامه فرایند پیش پردازش دادهها معرفی شده است [17].
ارزیابی مدل
سادهترین روش اندازهگیری عملکرد مسائل طبقه بندی به ویژه هنگامی که خروجی شامل دو یا چند کلاس باشد، استفاده از روش ارزیابی مدل و ماتریس درهم ریختگی است. ماتریس درهم ریختگی چیزی یک یک جدول دو بعدی است. ارزش واقعی و ارزش پیش بینی شده همانطور که در شکل زیر نشان داده شده است ، هر دو بعد مثبت-صحیح (TP) ، منفی-صحیح (TN) ، مثبت-غلط (FP) و منفی-غلط (FN) هستند [15].
دقت و صحت مدل
دقت11 و صحت12 متداولترین الگوریتمهای کلاسبندی هستند که در قالب پیشبینیهای درست تعریف میشوند. در واقع دقت درستی پیشبینیها را در یک نسبت موارد صحیح به کل موارد درست نشان میدهد. در شاخص صحت نیز نسبت مقدار موارد صحیح در کلاسها به کل اعضای پیشبینی شده در آن گروه محاسبه میشود.
امتیاز F
این امتیاز دقت و صحت را با هم مدنظر قرار میدهد. به بیان ریاضی، امتیاز F1 میانگین وزن دار از دقت و صحت است. بهترین مقدار برای F1 مقدار یک و بدترین مقدار صفر است
استخراج قواعد انجمنی
در استخراج قواعد انجمنی ارتباط بین متغیرها در میان حجم عظیمی از داده های عملیات بسیار بررسی میشود. قاعده ارتباط معمولاً به شکل "A → B" نشان داده می شود ، جایی که A مقدم و B نتیجه آن است. الگوریتم Apriori یکی از رایج ترین الگوریتم های قواعد انجمنی برای شناسایی الگوهای معمول است.
از دیگر الگوریتم های استخراج قوانین مرتبط مانند قواعد انجمنی وزنی ، قواعد انجمنی کمی و قواعد انجمنی زمانی استفاده شده است. در مقایسه با الگوریتم های معمول قواعد انجمنی ، الگوریتم قواعد انجمنی کمی می تواند داده های عددی و داده های دسته ای را بدون تشخیص داده ها استخراج کند [16].
اخیراً ، محققان دریافتند که الگوریتم استخراج نمودار ، یعنی تنوع قواعد انجمنی ، در استخراج پایگاه های داده چند رابطه ای بیشتر از الگوریتم های معمول قواعد انجمنی موثر است. به عنوان مثال ، فن و همکاران. یک روش مبتنی بر استخراج نمودار برای نشان دادن الگوهای عملکرد معمولی سیستم های HVAC پیشنهاد کرد. نمودارها قادر به توصیف دانش به صورت تصویری هستند. بنابراین ، روش های مبتنی بر معدن گراف می تواند تفسیرپذیری دانش استخراج شده را بهبود بخشد [17].
بسیاری از الگوریتمهای رگرسیونی برای پیش بینی موفقیت آمیز شبکه عصبی مصنوعی، رگرسیون بردار پشتیبان (SVR)، میانگین متحرک متحرک خودگردان (ARIMA)، شبکه عصبی عمیق (DNN) استفاده شده است. )، و غیره به کار میروند. به طور کلی، شامل چهار مرحله است، یعنی تبدیل دادهها، انتخاب ویژگی، بهینه سازی پارامترهای مدل و مدل آموزش. در مرحله تبدیل دادهها، دادههای عملیات خام تاریخی به منظور افزایش دقت مدل پیش بینی به یک مقیاس نرمال تبدیل می شوند. مرحله استخراج ویژگی در استخراج مرتبط ترین متغیرهای موثر بر بار انرژی هدف است. سپس از ویژگیهای استخراج شده برای آموزش مدل استفاده می شود. مرحله بهینهسازی پارامترهای مدل بهینه سازی پارامترهای فوق العاده مدل برای بدست آوردن ساختار مدل بهینه است [18].
رگرسیون خطی
از جمله فنون بررسی ارتباط میان متغیرهای مستقل و وابسته است که با یک متغیر مستقل و یک متغیر وابسته ثابت ادامه مییابد.
معیار نیمرخ13:
یکی دیگر از روشهای ارزیابی خوشهبندی، معیار «نیمرخ» است. این معیار هم به پیوستگی14 درون خوشهها و هم به میزان تفکیکپذیری آنها بستگی دارد. مقدار نیمرخ برای هر نقطه، میزان تعلق آن را به خوشهاش در مقایسه با خوشه مجاور اندازه میگیرد. در واقع الگوریتم نیمرخ از اطلاعات معیار مفید دیگری برای ارزیابی طبیعی تعداد خوشه هاست [19].
کاهش داده
کاهش داده15 عبارت از تبدیل اطلاعات دیجیتالی عددی یا الفبایی به صورت تجربی یا تجربی به یک فرم تصحیح شده، مرتب و ساده شده است. هدف از کاهش دادهها می تواند دوگانه باشد: کاهش تعداد پروندههای داده با حذف دادههای نامعتبر یا تولید خلاصه دادهها و آمار در سطوح مختلف تجمیع برای برنامههای مختلف. کاهش داده یا تکنیکهای کاهش متغیر، به سادگی به فرایند کاهش تعداد یا ابعاد ویژگیها در یک مجموعه داده اشاره دارد. معمولاً در هنگام تجزیه و تحلیل دادههای با ابعاد بالا (به عنوان مثال، تصاویر چند پیکسلی از صورت یا متون مقاله، فهرستهای نجومی و غیره) استفاده می شود. بسیاری از روشهای آماری و یادگیری ماشین برای دادههای با ابعاد بالا استفاده شده است، مانند مدل برداری و مخلوط برداری، نقشه برداری توپوگرافی مولد، کاهش ابعاد نقش مهمی در عملکرد طبقه بندی دارد. یک سیستم تشخیص با استفاده از مجموعه ای محدود از ورودیها طراحی شده است. در حالی که اگر این ویژگیهای اضافی را اضافه کنیم، عملکرد این سیستم افزایش می یابد، اما در برخی موارد یک گنجاندن بیشتر منجر به کاهش عملکرد می شود. بنابراین کاهش ابعاد ممکن است همیشه یک سیستم طبقه بندی را بهبود ندهد [22].کاهش دادهها نقش مهمی در عملکرد طبقه بندی دارد. یک سیستم تشخیص با استفاده از مجموعه ای محدود از ورودیها طراحی شده است. در حالی که اگر این ویژگیهای اضافی را اضافه کنیم، عملکرد این سیستم افزایش می یابد، اما در برخی موارد یک گنجاندن بیشتر منجر به کاهش عملکرد می شود. بنابراین کاهش ابعاد ممکن است همیشه یک سیستم طبقه بندی را بهبود ندهد.
تبدیل دادهها
در علوم رایانه، تبدیل دادهها16 فرایند تغییر قالب، ساختار یا مقادیر داده است. برای پروژههای تجزیه و تحلیل دادهها، دادهها ممکن است در دو مرحله از خط لوله داده تبدیل شوند. ... فرآیندهایی مانند یکپارچه سازی دادهها، انتقال دادهها، ذخیره سازی دادهها و کشمکش دادهها همه ممکن است شامل تغییر دادهها باشد. روشهای تبدیل داده ایجاد شده توسط پیشینیان عمدتا از نظر آماری است که با شرایط غیر طبیعی توالی سروکار دارد. با این حال، نظریههای محدود ریاضی یا آماری نمی توانند ویژگیهای اساسی دادهها را کاملاً توضیح دهند. در سالهای اخیر، ترکیب بین رشته ای سیستمهای پیچیده به یک موضوع داغ تبدیل شده است. در همین حال، برخی از نظریهها در فیزیک نیز نقش مهمی در زمینههای اقتصادی و مالی ایفا می کنند [23].
در بررسی روشهای مختلف مورد استفاده در حوزه سیستمهای توزیعشدهی بیگ دیتا با الگوریتمهای هوش مصنوعی، مشاهده میشود که بسیاری از رویکردها بهبودهای قابل توجهی را در زمینههای خاص ارائه میدهند، اما اغلب نقاط ضعف مهمی دارند. بعضی از روشها، مانند شبکههای عصبی عمیق، نیازمند دادههای بسیار زیاد و زمان آموزش طولانی هستند که در محیطهای زمان واقعی محدودیتهایی ایجاد میکند. سایر رویکردها، مانند روشهای مبتنی بر قوانین، سادهتر و سریعتر هستند اما نمیتوانند پیچیدگیهای دینامیک سیستمهای توزیعشده را به اندازه کافی مدلسازی کنند. مقایسه میان این روشها نشان میدهد که هیچ یک به طور کامل برتری مطلق ندارد و انتخاب روش مناسب، وابسته به نیازهای خاص پروژه و محدودیتهای عملی است. علاوه بر این، غالباً مطالعات بر روی معیارهای عملکرد محدود تمرکز دارند، در حالی که جنبههایی مانند مقیاسپذیری و قابلیت اطمینان و امنیت کمتر مورد ارزیابی قرار گرفته است.
در حوزه پردازش بیگ دیتا و سیستمهای توزیعشده، دیتاستهای متعددی برای آزمایش و ارزیابی روشها استفاده شده است، اما اغلب این دیتاستها به صورت کامل معرفی نمیشوند و در برخی پژوهشها، جزئیات قابل قبولی ارائه نمیگردد. نمونههایی مانند مجموعه دادههای شبیهسازی شده برای ارزیابی کارایی سیستم، دادههای جمعآوریشده از شبکههای سنجش ابری، و مجموعه دادههای واقعی مانند موارد حوزه اینترنت اشیاء و دادههای ثبتشده در مراکز دادهها از جمله موارد رایج هستند. شناخت ویژگیهای هر دیتاست، شامل حجم، نوع داده، مدت زمان جمعآوری، و مشخصات کیفیت دادهها، اهمیت زیادی در تفسیر نتایج دارد که متاسفانه بیشتر منابع به این نکات پرداخته نشده است. پارامترهای مورد استفاده در جدول 2 قابل مشاهده هستند.
شرح / توضیحات | کاربرد / اهمیت | پارامتر |
میزان بهرهوری منابع در اجرای وظایف | ارزیابی بهرهوری کلی سیستم | کارایی (Efficiency) |
مقدار انرژی مصرفشده توسط سیستم در حین عملیات | مهم برای سیستمهای سبز و پایدار | مصرف انرژی (Energy Consumption) |
مدت زمان لازم برای پاسخگویی سیستم به درخواستها | معیار مهم در سیستمهای زمانحساس | زمان پاسخ (Response Time) |
نسبت خطاهای رخداده در نتایج سیستم | نشاندهنده دقت و صحت عملکرد سیستم | نرخ خطا (Error Rate) |
توانایی سیستم در مدیریت حجمهای بزرگ داده و کاربران بدون افت کارایی | ارزیابی قابلیت رشد و توسعه سیستم | مقیاسپذیری (Scalability) |
ثبات عملکرد سیستم در مواجهه با تغییرات یا حجمهای متغیر دادهها | مهم در سیستمهای بلندمدت و هوشمند | پایداری (Stability) |
توانایی سیستم در تطابق با نیازهای مختلف و تغییر شرایط | برای سیستمهای چندمنظوره و آیندهپذیر | انعطافپذیری (Flexibility) |
سازگاری و یکپارچگی سیستم با سایر سامانهها و پلتفرمها | اهمیت در ساختارهای توزیعشده و چندسازهای | تعاملپذیری (Interoperability) |
مدت زمان مورد نیاز برای آموزش الگوریتمهای یادگیری ماشین | مهم در توسعه سریع مدلهای دینامیک | سرعت آموزش مدلها (Training Speed) |
سرعت بهروزرسانی مدلها و دادههای سیستم | برای سیستمهای پویا و در حال تغییر | نرخ بهروزرسانی (Update Rate) |
میزان استفاده مؤثر از CPU، حافظه و سایر منابع سیستم | برای بهبود بهرهوری کلی سیستم | بهرهوری منابع (Resource Utilization) |
درصد صحت و عملکرد بدون خطا در عملیات سیستم | مهم در سیستمهای حساس و بحرانی | قابلیت اطمینان (Reliability) |
توانایی تکرار نتایج در آزمایشهای مختلف | برای اعتبارسنجی پژوهش و توسعه مدلها | قابلیت تکرار (Reproducibility) |
میزان ایمنی سیستم در مقابل تهدیدات و حملات | حیاتی برای حفاظت دادههای حساس | امنیت (Security) |
هزینههای مرتبط با عملیات و نگهداری سیستم | برای ارزیابی هزینه-فایده راهکارها | هزینه اجرا (Operational Cost) |
میزان سهولت استفاده از سیستم توسط کاربران | مهم در پذیرش و کاربرد عملی سیستم | کاربری (Usability) |
ظرفیت و سرعت انجام عملیات موازی | برای سیستمهای مقیاسپذیر توزیعشده | توان پردازش موازی (Parallel Processing Power) |
حداکثر منابع مصرفشده در شرایط اوج فعالیت | برای مدیریت و برنامهریزی منابع | مصرف منابع در حالت پیک (Peak Resource Consumption) |
توزیع درست و متعادل وظایف و دادهها میان سرورها و منابع | برای کارایی و پایدارسازی سیستم | توازن بار (Load Balancing) |
عملکرد سیستم در محیطهای عملیاتی و واقعی | برای اطمینان از کاربردپذیری نتایج در دنیا واقعی | ارزیابی کارایی در محیطهای واقعی (Real-world Performance) |
براساس دادههای به دست آمده از جدول 2. معیارهای ارزیابی، نقش کلیدی در سنجش اثربخشی و کارایی هر روش دارند. در مطالعه حاضر، پارامترهایی مانند کارایی (Efficiency)، مصرف انرژی (Energy Consumption)، زمان پاسخ (Response Time)، نرخ خطا (Error Rate) و مقیاسپذیری (Scalability) مورد اشاره قرار گرفته است. اما تحلیل عمیق درباره کاربرد و اهمیت هر پارامتر، مقایسه میان مدلها بر اساس این معیارها و بررسی تأثیر هر پارامتر بر نتایج کلی، در مقاله مشاهده نمیشود. لازم است که در ادامه، این پارامترها با جزئیات بیشتری بررسی شوند تا بتوانیم ارزیابی دقیقتری از مدلها و روشهای پیادهسازیشده داشته باشیم.
در این نوآوری، سیستم هوشمندی توسعه یافته است که به صورت خودتنظیم و مبتنی بر یادگیری عمیق، منابع سیستمهای توزیعشده برای پردازش بیگ دیتا را به صورت دینامیک و هوشمند مدیریت میکند. این سیستم با جمعآوری دادههای لحظهای از سرورها، شبکه و زیرساختهای در حال اجرا، الگوهای مصرف منابع را تحلیل و پیشبینی میکند و بر اساس این پیشبینیها، تصمیم میگیرد که چگونه منابع را تخصیص دهد، وظایف را توزیع کند و بار کاری را تعادل بخشد. در این راستا، از شبکههای عصبی عمیق نظیر LSTM یا مدلهای ترنسفورمر برای آموزش مدلهای پیشبینی بهره میبرند تا دقت این پیشبینیها به حداکثر برسد. سیستم تصمیمگیری خودکار، قادر است به صورت پیوسته وارد عمل شود و واکنش سریع به تغییرات ناگهانی در میزان بار کاری نشان دهد، بدون نیاز به دخالت مستقیم انسان. این رویکرد نه تنها موجب بهبود بهرهوری و کاهش مصرف انرژی میشود، بلکه فرآیند مدیریت منابع را بسیار انعطافپذیرتر و مقیاسپذیرتر میسازد. یکی از چالشهای اصلی این سیستم، حفظ دقت و امنیت دادهها است که با بهکارگیری روشهای پیشرفته رمزگذاری و حفاظت از حریم خصوصی قابل حل است. این نوآوری میتواند به صورت مستقیم در مراکز دادههای ابری بزرگ و سیستمهای اینترنت اشیاء در شهرهای هوشمند پیادهسازی و بهینهسازی شود، و نقش مهمی در توسعه زیرساختهای هوشمند و کارآمد ایفا کند.
10. نتيجهگيري
مقاله حاضر به بررسی طراحی و پیادهسازی سیستمهای توزیع شده برای پردازش بیگ دیتا با استفاده از الگوریتمهای هوش مصنوعی پرداخته است. از آنجایی که حجم دادهها در دنیای امروزی رو به رشد است، استفاده از سیستمهای توزیع شده و الگوریتمهای هوش مصنوعی برای پردازش این دادهها اهمیت بیشتری پیدا کرده است. نتایج به دست آمده از این مقاله نشان میدهد که استفاده از سیستمهای توزیع شده و الگوریتمهای هوش مصنوعی میتواند بهبود قابل توجهی در عملکرد پردازش بیگ دیتا داشته باشد. این روشها امکان پردازش سریعتر و بهینهتر دادهها را فراهم میکنند و از مزایای قابل توجهی برای سازمانها و شرکتها به دنبال دارند.
بنابراین، از این مقاله میتوان نتیجه گرفت که استفاده از سیستمهای توزیع شده و الگوریتمهای هوش مصنوعی برای پردازش بیگ دیتا میتواند بهبود قابل توجهی در عملکرد و کارایی سیستمها و برنامههای مختلف ایجاد کند. در نتیجه، سیستم های توزیع شده یک رویکرد همه کاره و انعطاف پذیر برای محاسبات ارائه می دهند. این سیستم ها با استفاده از توان جمعی گره های متعدد، می توانند وظایف پیچیده را به راحتی انجام دهند. در حالی که چالشهایی مانند سازگاری دادهها ممکن است ایجاد شود، مزایای مقیاسپذیری و تحمل خطا، سیستمهای توزیعشده را به ابزاری ارزشمند در چشمانداز دیجیتال امروزی تبدیل میکند.
منابع
[1] Aminizadeh, S., Heidari, A., Toumaj, S., Darbandi, M., Navimipour, N. J., Rezaei, M., ... & Unal, M. (2023). The applications of machine learning techniques in medical data processing based on distributed computing and the Internet of Things. Computer methods and programs in biomedicine, 107745.
[2] Al-Jumaili, A. H. A., Muniyandi, R. C., Hasan, M. K., Paw, J. K. S., & Singh, M. J. (2023). Big data analytics using cloud computing based frameworks for power management systems: Status, constraints, and future recommendations. Sensors, 23(6), 2952.
[3] Khang, A., Gupta, S. K., Rani, S., & Karras, D. A. (Eds.). (2023). Smart Cities: IoT Technologies, big data solutions, cloud platforms, and cybersecurity techniques. CRC Press.
[4] Manikandan, N., Tadiboina, S. N., Khan, M. S., Singh, R., & Gupta, K. K. (2023, May). Automation of Smart Home for the Wellbeing of Elders Using Empirical Big Data Analysis. In 2023 3rd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE) (pp. 1164-1168). IEEE.
[6] Hong, S. C. T.-L., S. D'Oca, D. Yan, S. P. (2016). Advances in research and applications of energy-related occupant behavior in buildings. Electronic Library, 116, 694-704.
[7] M. Denil, L. Bazzani, H. Larochelle, and N. de Freitas. Learning where to attend with deep architectures for image tracking. Neural computation, 24(8):2151–2184, 2012
[8] Chandrashekar, G., & Sahin, F. (2014). A survey on feature selection methods. Computers & Electrical Engineering, 40(1), 16-28.
[9] Chunduri, R. K., & Cherukuri, A. K. (2021). Scalable algorithm for generation of attribute implication base using FP-growth and spark. Soft Computing, 1-22.
[10] D’Oca, S., Chen, C. F., Hong, T., & Belafi, Z. . (2017). Synthesizing building physics with social psychology: An interdisciplinary framework for context and occupant behavior in office buildings. Energy research & social science, 34, 240-251.
[11] Fan, S. X., F. (2018). Mining big building operational data for improving building energy efficiency: a case study. Build. Serv. Eng. Res. Technol, 39, 117-128.
[12] Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255-260.
[13] Laender, A. H., Ribeiro-Neto, B. A., Da Silva, A. S., & Teixeira, J. S. (2002). A brief survey of web data extraction tools. ACM Sigmod Record, 31(2), 84-93.
Loshin, D. (2013). Business Intelligence (Second Edition):
[14] Morgan Kaufmann Mirmozaffari, M., Boskabadi, A., Azeem, G., Massah, R., Boskabadi, E., Dolatsara, H. A., & Liravian, A. (2020). Machine learning clustering algorithms based on the DEA optimization approach for banking system in developing countries. European Journal of Engineering and Technology Research, 5(6), 651-658.
[15] Nabilah, A., Devita, H. P., Van Halen, Y., & Jurizat, A. (2021). Energy Efficiency in Church Building Based on Sefaira Energy Use Intensity Standard. Paper presented at the IOP Conference Series: Earth and Environmental Science.
[16] Poelmans, J., Dedene, G., Verheyden, G., Van der Mussele, H., Viaene, S., & Peters, E. (2010). Combining business process and data discovery techniques for analyzing and improving integrated care pathways. Paper presented at the Industrial Conference on Data Mining.
[17] Qamar Shahbaz Ul Haq. (2016). Data Mapping for Data Warehouse Design: Morgan Kaufmann
[18] Qiu, F. F., Z. Li, G. Yang, P. Xu, Z. Li. (2019). Data mining based framework to identify rule based operation strategies for buildings with power metering system. Build. Simul, 12, 195-205.
[14] Salvador García, J. L., Francisco Herrera. (2014). Data Preprocessing in Data Mining: Springe
[15] Sherman, R. (2015). Business Intelligence Guidebook: Morgan Kaufmann.
Zhang. (2015). A New Data Transformation Method and Its Empirical Research Based on Inverted Cycloidal Kinetic Model. Procedia Computer Science, 55, 485-492.
[16] D. Held, S. Thrun, and S. Savarese. Learning to track at 100 fps with deep regression networks. arXiv preprint arXiv:1604.01802, 2016.
[17] Vatter, J., Mayer, R., & Jacobsen, H. A. (2023). The evolution of distributed systems for graph neural networks and their origin in graph processing and deep learning: A survey. ACM Computing Surveys, 56(1), 1-37.
[18] S. Hong, T. You, S. Kwak, and B. Han. Online tracking by learning discriminative saliency map with convolutional neural network. arXiv preprint arXiv:1502.06796, 2015.
[19] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. arXiv preprint arXiv:1603.08155, 2016.
[20] S. E. Kahou, V. Michalski, and R. Memisevic. Ratm: Recurrent attentive tracking model. arXiv preprint arXiv:1510.08660, 2015.
[21] M. Kristan, J. Matas, A. Leonardis, M. Felsberg, L. Cehovin, G. Fernandez, T. Vojir, G. Hager, G. Nebehay, and R. Pflugfelder. The visual object tracking vot2015 challenge results. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 1–23, 2015.
[22] Olaniyi, O., Okunleye, O. J., & Olabanji, S. O. (2023). Advancing data-driven decision-making in smart cities through big data analytics: A comprehensive review of existing literature. Current Journal of Applied Science and Technology, 42(25), 10-18.
[23] Himeur, Y., Elnour, M., Fadli, F., Meskin, N., Petri, I., Rezgui, Y., ... & Amira, A. (2023). AI-big data analytics for building automation and management systems: a survey, actual challenges and future perspectives. Artificial Intelligence Review, 56(6), 4929-5021.
Design and implementation of distributed systems for big data processing using artificial intelligence algorithms
Rahim Karimi1 |
2Second Author Affiliation, email@gmail.com
3Third Author Affiliation, email@gmail.com
Correspondence Rahim Karimi - Department of Mathematics Education, Farhangian University, P.O. Box 14665-889, Tehran, Iran rahim.karimi@iau.ir |
Abstract
In this article, the design and implementation of distributed systems for big data processing using artificial intelligence algorithms have been investigated. Due to the increasing growth of the volume of data in today's world, the use of these systems and artificial intelligence algorithms for data processing has become more important. The obtained results show that these methods can significantly improve the performance of big data processing and have significant benefits for organizations and companies. This paper shows that the use of distributed systems and artificial intelligence algorithms can significantly improve the performance and efficiency of various systems and programs.
Keywords: distributed systems, big data processing, artificial intelligence algorithms, performance improvement, systems efficiency.
[1] Big Data
[2] Discrete Fourier Trans
[3] Wavelet decompositions
[4] Principal component analysis
[5] Feature Selection
[6] Wrapper method
[7] Filter methods
[8] Embeded method
[9] Knowledge Discovery
[10] support vector machine
[11] Precision
[12] Recall
[13] Silhouette
[14] Cohesion
[15] Data Reduction
[16] Data Transformation