Data Analysis of Marketing Companies using Improved K-Means Clustering and LRFMM2 Model
Subject Areas : Computer Engineering and ITAtieh Mirzaei 1 , zahra rezaei 2
1 - Department of Computer Engineering, South Tehran Branch, Islamic Azad University, Tehran, Iran
2 - Department of Computer Engineering, Marvdasht Branch, Islamic Azad University, Marvdasht, Iran
Keywords: Clustering, K-means, Optimization, Marketing, Analysis,
Abstract :
Clustering, especially k-means, is one of the most important data mining techniques for identifying and monitoring customer behavior. In classical k-means, the optimality depends on the initial selection of the centers; therefore, it is not optimal. Another problem is determining the number of clusters and making the clusters zero. Customers’ behavioral characteristics are considered in customer clustering, and a method is used to find the optimal number of clusters and the initial values of cluster centers to achieve more accurate results and predict customer lifetime. The results of this research show the customer behavior of each cluster. The proposed improved k-means method has been compared with the classical K-means once including the M2 parameter (customer satisfaction level) and once without M2. The Normalized Mutual Information (NMI) criterion was calculated on the proposed method and the compared method, and in both cases, considering or missing the M2 index, the NMI of the proposed method was higher. Also, the adjusted rand index with the M2 parameter has recorded the highest number. In terms of time, it is faster than classical K-means, which shows that the proposed method has the best performance in terms of speed and performance accuracy compared to classical K-means.
[1] A. Alizadeh Zoeram and A. R. Karimi Mazidi, “New Approach for Customer Clustering by Integrating the LRFM Model and Fuzzy Inference System,” Iranian Journal of Management Studies, vol. 11, no. 2, pp. 351–378, Apr. 2018, doi: 10.22059/IJMS.2018.242528.672839.
[2] B. I. Nugroho, A. Rafhina, P. S. Ananda, and G. Gunawan, “Customer segmentation in sales transaction data using k-means clustering algorithm,” Journal of Intelligent Decision Support System, vol. 7, no. 2, pp. 130–136, Jun. 2024, doi: 10.35335/idss.v7i2.236.
[3] M. Sarkar, A. Roy Puja, and F. R. Chowdhury, “Optimizing Marketing Strategies with RFM Method and K-Means Clustering-Based AI Customer Segmentation Analysis,” Journal of business and management studies, Mar. 2024, doi: 10.32996/jbms.2024.6.2.5.
[4] H. Zare and S. Emadi, “Determination of Customer Satisfaction using Improved K-means algorithm,” vol. 24, no. 22, pp. 16947–16965, May 2020, doi: 10.1007/S00500-020-04988-4.
[5] M. Farhan and J. Heikal, “Used Car Customer Segmentation Using K-Means Clustering Model With SPSS Program: Case Study Caroline.Id,” Jurnal Indonesia Sosial Sains, Mar. 2024, doi: 10.59141/jiss.v5i03.1042.
[6] A. Rachwał et al., “Determining the Quality of a Dataset in Clustering Terms,” Applied Sciences, vol. 13, no. 5, p. 2942, Feb. 2023, doi: 10.3390/app13052942.
[7] T. Jiang and A. Tuzhilin, “Improving Personalization Solutions through Optimal Segmentation of Customer Bases,” IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 3, pp. 305–320, Mar. 2009, doi: 10.1109/TKDE.2008.163.
[8] S. Shah and M. Singh, "Comparison of a Time Efficient Modified K-mean Algorithm with K-Mean and K-Medoid Algorithm," 2012 International Conference on Communication Systems and Network Technologies, Rajkot, pp. 435-437, May, 2012, doi: 10.1109/CSNT.2012.100.
[9] Y. S. Cho and S. C. Moon, “Weighted Mining Frequent Pattern based Customer’s RFM Score for Personalized u-Commerce Recommendation System,” Journal of Convergence, vol. 4, no. 4, pp. 36–40, Dec. 2013.
[10] X. He and C. Li, "The Research and Application of Customer Segmentation on E-Commerce Websites," 2016 6th International Conference on Digital Home (ICDH), Guangzhou, China, 2016, pp. 203-208, doi: 10.1109/ICDH.2016.050.
[11] L. Zahrotun, "Implementation of data mining technique for customer relationship management (CRM) on online shop tokodiapers.com with fuzzy c-means clustering," 2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE), Yogyakarta, Indonesia, pp. 299-303, Nov. 2017, doi: 10.1109/ICITISEE.2017.8285515.
[12] J. Hu, M. Li, E. Zhu, S. Wang, X. Liu and Y. Zhai, "Consensus Multiple Kernel K-Means Clustering With Late Fusion Alignment and Matrix-Induced Regularization," in IEEE Access, vol. 7, pp. 136322-136331, Sep. 2019, doi: 10.1109/ACCESS.2019.2940896.
[13] F. Khanizadeh, F. Khamesian, and A. Bahiraie, “Customer Segmentation for Life Insurance in Iran Using K-means Clustering,” International Journal of Nonlinear Analysis and Applications, vol. 12, pp. 633–642, Jan. 2021, doi: 10.22075/IJNAA.2021.22324.2350.
[14] P. Anitha, P. Anitha, and M. M. Patil, “RFM model for customer purchase behavior using K-Means algorithm,” Journal of King Saud University - Computer and Information Sciences, Dec. 2019, doi: 10.1016/J.JKSUCI.2019.12.011.
[15] J. Wang and X. Su, "An improved K-Means clustering algorithm," 2011 IEEE 3rd International Conference on Communication Software and Networks, Xi'an, China, May. 2011, pp. 44-46, doi: 10.1109/ICCSN.2011.6014384.
[16] L. Danon, A. Díaz-Guilera, J. Duch, and A. Arenas, “Comparing community structure identification,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2005, no. 09, p. 09008, Sep. 2005, doi: 10.1088/1742-5468/2005/09/P09008.
[17] A. Amelio and C. Pizzuti, “Is Normalized Mutual Information a Fair Measure for Comparing Community Detection Methods?,” in Proceedings of the 2015 IEEE/ACM international conference on advances in social networks analysis and mining, pp. 1584–1585, Aug. 2015, doi: https://doi.org/10.1145/2808797.2809344.
[18] W. M. Rand, “Objective Criteria for the Evaluation of Clustering Methods,” Journal of the American Statistical Association, vol. 66, no. 336, pp. 846–850, Dec. 1971, doi: 10.1080/01621459.1971.10482356.
Data Analysis of Marketing Companies using Improved …/ Mirzaei and Rezaei
Data Analysis of Marketing Companies using
Improved K-Means Clustering and LRFMM2 Model
Atieh Mirzaei1 , Zahra Rezaei 2*
1 Department of Computer Engineering, South Tehran Branch, Islamic Azad University, Tehran, Iran
tyhmirzaii@yahoo.com
2 Department of Computer Engineering, Marvdasht Branch, Islamic Azad University, Marvdasht, Iran
Abstract: Clustering, especially k-means, is one of the most important data mining techniques for identifying and monitoring customer behavior. In classical k-means, the optimality depends on the initial selection of the centers; therefore, it is not optimal. Another problem is determining the number of clusters and making the clusters zero. Customers’ behavioral characteristics are considered in customer clustering, and a method is used to find the optimal number of clusters and the initial values of cluster centers to achieve more accurate results and predict customer lifetime. The results of this research show the customer behavior of each cluster. The proposed improved k-means method has been compared with the classical K-means once including the M2 parameter (customer satisfaction level) and once without M2. The Normalized Mutual Information (NMI) criterion was calculated on the proposed method and the compared method, and in both cases, considering or missing the M2 index, the NMI of the proposed method was higher. Also, the adjusted rand index with the M2 parameter has recorded the highest number. In terms of time, it is faster than classical K-means, which shows that the proposed method has the best performance in terms of speed and performance accuracy compared to classical K-means.
Keywords: Clustering, K-means, Optimization, Marketing, Analysis
JCDSA, Vol. 2, No. 2, Summer 2024 | Online ISSN: 2981-1295 | Journal Homepage: https://sanad.iau.ir/en/Journal/jcdsa |
Received: 2024-06-01 | Accepted: 2024-08-23 | Published: 2024-09-15 |
CITATION | Mirzaei, A., and Rezaei, Z., "Data Analysis of Marketing Companies using Improved K-Means Clustering and LRFMM2 Model", Journal of Circuits, Data and Systems Analysis (JCDSA), Vol. 2, No. 2, pp. 19-29, 2024. DOI: 00.00000/0000 | |
COPYRIGHTS
| ©2024 by the authors. Published by the Islamic Azad University Shiraz Branch. This article is an open-access article distributed under the terms and conditions of the Creative Commons Attribution 4.0 International (CC BY 4.0) |
* Corresponding author
Extended Abstract
1- Introduction
Today’s new economy primarily focuses on providing better services, and the present era is called the customer-oriented economy [1]. Sales transaction data generated by retail and e-commerce businesses is rapidly increasing today [2]. Network marketing companies sell their products online by recruiting network marketers. It is believed that keeping a customer is more important than finding a new customer, and this can be considered a job and profession that helps generate employment. The existence of great competitors in the field of business has led to escalating competition between organizations. Regardless of the size of the company, excellent customer service is critical to gaining new customers and retaining existing customers [3]. Effective customer knowledge management leads to effective customer relationship management (CRM). The interaction between organizations and customers has changed significantly, so there is no long-term guarantee of business continuity with customers. However, organizations must adequately identify their customers and anticipate their needs and expectations [4]. With a deep understanding of customer clustering, companies can create specific and targeted marketing strategies for each customer group [5]. Customer segmentation is the process of dividing the entire market into smaller customer groups, which makes it possible to understand the different needs and behaviors of customers and adapt the appropriate marketing approach or product recommendations to them [6]. This research is a step toward improving the marketing business in Iran, which will be used through the detection of violations from the data of marketing companies and for investigation by the institutions that supervise these businesses.
2- Methodology
The data collected from the database of network marketing companies was randomly extracted and included customer IDs and purchase amounts for each month from April 1996 to December 1996. The customer ID, the number of purchases made, the price paid, the date of purchase, and customer satisfaction have been calculated and extracted from the existing dataset. The data of each marketing company has a different structure, and to provide aggregated reports, it was necessary to aggregate all the data in a data warehouse with BI tools and to unify the data in terms of structure before doing anything. In the data mining phase, the transaction data is fragmented, including transaction date, purchase frequency (number of months the purchase was made), monetary value of the transaction, and customer satisfaction. To extract the L, R, F, M, and M2 parameters of each customer in this research, the distance between the first and last purchase of the customer was calculated as the L feature. The algorithm's first step in the proposed method is determining each cluster's initial element. This method first starts with a cluster containing an element, and in other steps, it calculates the distance of other elements from the center of the specified clusters. However, the data closest to the data mean is determined as the only member of the first cluster. After assigning each element to a cluster, the average data of that cluster is updated based on the Customer life cycle value (CLV).
3- Results and discussion
The Custno variable should be a number between 2000 and 5000. In this research, 2450 to 4000 classes were considered to increase the number of courses due to the small number of samples. Data that are placed in the same class have the same CLV value. Then, the total average of these CLVs is calculated according to Custno. The center point in K-means clustering is the point that represents a particular cluster and is the average of all data points in the cluster at each step (up to convergence) change. In determining the initial data of each cluster, suitable initial centers can speed up the convergence of K-means. The final results of the k-means algorithm depend on the initialization of the center. Two different clusters have been done on the data. The first clustering was done by considering the M2 parameter (marketers' satisfaction level), and the second was done without considering M2. In the first clustering, customers in all clusters except the first to fifth clusters in this pyramid are in a favorable situation regarding L, R, F, M, and M2 characteristics. Therefore, to retain these customers, the company is suggested to convert their loyalty behavior into a loyalty display through communicating and interacting with them. Based on this, customers in clusters 7 to 10 have best conditions in terms of characteristics L, R, F, M, M2. In the second clustering, the data is divided into 3 clusters.
4- Conclusion
The main goal of the research is to use the k-means algorithm and find the length of customer life using parameters such as the distance between the first and last purchase of the marketer as L feature, the distance between the customer's last purchase and the end of the period as R feature, the number of months customer purchases in a specific time period as feature F, the total monetary value between the first and last purchase of a customer in a specific time period as feature M and the level of satisfaction of marketers as feature M2 and predicting the probability of buying in the coming months and To find points with a big jump; the data is first sorted by CLV in ascending order. Then, the Euclidean distance value of each data is obtained from its previous data in ascending order of CLV. The distance between some data and the center of the first cluster and the obtained optimal center values are calculated. After that, these steps are repeated to obtain all the cluster centers. The optimal number of clusters has been calculated using the equations as 10. The lower the level of marketers' satisfaction, the CLV variable, which represents the customer's lifetime, also decreases.
تحلیل دادههای شرکتهای بازاریابی با استفاده از
خوشهبندی K-Means بهبودیافته و مدل LRFMM2
عطیه میرزایی1، زهرا رضایی2*
1- گروه مهندسی کامپیوتر، واحد تهران جنوب، دانشگاه آزاد اسلامی، تهران، ایران (tyhmirzaii@yahoo.com)
2- گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران (zrezaei@iau.ac.ir)
چکیده: خوشهبندی به ویژه k میانگین، یکی از مهمترین روشهای دادهکاوی است که در شناسایی و رصد رفتار مشتریان مورد استفاده قرار میگیرد. در k میانگین کلاسیک، بهینگی وابسته به انتخاب اولیه مراکز بوده و در نتیجه، این روش، بهینه نیست. مشکلات دیگر آن تعیین تعداد خوشهها و صفر شدن خوشهها است. در خوشهبندی مشتری، ویژگیهای رفتاری مشتری به عنوان روشی برای یافتن تعداد بهینه خوشهها و مقادیر اولیه مراکز خوشه برای دستیابی به نتایج دقیقتر و پیشبینی طول عمر مشتریان در نظر گرفته شده است. نتایج این پژوهش رفتار مشتریان هر یک از خوشهها را نشان میدهد و روش پیشنهادی بهبود یافته k میانگین یک بار با احتساب پارامتر M2 (میزان رضایت مشتریان) و یک بار بدون M2 با k میانگین کلاسیک مقایسه شده است. معیار اطلاعات متقابل نرمالیزه بر روی روش پیشنهادی و روش مورد مقایسه محاسبه شده و در هر دو حالت، با در نظر گرفتن یا فقدان شاخص M2، معیار اطلاعات متقابل نرمالیزه روش پیشنهادی بالاتر بوده است. همچنین شاخص رند تعدیل یافته برای حالت روش پیشنهادی با احساب پارامتر M2 بالاترین عدد را ثبت کرده است. روش پیشنهادی از نظر زمان محاسباتی نیز سریعتر از k میانگین کلاسیک بوده که نشان میدهد این روش عملکرد بهتری را از نظر سرعت و دقت عملکرد نسبت به k میانگین کلاسیک دارد.
واژه های کلیدی: خوشهبندی، k میانگین ، بهینهسازی، بازاریابی، تحلیل
DOI: 00.00000/0000 |
| نوع مقاله: پژوهشی |
تاریخ چاپ مقاله: 25/06/1403 | تاریخ پذیرش مقاله: 02/06/1403 | تاریخ ارسال مقاله: 12/03/1403 |
1- مقدمه
اقتصاد جدید امروز به طور گسترده بر ارائه خدمات بهتر متمرکز شده و عصر حاضر را اقتصاد مشتری مداری مینامند [1]. دادههای تراکنشهای فروش که توسط کسبوکارهای خردهفروشی و تجارت الکترونیک ایجاد میشوند؛ در دنیای امروزی به سرعت در حال افزایش است [2]. شرکتهای بازاریابی شبکهای از طریق جذب بازاریاب به صورت شبکهای اقدام به فروش محصولات خود به صورت آنلاین مینمایند. اعتقاد بر این است که حفظ مشتری مهمتر از یافتن مشتری جدید است و بیانگر آن است که این میتواند به عنوان یک شغل و حرفه محسوب شده و به اشتغالزایی کمک نماید. وجود رقبای فوق العاده در حوزه کسب و کار منجر به رقابتهای تصاعدی بین سازمانها شده است. صرف نظر از اندازه شرکت، خدمات عالی به مشتریان برای بهدست آوردن مشتریان جدید و حفظ مشتریان موجود، از اهمیت زیادی برخوردار است [3]. مدیریت موثر دانش مشتری، منجر به مدیریت کارآمد ارتباط با مشتری1 می شود. تعامل بین سازمانها و مشتریان به طور قابل توجهی تغییر کرده است؛ به طوری که هیچ تضمین بلندمدتی برای تداوم تجارت با مشتریان وجود ندارد. با این حال، سازمانها باید مشتریان خود را به درستی شناسایی کنند و نیازها و انتظارات آنها را پیشبینی کنند [4]. با درک عمیق از خوشهبندی مشتریان، شرکتها میتوانند برای هر گروه مشتری، استراتژی های بازاریابی خاص و هدفمند را ایجاد کنند [5]. تقسیمبندی مشتری، فرآیند تقسیم کل بازار به گروه های مشتریان کوچکتر است که باعث میشود تا نیازها و رفتارهای مختلف مشتریان، درک شده و رویکرد بازاریابی مناسب یا توصیههای محصول را با آنها تطبیق داد [6].
این تحقیق گامی است در جهت سالمسازی کسب و کار بازاریابی در ایران که از طریق شناسایی موارد تخلف از دادههای شرکتهای بازاریابی، کشف و جهت بررسی توسط نهادهای ناظر بر این کسب و کارها، مورد استفاده قرار خواهد گرفت. از جمله تخلفات موجود در این حوزه که برای کسب بالاسری بیشتر از فروش زیرمجموعهها رخ میدهد، مجبور کردن بازاریابان زیرمجموعه به خرید محصولاتی است که قادر به فروش آنها به مشتریان نیستند. طبق قوانین کشور, اجبار در خرید بایستی منجر به غیرفعال شدن کد بازاریابی فرد متخلف گردد. به همین جهت با استفاده از مدل LRFMM2 و محاسبه طول عمر مشتری2 به کشف موارد تخلف پرداخته خواهد شد. بدین ترتیب که معمولاً در اجبار در خرید، بازاریابان در ماههای ابتدای عضویتشان خریدهایی با مبالغ نه چندان کم انجام میدهند و در ماههای بعد از آن به علت عدم توانایی در فروش محصولات به مشتری، خریدی انجام نمیدهند. یافتن این افراد از طریق خوشهبندی صحیح انجام میشود. روشهای خوشهبندی میتواند دادههای ارزیابیهای مشتریان را در خوشههای مختلف تقسیمبندی کند. سپس، مدیران، مدیریت ارتباط با مشتری خود را توسعه خواهند داد و با توجه به ترجیحات3 مشتریان، آنها را خوشهبندی کنند. در این مقاله، خوشهبندی بهینه بازاریابان بر اساس تعداد ماههایی که خرید کردهاند، فاصله زمانی از آخرین خریدشان و میزان مبلغ خریدی که انجام دادهاند، صورت میپذیرد. به کمک روش دیوس بولدین تعداد خوشههای بهینه تعیین میشوند. افزایش سرعت و دقت اجرای الگوریتم k میانگین4 و مقایسهی آن با k میانگین کلاسیک از اهداف این تحقیق میباشد. در مرحله بعد اعضا، بر اساس پارامترهای LRFMM2 خوشهبندی میشوند. در ادامه ارزش طول عمر مشتری برای هر یک از خوشههای موجود محاسبه و خوشهها بر اساس ارزش طول عمر مشتری آنها رتبهبندی میشوند. درنهایت با استفاده از الگوهای پیشین و مدل ارزش طول عمر مشتری در هر خوشه و انجام سعی و خطا، الگوهای سفارشی به دست میآید. نوآوری دیگر این پژوهش استفاده از پارامتر M2 که نارضایتی مشتریان است، میباشد که برای شناسایی بازاریابانی که توسط بالاسری های خود اجبار در خرید داشتهاند، استفاده شده است. در این تحقیق روش پیشنهادی از طریق معیار اطلاعات متقابل نرمالیزه, معیار ارزیابی اگوریتم جهت تشخیص دقت و صحت و همچنین شاخص رند تعدیل یافته با احتساب M2 و بدون M2 با k میانگین کلاسیک مقایسه شده است.
2- مرور ادبیات
به طور سنتی مشتری بخشبندی با استفاده از روشهای مبتنی بر آمار که مجموعهای از آمار را از دادههای مشتری محاسبه میکند و مشتریان را گروه میکند، بهدست میآید. اعمال الگوریتمهای خوشهبندی مبتنی بر فاصله در فضای این آمار، به بخشها تقسیم میشوند. تیانی جیانگ و الکساندر توژیلین [7] رویکرد مبتنی بر گروهبندی را پیشنهاد دادند که برای محاسبه بخشهای مشتری، بر اساس ترکیب بهینه دادههای تراکنشی چندین مشتری برای ایجاد یک مدل دادهکاوی بهکار گرفته شد. آنها دریافتند که یافتن یک بخش مشتری، بهینه 5NP-hard است؛ بنابراین چندین گروهبندی مستقیم زیر بهینه را پیشنهاد کردند. تجزیه و تحلیل خوشهبندی یک کار توصیفی است که به دنبال شناسایی گروههای همگن از اشیا، بر اساس مقادیر ویژگیهای آنهاست. سوراب شاه و مانموهان سینگ [8] الگوریتم خوشهبندی جدیدی ارائهدادند که شبیه الگوریتم k میانگین و K-medoids است و چندین روش را برای انتخاب خوشه اولیه آزمایش کردند. الگوریتم k میانگین اصلاح شده از نظر تعداد خوشهها و مقایسه زمان اجرا در مقایسه با الگوریتمهای k میانگین و K-Mediod نتایج بهتری بهدست آورد. سانگ چو و سونگ چول [9] یک الگوی وزنی جدید استخراج فرکانس مبتنی بر امتیاز RFM6 مشتری برای سیستم توصیههای تجاری u-commerce شخصی شده را پیشنهاد کردند. سیستمهای سنتی دارای مشکلاتی مانند تاخیر در سرعت پردازش داده، در نظر گرفتن وزن برابر برای هر آیتم هستند. در این مقاله، برای حل این مشکلات، دادههای متداول خریداری شده از کل دادهها استخراج شده، اهمیت ویژگی اقلام در نظر گرفته شده تا با تأکید بر موارد مهم با قابلیت خرید بالا، روندهای متوالی در حال تغییر، پیشبینی شود. برای تأیید عملکرد روش بهبود یافته، آزمایشهایی با مجموعه دادههای جمعآوری شده در یک مرکز خرید اینترنتی لوازم آرایشی انجام شده است.
ایکس او و سی لی [10] یک مدل تقسیمبندی سه بعدی مشتری بر اساس ارزش طول عمر مشتری، رضایت مشتری و فعالیت مشتری پیشنهاد دادند که مشتریان را با دقت بیشتری به گروههای مختلف تقسیم میکند. متغیرهای مربوطه توسط مدل RFM، مدل کانو و مدل BG/NBD به دست آمده است. مدل تقسیمبندی مشتری، ده گروه از مشتریان را با استراتژیهای بازاریابی مربوطه ارائه میکند؛ به طوریکه میتواند به شرکتها در به حداکثر رساندن سود کمک کند. فروشگاههای اینترنتی با بهکارگیری مفهوم مدیریت ارتباط با مشتری میتواند مشتریان را شناسایی کند، بنابراین مشتریان میتوانند با توجه به نیاز خود، از تسهیلات ویژه در استراتژیهای بازاریابی مناسب برخوردار شوند. لیسنا زهروتون [11] با استفاده از مفهوم مدیریت ارتباط با مشتری برای خرید آنلاین، مشتریان بالقوه را با تقسیمبندی مشتریان شناسایی کردند. بنابراین برای تقسیمبندی مشتری و بازاریابی دقیق، از روش خوشهبندی فازی استفاده کردند که به افزایش سود شرکت کمک میکند. علیزاده و همکاران [1] برای تحلیل ویژگیهای رفتار خرید مشتریان، به منظور بهبود عملکرد سیستم مدیریت ارتباط با مشتری، یک روش سیستماتیک را پیشنهاد دادند. برای این منظور، از مدل بهبود یافته LRFM (شامل شاخصهای طول، تازگی، فرکانس و پولی) استفاده شد که در حال حاضر مدل رایجتری نسبت به مدل پایه RFM برای تحلیل ارزش طول عمر مشتری است. از آنجایی که مدل RFM وفاداری مشتریان را در نظر نمیگیرد؛ از مدل LRFM برای ایجاد اصلاحات استفاده شده است. برخلاف بسیاری از مطالعات گذشته که در آن از روشهای خوشهبندی آماری در کنار مدل RFM یا LRFM استفاده شده است؛ مطالعه حاضر امکان تحلیل خوشهبندی را با وارد کردن شاخصهای LRFM در چارچوب یک سیستم استنتاج فازی فراهم کرده است. نتایج بهدستآمده برای یک شرکت عمدهفروشی بر اساس رویکرد پیشنهادی نشان داد که بین خوشهها از نظر چهار شاخص LRFM تفاوت معناداری وجود دارد. بنابراین میتوان از این رویکرد برای خوشهبندی مشتریان و بررسی ویژگیهای آنها استفاده کرد. نقطه قوت این رویکرد در مقایسه با رویکردهای قدیمی، انعطاف پذیری بالای آن است، زیرا در آن نیازی به خوشهبندی مجدد مشتریان و تدوین مجدد استراتژی ها در صورت افزایش یا کاهش تعداد مشتریان نیست.
خوشهبندی چندهستهای7 به دلیل عملکرد رقابتی در یادگیری بدون نظارت، نظرات قابل توجهی را به خود جلب میکند. با این حال، مشاهده میشود که بسیاری از رویکردهای موجود خوشهبندی چندهستهای ارتباط بین بخشهای خوشهبندی مختلف را به اندازه کافی در نظر نمیگیرند. در نتیجه، روشهای موجود باعث ایجاد تنوع زائد و کم بخشهای خوشهبندی انتخاب شده میشوند که عملکرد خوشهبندی را بدتر میکنند. برای پرداختن به این موضوعات، یک روش خوشهبندی چند هستهای k میانگین موثر و کارآمد توسط جی هو و همکاران [12] ارائه شد. در این روش، تراز حداکثری بخش توافقی با بخشهای پایه وزنی پیشنهاد می شود. الگوریتم مورد نظر، به طور مشترک بخشهای خوشهبندی پایه و نتیجه خوشهبندی توافقی بهینه را بهینه میکند. در [4]، ویژگیهای رفتاری مشتریان (ویژگی مخرب) را در نظر گرفتند که برای خوشهبندی مشتریان، تعیین بهینه تعداد خوشهها و مقادیر اولیه مراکز خوشه برای بهدست آوردن نتایج دقیقتر بود. در نهایت، با توجه به نیاز سازمانها به استخراج دانش از دیدگاه مشتریان از طریق رتبهبندی مشتریان بر اساس عوامل موثر ارزش مشتری، روشی برای مدلسازی رفتار آنها و استخراج دانش برای ارتباط با مشتری پیشنهاد شده است. نتایج ارزیابی مشتریان شرکت همکاران سیستم نشان میدهد که روش بهبود یافته k میانگین ارائه شده در این مقاله از نظر سرعت و دقت نسبت به الگوریتم k میانگین برتری دارد. در مورد بیمه عمر، ضریب نفوذ یکی از اهداف اصلی هر صنعت بیمه توسعه یافته است. از این نظر بازاریابی سیستماتیک جزء مهمی در برنامه استراتژیک شرکتهای بیمه است. برای دستیابی به هدف، بیمهگران باید مشتریان خود را در گروههای مختلف گروهبندی کنند که در آن برخی ویژگیهای مشترک است و افراد الگوی مشابهی را نشان میدهند. در [13]، از خوشهبندی k میانگین به عنوان یک الگوریتم یادگیری بدون نظارت به منظور تقسیم مشتریان به تعدادی خوشه استفاده میکند. خوشهها بر اساس دو متغیر مستقل ساخته شدهاند: حق بیمه ماشین و عمر. سپس آمار توصیفی سایر ویژگیهای تعیینکننده ارائه میشود که با آن بیشترین تمایل در خرید بیمه عمر ارائه میشود.
با ارائه دادههای مرتبط و به موقع به واحدهای تجاری در صنعت خردهفروشی، استفاده از هوش تجاری در شناسایی مشتریان بالقوه را در [14] بررسی کردند. به منظور اجرا و اعمال رویکرد علمی با استفاده از الگوریتم k میانگین، دادههای معاملاتی و خردهفروشی بهصورت آنی، تجزیه و تحلیل شدند. در این مطالعه، بر اساس RFM مجموعه داده توسط k میانگین خوشهبندی شد. آلیچا راچوال و همکاران [6] روش جدیدی را برای مقابله با مجموعه دادههای مختلط برای تقسیمبندی مشتری پیشنهاد کردند. متغیرهای طبقهبندی شده با استفاده از یک مدل ابتکاری بدون نظارت بر اساس رمزگذار خودکار تعبیه شدند. سپس، مشتریان با استفاده از الگوریتمهای مختلف خوشهبندی بر اساس ماتریسهای شباهت به گروهها تقسیم شدند. علاوه بر روش کلاسیک k میانگین و DBSCAN جدیدتر، سه الگوریتم دیگر شامل: الگوریتم لووین، الگوریتم حریص و الگوریتم انتشار برچسب استفاده شد. این تحقیق بر روی دو مجموعه داده انجام شد که یکی شامل مشتریان خردهفروشی و دیگری شامل مشتریان عمده فروشی بود.
کارایی الگوریتم خوشهبندی k میانگین به عنوان روشی برای تقسیمبندی کارآمد مصرفکننده توسط مالایی و همکاران [3] بررسی شد . الگوریتم k میانگین ادغام شده با تجزیه و تحلیل RFM در سطح جهانی به عنوان یک روش خوشهبندی بخشبندی عمیق معتبر است که ثابت کرده در تنظیمات مختلف تجاری بسیار کارآمد است. نتایج تجربی شواهد متقاعدکنندهای از عملکرد الگوریتم از نظر تقسیمبندی مصرفکننده را ارائه کردند. مقدار خلوص بالای بهدست آمده (95/0) کارایی الگوریتم خوشه بندی k میانگین را از نظر تقسیم بندی و طبقهبندی دقیق مشتریان نشان میدهد و استراتژیهای بازاریابی هدفمند و رویکردهای شخصیسازی شده را تسهیل میکند. محمد فرهان و جری هیکل [5] استفاده از خوشهبندی k میانگین را مورد بحث قرار دادند. این فرآیند شامل گروه بندی دادههای مشتری بر اساس عوامل مختلفی مانند نوع انتقال، رضایت مشتری، روش پرداخت و شعبه بانک است. خوشههای به دست آمده مورد تجزیه و تحلیل قرار میگیرند تا مشخصات و نیازهای مختلف مشتریان را شناسایی کنند. هدف از تحقیق بانکیت ایندارماوان و همکاران [2]، توسعه مدل تقسیمبندی مشتری با استفاده از k میانگین بهینه بود. الگوریتم خوشهبندی برای گروهبندی دقیقتر مشتریان بر اساس دادههای معاملات فروش، ارائه شد. الگوریتم گروهبندی، مشتریان را به سه خوشه بر اساس خرید تقسیم کرد. نتایج، اثربخشی الگوریتم k میانگین بهینه را نشان داد.
3- روش پیشنهادی
در این تحقیق، روش پیشنهادی در مراحل زیر اجرا میشود:
1-3- آمادهسازی و پیشپردازش دادهها
استخراج دادهها، مقیاس گذاری پارامترهای L، R، F، M، M2، دادههای مشتری و تشخیص فاصله و پاکسازی از مراحل آمادهسازی و پردازش دادهها است. اطلاعات دادههای جمعآوری شده از پایگاه داده شرکتهای بازاریابی شبکهای بهصورت تصادفی استخراج شده و شامل شناسه مشتری و مبلغ خرید در هر ماه از فروردین 1396 تا دی ماه 1396 میباشد. از پایگاه داده موجود شناسه مشتری، دفعات خریدهای انجام شده، قیمت پرداخت شده، تاریخ خرید و رضایت مشتری محاسبه و استخراج شده است. دادههای شرکتهای بازاریابی دارای ساختاری متفاوت میباشند که جهت ارائه گزارشات تجمیعی لازم بود که کلیهی دادهها در یک انباره داده با ابزارهای BI تجمیع شده و پیش از انجام هر کاری، یکسانسازی دادهها از لحاظ ساختار صورت پذیرد.
این اختلاف ساختار شامل موارد ذیل بوده است:
· برخی تاریخها میلادی و برخی شمسی ثبت شدهاند.
· برخی مقادیر به ریال و برخی به تومان درج شدهاند.
· با توجه به اینکه در شرکتهای بازاریابی بالاسریها به صورت ماهانه واریز میگردد؛ لذا تعداد ماههای خرید ملاک است. برای بهدست آوردن تعداد ماههایی که بازاریاب خرید انجام داده، تاریخهای خریدی که به صورت میلادی ذخیره شده، بایستی ابتدا به شمسی تبدیل و سپس فقط ماه خرید از تاریخ فوقالذکر استخراج شود.
2-3- استخراج داده
در مرحله استخراج دادهها، دادههای معامله بهطور جزئی وجود دارد که شامل تاریخ معامله، تعداد دفعات خرید (تعداد ماههایی که خرید انجام شده)، ارزش پولی معامله و رضایت مشتری است. برای استخراج پارامترهای L، R، F، M وM2 هر مشتری در این تحقیق، فاصله بین اولین و آخرین خرید مشتری به عنوان ویژگی L محاسبه شد. فاصله بین آخرین خرید مشتری و پایان دوره زمانی به عنوان ویژگی R محاسبه میشود. تعداد دفعات خریدها بر حسب ماه، بین اولین و آخرین خرید مشتری به عنوان ویژگی F محاسبه میشود. ارزش کل پولی بین اولین و آخرین خرید مشتری در یک بازه زمانی خاص به عنوان ویژگی M محاسبه میشود. در این تحقیق، سوءاستفاده از مشتری (ویژگی M2) نیز به عنوان یکی از پارامترهای تأثیرگذار در مدیریت ارتباط با مشتری در نظر گرفته شده که از رضایت مشتری در هر رکورد از مجموعه دادهها محاسبه میشود و میزان حداقل و حداکثر سواستفاده از مشتری است.
شکل (1): مراحل مدلسازی
3-3- مدلسازی
روشهای مختلفی برای اجرای پروژههای دادهکاوی ارائه شدهاند؛ اما یکی از قدرتمندترین روشها، روش 8CRISP است این روش به عنوان یک روش فرآیندی، چرخه حیات یک پروژه دادهکاوی را دربرمیگیرد. روش CRISP همچنین یک روش چرخشی است که شش مرحله عملیات دادهکاوی را به طور کامل هدایت میکند. این شش مرحله شامل شناخت کسب وکار، شناخت داده، پیشپردازش، مدلسازی، ارزیابی مدل و توسعه مدل است. مراحل مدلسازی در شکل (1) نشان داده شده است.
4-3- خوشهبندی
با استفاده از مدل خوشهبندی k میانگین، شرکتها میتوانند بخشهای مختلف بازار را شناسایی کنند [5]. برای پیشبینی دقیق رفتار مشتری، الگوریتمهای خوشهبندی، بهویژه k میانگین یکی از مهمترین روشهای دادهکاوی مورد استفاده در بازاریابی مدیریت ارتباط با مشتری است که با آن میتوان رفتار مشتریان را شناسایی کرد. با این حال، در مطالعات مختلف در مورد خوشهبندی k میانگین مشاهده شده که مشتریان با شاخصهای رفتاری متفاوت در خوشهبندی ممکن است یکسان به نظر برسند؛ به این معنیکه شاخصهای رفتاری مشتری نقش مهمی در خوشهبندی مشتریان ندارند. بنابراین اگر میزان مشارکت مشتری به پارامترهای رفتاری مانند میزان رضایت آنها بستگی داشته باشد، میتواند بر روی خوشه های k میانگین اثر منفی داشته باشد و نتیجه قابل قبولی نداشته باشد [4] و استراتژیهای بازاریابی متناسب با هر یک از آنها را توسعه دهد. در تعیین دادههای اولیه هر خوشه باید توجه داشت که مراکز اولیه مناسب میتوانند همگرایی k میانگین را تسریع کنند. در روش پیشنهادی، اولین قدم در الگوریتم، تعیین عنصر اولیه هر خوشه است. این روش در ابتدا با یک خوشه حاوی یک عنصر آغاز میشود و در مراحل دیگر، فاصله سایر عناصر از مرکز خوشههای مشخص شده را محاسبه میکند. با این حال، نزدیکترین داده به میانگین داده به عنوان تنها عضو خوشه اول تعیین میشود. پس از اختصاص هر عنصر به یک خوشه، میانگین داده آن خوشه براساس طول عمر مشتری مطابق با (1) به روز میشود. این معادله برای هر ویژگی مرکز خوشه و دادههای جدید اعمال میشود:
(1) |
|
(2) |
|
(3) |
| |||||||
(4) |
|
id | M2 | L | R | F | M | CLV | Distance | میانگین |
91493295 | 0/000 | 0/224181818 | 0/01 | 0/139636364 | 0/014450618 | 0/388 | 0 |
|
91532794 | 0/000 | 0/224181818 | 0/01 | 0/122181818 | 0/034399852 | 0/391 | 0/002495 | 0/002495 |
91357635 | 0/000 | 0/249090909 | 0 | 0/104727273 | 0/037178989 | 0/391 | 0/002728 | 0/001364 |
91607842 | 0/000 | 0/274 | 0 | 0/104727273 | 0/012628859 | 0/391 | 0/003087 | 0/001029 |
91732934 | 0/000 | 0/199272727 | 0 | 0/139636364 | 0/053092157 | 0/392 | 0/003732 | 0/000933 |
91638719 | 0/000 | 0/274 | 0 | 0/052363636 | 0/066387202 | 0/393 | 0/004482 | 0/000896 |
91582741 | 0/000 | 0/199272727 | 0/03 | 0/139636364 | 0/02518098 | 0/394 | 0/005821 | 0/00097 |
91722254 | 0/000 | 0/174363636 | 0/02 | 0/122181818 | 0/078402874 | 0/395 | 0/00668 | 0/000954 |
91746476 | 0/000 | 0/199272727 | 0 | 0/122181818 | 0/073726335 | 0/395 | 0/006912 | 0/000864 |
91417752 | 0/000 | 0/224181818 | 0/02 | 0/122181818 | 0/028919224 | 0/395 | 0/007014 | 0/000779 |
91701381 | 0/000 | 0/249090909 | 0 | 0/122181818 | 0/02493784 | 0/396 | 0/007942 | 0/000794 |
91520394 | 0/000 | 0/249090909 | 0/01 | 0/122181818 | 0/018594896 | 0/400 | 0/011599 | 0/001054 |
91767664 | 0/000 | 0/149454545 | 0 | 0/104727273 | 0/147480363 | 0/402 | 0/013393 | 0/001116 |
91689041 | 0/000 | 0/199272727 | 0/03 | 0/139636364 | 0/03324273 | 0/402 | 0/013883 | 0/001068 |
91424376 | 0/000 | 0/249090909 | 0/01 | 0/069818182 | 0/082112004 | 0/411 | 0/022752 | 0/001625 |
91644570 | 0/000 | 0/249090909 | 0 | 0/139636364 | 0/025876877 | 0/415 | 0/026335 | 0/001756 |
91720654 | 0/000 | 0/174363636 | 0/02 | 0/122181818 | 0/102055029 | 0/419 | 0/030332 | 0/001896 |
91007783 | 0/000 | 0/224181818 | 0/02 | 0/157090909 | 0/027525764 | 0/429 | 0/04053 | 0/002384 |
91664278 | 0/000 | 0/274 | 0 | 0/139636364 | 0/015235158 | 0/429 | 0/040603 | 0/002256 |
جدول (2): متوسط مقادیرL، R، F، M، M2 و طول عمر مشتری در هر خوشه (روش پیشنهادی با احتساب M2)
شماره خوشه | L | R | F | M | M2 | CLV |
1 | 0.180303 | 0.04097 | 0.104212 | 0.048414 | 0.166667 | 0.540565 |
2 | 0.054225 | 0.08043 | 0.028609 | 0.016011 | 0.032864 | 0.21214 |
3 | 0.160709 | 0.047914 | 0.084666 | 0.030971 | 0.20339 | 0.527649 |
4 | 0.007419 | 0.004654 | 0.004511 | 0.010772 | 0 | 0.027355 |
5 | 0.107386 | 0.065844 | 0.058481 | 0.020553 | 0.035714 | 0.287978 |
6 | 0.025352 | 0.02174 | 0.014298 | 0.013749 | 0.010695 | 0.085836 |
7 | 0.136631 | 0.05821 | 0.069497 | 0.02565 | 0.039216 | 0.329205 |
8 | 0.043022 | 0.06414 | 0.021408 | 0.01467 | 0.018779 | 0.162019 |
9 | 0.044263 | 0.042651 | 0.02303 | 0.016529 | 0.017778 | 0.14425 |
10 | 0.105822 | 0.066288 | 0.055661 | 0.02355 | 0.044944 | 0.296265 |
جدول (3): متوسط مقادیرL، R، F، M، M2 و طول عمر مشتری در هر خوشه ( روش k میانگین ساده با احتساب M2)
شماره خوشه | L | R | F | M | M2 | CLV |
1 | 0.180303 | 0.04097 | 0.104212 | 0.048414 | 0.166667 | 0.540565 |
2 | 0.059724 | 0.079007 | 0.03177 | 0.016167 | 0.036885 | 0.223554 |
3 | 0.15427 | 0.050138 | 0.081967 | 0.029628 | 0.181818 | 0.497821 |
4 | 0.012255 | 0.007985 | 0.007397 | 0.011569 | 0 | 0.039206 |
5 | 0.106294 | 0.066286 | 0.055349 | 0.023131 | 0.021978 | 0.273037 |
6 | 0.041183 | 0.035538 | 0.021756 | 0.016565 | 0.021277 | 0.136319 |
7 | 0.13595 | 0.057873 | 0.070347 | 0.02697 | 0.060606 | 0.351747 |
8 | 0.040336 | 0.063055 | 0.019993 | 0.014 | 0.015748 | 0.153133 |
شکل (2): روش پیشنهادی با احتساب M2
شکل (3): k میانگین کلاسیک با احتساب M2
شکل (4): روش پیشنهادی بدون M2
شکل (5): k میانگین کلاسیک بدون M2
4-4- مقایسه کیفیت خوشه
معیار خوشهبندی که در آزمونها برای اندازهگیری کیفیت خوشهها استفاده میشود بهصورت زیر تعریف شده است [15]:
(5) |
|
(6) |
|
روش | معیار NMI |
روش پیشنهادی با احتساب M2 | 9785/0 |
روش پیشنهادی بدون احتساب M2 | 8999/0 |
روش | معیار SSE |
روش پیشنهادی با احتساب M2 | 07/0 |
روش پیشنهادی بدون احتساب M2 | 02/0 |
روش پیشنهادی [4] بر روی دیتاست 1 | 39/0 |
روش پیشنهادی [4] بر روی دیتاست 2 | 72/0 |
جدول (6): شاخص رند تعدیل یافته
روش | شاخص رند تعدیل یافته |
روش پیشنهادی با احتساب M2 | 9521/0 |
روش پیشنهادی بدون احتساب M2 | 8652/0 |
5- نتیجهگیری
هدف اصلی تحقیق، استفاده از الگوریتم k میانگین و یافتن میزان طول عمر مشتری با استفاده از پارامترهایی از جمله فاصله بین اولین و آخرین خرید بازاریاب به عنوان ویژگی L، فاصله بین آخرین خرید مشتری و پایان دوره زمانی به عنوان ویژگی R، تعداد ماههای خرید مشتری در بازه زمانی مشخص به عنوان ویژگی F، ارزش کل پولی بین اولین و آخرین خرید مشتری در یک بازه زمانی خاص به عنوان ویژگی M و میزان رضایت بازاریابان به عنوان ویژگی M2 است. برای یافتن نقاط با یک پرش بزرگ، دادهها ابتدا از نظر طول عمر مشتری به ترتیب صعودی مرتب میشوند. سپس، مقدار فاصله اقلیدسی هر داده از دادههای قبلی به ترتیب صعودی طول عمر مشتری بهدست میآید. فاصله بین برخی دادهها و مرکز خوشه اول و مقادیر مراکز بهینه بهدست آمده محاسبه میشود. پس از آن، این مراحل برای بهدست آوردن تمام مراکز خوشهای تکرار میشوند. با استفاده از معادلات، تعداد بهینه خوشهها 10 محاسبه شده است. هرچه که میزان رضایت بازاریابان کمتر باشد، متغیر طول عمر مشتری نیز کاهش مییابد. نتایج نشان میدهد که روش پیشنهادی تعداد خوشهها را به درستی شناسایی کرده است؛ اما این کار در زمان کوتاهتری انجام شده است.
مراجع
[1] A. Alizadeh Zoeram and A. R. Karimi Mazidi, “New Approach for Customer Clustering by Integrating the LRFM Model and Fuzzy Inference System,” Iranian Journal of Management Studies, vol. 11, no. 2, pp. 351–378, Apr. 2018, doi: 10.22059/IJMS.2018.242528.672839.
[2] B. I. Nugroho, A. Rafhina, P. S. Ananda, and G. Gunawan, “Customer segmentation in sales transaction data using k-means clustering algorithm,” Journal of Intelligent Decision Support System, vol. 7, no. 2, pp. 130–136, Jun. 2024, doi: 10.35335/idss.v7i2.236.
[3] M. Sarkar, A. Roy Puja, and F. R. Chowdhury, “Optimizing Marketing Strategies with RFM Method and K-Means Clustering-Based AI Customer Segmentation Analysis,” Journal of business and management studies, Mar. 2024, doi: 10.32996/jbms.2024.6.2.5.
[4] H. Zare and S. Emadi, “Determination of Customer Satisfaction using Improved K-means algorithm,” vol. 24, no. 22, pp. 16947–16965, May 2020, doi: 10.1007/S00500-020-04988-4.
[5] M. Farhan and J. Heikal, “Used Car Customer Segmentation Using K-Means Clustering Model With SPSS Program: Case Study Caroline.Id,” Jurnal Indonesia Sosial Sains, Mar. 2024, doi: 10.59141/jiss.v5i03.1042.
[6] A. Rachwał et al., “Determining the Quality of a Dataset in Clustering Terms,” Applied Sciences, vol. 13, no. 5, p. 2942, Feb. 2023, doi: 10.3390/app13052942.
[7] T. Jiang and A. Tuzhilin, “Improving Personalization Solutions through Optimal Segmentation of Customer Bases,” IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 3, pp. 305–320, Mar. 2009, doi: 10.1109/TKDE.2008.163.
[8] S. Shah and M. Singh, "Comparison of a Time Efficient Modified K-mean Algorithm with K-Mean and K-Medoid Algorithm," 2012 International Conference on Communication Systems and Network Technologies, Rajkot, pp. 435-437, May, 2012, doi: 10.1109/CSNT.2012.100.
[9] Y. S. Cho and S. C. Moon, “Weighted Mining Frequent Pattern based Customer’s RFM Score for Personalized u-Commerce Recommendation System,” Journal of Convergence, vol. 4, no. 4, pp. 36–40, Dec. 2013.
[10] X. He and C. Li, "The Research and Application of Customer Segmentation on E-Commerce Websites," 2016 6th International Conference on Digital Home (ICDH), Guangzhou, China, 2016, pp. 203-208, doi: 10.1109/ICDH.2016.050.
[11] L. Zahrotun, "Implementation of data mining technique for customer relationship management (CRM) on online shop tokodiapers.com with fuzzy c-means clustering," 2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE), Yogyakarta, Indonesia, pp. 299-303, Nov. 2017, doi: 10.1109/ICITISEE.2017.8285515.
[12] J. Hu, M. Li, E. Zhu, S. Wang, X. Liu and Y. Zhai, "Consensus Multiple Kernel K-Means Clustering With Late Fusion Alignment and Matrix-Induced Regularization," in IEEE Access, vol. 7, pp. 136322-136331, Sep. 2019, doi: 10.1109/ACCESS.2019.2940896.
[13] F. Khanizadeh, F. Khamesian, and A. Bahiraie, “Customer Segmentation for Life Insurance in Iran Using K-means Clustering,” International Journal of Nonlinear Analysis and Applications, vol. 12, pp. 633–642, Jan. 2021, doi: 10.22075/IJNAA.2021.22324.2350.
[14] P. Anitha, P. Anitha, and M. M. Patil, “RFM model for customer purchase behavior using K-Means algorithm,” Journal of King Saud University - Computer and Information Sciences, Dec. 2019, doi: 10.1016/J.JKSUCI.2019.12.011.
[15] J. Wang and X. Su, "An improved K-Means clustering algorithm," 2011 IEEE 3rd International Conference on Communication Software and Networks, Xi'an, China, May. 2011, pp. 44-46, doi: 10.1109/ICCSN.2011.6014384.
[16] L. Danon, A. Díaz-Guilera, J. Duch, and A. Arenas, “Comparing community structure identification,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2005, no. 09, p. 09008, Sep. 2005, doi: 10.1088/1742-5468/2005/09/P09008.
[17] A. Amelio and C. Pizzuti, “Is Normalized Mutual Information a Fair Measure for Comparing Community Detection Methods?,” in Proceedings of the 2015 IEEE/ACM international conference on advances in social networks analysis and mining, pp. 1584–1585, Aug. 2015, doi: https://doi.org/10.1145/2808797.2809344.
[18] W. M. Rand, “Objective Criteria for the Evaluation of Clustering Methods,” Journal of the American Statistical Association, vol. 66, no. 336, pp. 846–850, Dec. 1971, doi: 10.1080/01621459.1971.10482356.
[1] Davies–Bouldin index
[2] Normalized Mutual Information (NMI)
[3] Sum of squared errors (SSE)
Related articles
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2021-2025