Increasing Community Detection Accuracy in Social Networks using Improved Label Diffusion Approach
Subject Areas : New technologies in distributed systems and algorithmic computing
Nafiseh Afkhami
1
,
Nazbanou Farzaneh Bahalgardi
2
,
Hassan Shakeri
3
*
1 - Department of Computer Engineering, Imam Reza International University, Mashhad, Iran
2 - Department of Computer Engineering, Imam Reza International University, Mashhad, Iran
3 - Department of Computer Engineering, Mashhad Branch, Islamic Azad University, Mashhad, Iran
Keywords: Community detection, Social network modeling, Label propagation algorithm, Clustering,
Abstract :
Detecting communities in large networks is an important challenge in social network analysis, and providing an algorithm with optimal accuracy and efficiency for extracting communities is very important. There are different approaches to identify communities in social networks, including methods based on classical clustering, algorithms based on criteria of similarity in features, methods based on finding subgraphs with a lot of internal communication, as well as a label propagation approach. In the label propagation approach, first, the most important vertices of the network are determined based on a series of importance and centrality criteria, and different community labels are assigned to them. Then the label of each of these vertices is propagated to the neighboring vertices and around them. The aim of this research is to improve a community detection algorithm called LBLD. This algorithm first determines five percent of the most important network vertices based on a similarity criterion. Then, with a balanced approach, communities are developed both from the center and from the borders, and finally a phase of integration is implemented so that small communities are combined with each other and form desirable communities. Our proposed idea uses a measure inspired by the concept of h-index to improve the accuracy of community detection. In such a way that subgraphs are identified as communities that have at least p percent of vertices with at least degree k. The accuracy and efficiency of the proposed solution have been evaluated by applying it to known data sets in this field and it shows a significant improvement compared to existing similar methods.
[1] H. Roghani, and A. Bouyer, "A Fast Local Balanced Label Diffusion Algorithm for Community Detection in Social Networks," IEEE Transactions on Knowledge and Data Engineering • January 2022.
[2] K. Berahmand, A. Bouyer, and M. Vasighi, "Community Detection in Complex Networks by Detecting and Expanding Core Nodes Through Extended Local Similarity of Nodes," IEEE Transactions on Computational Social Systems, vol. 5, no. 4, pp. 1021-1033, 2018, doi: 10.1109/TCSS.2018.2879494.
[3] A. Bouyer and H. Roghani, "LSMD: A fast and robust local community detection starting from low degree nodes in social networks," Future Generation Computer Systems, vol. 113, pp. 41-57, 2020/12/01/ 2020, doi: https://doi.org/10.1016/j.future.2020.07.011.
[4] Adamic LA, Glance N, editors. The political blogosphere and the 2004 US election: divided they blog. Proceedings of the 3rd international workshop on Link discovery; 2005.
[5] Z. Sun et al., "Community detection based on the Matthew effect," Knowledge-Based Systems, vol. 205, p. 106256, 2020.
[6] S. Aghaalizadeh, S. T. Afshord, A. Bouyer, and B. Anari, "A three-stage algorithm for local community detection based on the high node importance ranking in social networks," Physica A: Statistical Mechanics and its Applications, vol. 563, p. 125420, 2021.
[7] M. Zarezade, E. Nourani, and A. Bouyer, "Community detection using a new node scoring and synchronous label updating of boundary nodes in social networks," Journal of AI and Data Mining, vol. 8, no. 2, pp. 201-212, 2020.
[8] S. Taheri and A. Bouyer, "Community Detection in Social Networks Using Affinity Propagation with Adaptive Similarity Matrix," Big Data, vol. 8, no. 3, pp. 189-202, 2020.
[9] A. Clauset, M. E. Newman, and C. Moore, “Finding community structure in very large networks,” Physical Review E, vol. 70, no. 6, p. 066111, 2004.
[10] Yang Z, Algesheimer R, Tessone CJ. A comparative analysis of community detection algorithms on artificial networks. Scientific reports. 2016;6(1):30750.
[11] F. D. Zarandi and M. K. Rafsanjani, “Community detection in complex networks using structural [16]similarity,” Physica A: Statistical Mechanics and its Applications, vol. 503, pp. 882–891, 2018.
[12] M’barek MB, Hmida SB, Borgi A, Rukoz M. GA-PPI-Net Approach vs Analytical Approaches for Community Detection in PPI Networks. Procedia Computer Science. 2021;192:903-12.
[13] Patil SV, Kulkarni DB, editors. Graph partitioning using heuristic Kernighan-Lin algorithm for parallel computing. Next Generation Information Processing System: Proceedings of ICCET 2020, Volume 2; 2021: Springer.
[14] Gharehchopogh, F.S., 2023. An improved Harris Hawks optimization algorithm with multi-strategy for community detection in social network. Journal of Bionic Engineering, 20(3), pp.1175-1197.
[15] Hevey D. Network analysis: a brief overview and tutorial. Health psychology and behavioral medicine. 2018;6(1):301-28.
[16] V. A. Traag, L. Waltman, and N. J. van Eck, "From Louvain to Leiden: guaranteeing well-connected communities," Scientific reports, vol. 9, no. 1, pp. 1-12, 2019.
Journal of New Technologies in Distributed Systems and Algorithmic Computing
Islamic Azad University of Sabzevar
E-ISSN: 3115-705X
https://sanad.iau.ir/journal/ntds
Reaserch Article |
Increasing Community Detection Precision in Social Networks using Improved Label Diffusion Approach
Nafiseh Afkhami 1 | Nazbanoo Farzaneh 2
| Hassan Shakeri 3*
1Deprtment of Computer Engineering, Imam Reza International University, Mashhad, Iran, Nafiseafkhami64@gmail.com
2Deprtment of Computer Engineering, Imam Reza International University, Mashhad, Iran, Nazbanou.farzaneh@imamreza.ac.ir
3Deprtment of Computer Engineering, Ma.C., Islamic Azad University, Mashhad, Iran, Hassanshakeri@iau.ac.ir
Corresponding Author *Hassan Shakeri, Associate Professor, Deprtment of Computer Engineering, Ma.C., Islamic Azad University, Mashhad, Iran, Hassanshakeri@iau.ac.ir
|
Abstract
Main Subjects: Community Detection in Social Networks Received: 21 November 2024 Revised: 30 May 2025 Accepted: 29 April 2025
|
Keywords: Community Detection, Social Network Modeling, Label Propagation Algorithm, Clustering
پژوهشی |
افزایش دقت شناسایی جوامع در شبکههای اجتماعی با بهبود رویکرد انتشار برچسب
نفیسه افخمی1| نازبانو فرزانه2
| حسن شاکری*3
1 گروه مهندسی کامپیوتر، دانشگاه بینالمللی امام رضا، مشهد، ایران، Nafiseafkhami64@gmail.com
2 گروه مهندسی کامپیوتر، دانشگاه بینالمللی امام رضا، مشهد، ایران، Nazbanou@farzaneh@gmail.com
3گروه مهندسی کامپیوتر، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران، Hassanshakeri@iau.ac.ir
نویسنده مسئول *حسن شاکری، دانشیار، گروه مهندسی کامپیوتر، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران، Hassanshakeri@iau.ac.ir
|
عنوان اصلی: شناسایی جوامع در شبکههای اجتماعی تاریخ دریافت: 1/9/1403 تاریخ بازنگری: 9/3/1404 تاریخ پذیرش: 11/3/1404
|
کلیدواژهها: شناسایی جوامع، مدلسازی شبکههای اجتماعی، الگوریتم انتشار برچسب، خوشهبندی.
1-مقدمه
رشد سریع رسانهها و شبکههای اجتماعی تأثیر شگرفی بر ابعاد مختلف زندگی انسانها گذاشته است بهطوریکه مدلسازی و تحلیل شبکههای اجتماعی به یک مبحث مطرح در تحقیقات و نیز در کاربردهای مختلف تبدیل شده است. مدلسازی و تحلیل شبکههای اجتماعی زمینههای مختلفی را شامل میشود که از جمله میتوان به تعیین مرکزیت و اهمیت رأسهای گراف شبکه، پیشبینی رفتار کاربران، طبقهبندی کاربران و شناسایی جوامع اشاره کرد و در حوزههای مختلفی مانند بهبود کارآمدی سیستمهای پیشنهاددهنده، تحلیلهای زیستشناسی از قبیل بررسی شبکه پروتئین - پروتئین و مدلسازی شبکههای ارجاع کاربرد دارد [1]. برای مدلسازی شبکههای اجتماعی، از مفاهیم نظریه گراف استفاده میشود. برای این منظور شبکه اجتماعی به صورت یک گراف بازنمایی میشود که اعضای شبکه به عنوان رأسهای گراف و روابط بین آنها (ازقبیل روابط دوستی یا دنبالکردن) به عنوان یالها یا لبههای گراف در نظر گرفته میشود.
شناسایی جوامع یکی از مهمترین و پرکاربردترین حوزههای مدلسازی و تحلیل شبکههای اجتماعی است. هر جامعه عبارت است از گروهی از اعضای شبکههای اجتماع (بهعبارتدیگر یک زیرگراف از گراف اصلی) که عناصر آن شباهت زیادی از نظر ویژگیها و ارتباطات زیادی با یکدیگر دارند (شکل 1). در واقع، مبحث شناسایی جوامع معادل مفهوم خوشهبندی است که به صورت کلی در مباحث دادهکاوی مطرح است اما در شبکههای اجتماعی، به جای اصطلاح خوشهبندی، عمدتاً از اصطلاح «شناسایی جوامع» استفاده میشود و ضمناً در شناسایی جوامع، علاوه بر رویکردها و تکنیکهای خوشهبندی کلاسیک از مفاهیم شبکههای اجتماعی به ویژه ارتباطات بین کاربران شبکه بهصورت گسترده استفاده میشود. یک معیار مهم در کیفیت تفکیک شبکه به جوامع مختلف این است که اتصالات و لینکها در داخل هر جامعه تا حدامکان زیاد ولی در بین هر دو جامعه مختلف، تا حد امکان کم باشد. استخراج جوامع به درک ساختار آنها و ارتباطات بین گرهها و نحوه کارکردن شبکه کمک میکند [2].
شکل 1. استخراج جوامع در شبکههای اجتماعی [2]
Figure 1. Extraction of communities in social networks
رویکردهای مختلفی برای شناسایی جامعهها در شبکههای اجتماعی وجود دارد که ازجمله میتوان به روشهای مبتنی بر الگوریتمهای کلاسیک خوشهبندی بر اساس معیارهای شباهت در ویژگیها اشاره کرد. ازجمله الگوریتم K-means بهعنوان یکی از معروفترین الگوریتمهای کلاسیک خوشهبندی با معیارهای شباهت مختلف از قبیل شباهت کسینوسی و یا شباهت جاکارد در استخراج جوامع در شبکههای اجتماعی نیز مورداستفاده قرار میگیرند. دستهای دیگر از روشها بر یافتن زیرگرافهای با ارتباطات داخلی زیاد مبتنی هستند که از جمله میتوان به کشف جوامع مبتنی بر مفهوم Clique اشاره کرد. یک رویکرد جدید برای استخراج جوامع، انتشار برچسب است که یک تکنیک سریع برای توسعه جوامع اولیه به گرههای اطراف آنها است. بهعنوان نمونه میتوان به الگوریتم ارائهشده در مرجع [3] به نام LSMD1 اشاره کرد که یک الگوریتم انتشار چندسطحی شباهت محلی است و بر اساس این رویکرد عمل میکند.
باوجود ارائه کارهای تحقیقاتی مختلف در حوزه استخراج جوامع در شبکههای اجتماعی، همچنان افزایش دقت و کاهش مرتبه زمانی الگوریتمها در این زمینه بهعنوان مسائل باز تحقیقاتی مطرح هستند [1]. به همین دلیل در این تحقیق ما قصد داریم راهکاری برای بهبود یک الگوریتم شناسایی جوامع معرفیشده در [1] موسوم به الگوریتم LBLD2 ارائه کنیم. الگوریتم LBLD ابتدا براساس یک معیار شباهت، پنجدرصد از مهمترین رأسهای شبکه را تعیین میکند. سپس با یک رویکرد متوازن، جوامع هم از مرکز و هم از مرزها توسعه داده میشوند و در نهایت یک فاز ادغام اجرا میشود تا جوامع کوچک با یکدیگر ترکیب شوند و جوامع مطلوب را تشکیل دهند.
در این تحقیق یک راهکار بهبودیافته بر اساس روش ارائهشده در مرجع [1] پیشنهاد میکنیم. ایده پیشنهادی ما استفاده از یک معیار الهامگرفته از مفهوم h-index برای بهبود دقت تشخیص جوامع است. به این ترتیب که زیرگرافهایی به عنوان جامعه شناسایی شوند که حداقل تعداد n رأس آنها درجه حداقل k داشته باشد. رویکرد کلی مورد استفاده در روش پیشنهادی، مشابه روش پایه، انتشار برچسب جامعه از گرههای مهم به گرههای مجاور آنها است. با وجود این تغییرات و نوآوریهای عمدهای در روش پیشنهادی نسبت به الگوریتم پایه اعمال شده که باعث افزایش دقت شناسایی جوامع شده است. مهمترین نوآوریها و تغییرات پیشنهادی نسبت به روش پایه عبارتند از:
1. استفاده از معیار جاکارد برای تعیین میزان شباهت گرهها از نظر همسایههای مشترک و استفاده از آن در تعیین میزان اهمیت گرهها که براساس آن، جوامع اولیه شکل میگیرند. دلیل استفاده از معیار شباهت جاکارد، کارآمدی آن در مسائل مبتنی بر گراف و مشخصاً حوزه مدلسازی و تحلیل شبکههای اجتماعی است که تأثیر آن در ارزیابی روش پیشنهادی در بخش 4 نیز مشهود است.
2. استفاده از یک معیار الهامگرفته از معیار h-index مربوط به رتبهبندی محققان برای انتخاب نهایی جوامع.
در ادامه این مقاله در بخش 2 کارهای تحقیقاتی مرتبط در این حوزه مورد بررسی قرار میگیرد.. در بخش 3 به توصیف روش پیشنهادی جهت افزایش دقت شناسایی جوامع در شبکههای اجتماعی پرداخته میشود. بخش 4، ارزیابی روش پیشنهادی و مقایسه آن با کارهای پژوهشی پیشین را ارائه میدهد و در نهایت، در بخش 5 نتیجهگیری و ایدههای پیشنهادی برای کارهای آینده مطرح میگردد.
2- پیشینه تحقیق
باتوجهبه اهمیت شناسایی جوامع بهعنوان یک ابزار ضروری برای تحلیل اطلاعات پنهان شبکهها، الگوریتمهای متنوعی برای این منظور ارائه شده است که ازجمله میتوان به رویکردهای محلی، مبتنی بر ماژولاریتی و مبتنی بر تجزیه ماتریس اشاره کرد. یکی از روشهای ارائهشده برای کشف جوامع، LP-LPA3 نام دارد که مقدار قدرت لینکها را برای یالها و مقدار تأثیرگذاری برچسبها را برای رأس استفاده میکند تا از انتخاب تصادفی حالتهای قطع اتصال جلوگیری کند. روش ارائهشده در [4] موسوم به LPA4 یا NI-LPA5 از ترکیب اندیس جاکارد و انتشار سیگنال بین گرهها استفاده میکند تا امتیاز اهمیت دقیقتری به رأسها انتساب دهد. به طور کلی روشهای مبتنی بر LPA اغلب بر تعریف ملاکهای اهمیت، مرتبسازی رأسها بر مبنای میزان اهمیت آنها و تعریف معیارهایی برای حالتهای شکستن اتصال مبتنی هستند. اما این روشها هم با مشکلاتی از قبیل پایینبودن دقت، مرتبه زمانی بالا و ناپایداری الگوریتم مواجه هستند.
روش CDME6 که در [5] توسط سان و همکاران ارائه شده است، یک تکنیک مبتنی بر اثر متیو است که از رویکرد محلی استفاده میکند. هدف این روش، مشخص کردن پارامترهای روالهای بهینهسازی است و مزیت عمده این روش در این راستا کاهش زمان این بهینهسازیها است. در این تحقیق، شبکه به عنوان یک سیستم اجتماعی در نظر گرفته شده است و با الهامگیری از اثر متیو رویکردی ارائه شده است که جوامع با کیفیت بالا و پویا را استخراج میکند. یک مزیت دیگر این الگوریتم این است که به صورت محلی عمل میکند و فقط نیاز به محاسبه میزان جذابیت گرههای همسایه دارد که این ویژگی باعث میشود که پردازش شبکههای با مقیاس بالا امکانپذیر باشد.
LCDR7 [6] یک روش محلی دیگر است که بر اساس رتبهبندی گرهها با ایده کرشهف یا ذخیرهسازی بار مبتنی است. در این تحقیق ابتدا مزایا و معایب روشهای محلی شناسایی جوامع موردبررسی قرار گرفته است. مهمترین مزیت روشهای محلی، بالابردن کارایی آنها است. در مقابل، این روشها چند مشکل عمده دارند که پایینبودن دقت و مقیاسپذیری و ناپایداری جوامع استخراجشده جزو مهمترین معایب روشهای مذکور هستند. در واقع، دقت و کیفیت جوامع در روشهای محلی وابستگی زیادی به انتخاب گرههای مهم دارد که بهعنوان هستههای اولیه جوامع انتخاب میشوند. برای حل این مشکلات، در این مرجع یک الگوریتم محلی جدید کشف جوامع معرفی میکند که بر رتبهبندی گرههای بااهمیت بالا مبتنی است. در این الگوریتم یک شاخص جدید برای محاسبه اهمیت گرهها ارائه شده است. این شاخص میتواند با توجه به محلی بودن شبکه، اهمیت همه گرههای شبکه را بهصورت کامل بازتاب دهد. الگوریتم LCDR ابتدا گرههای مهم را برای بسط جوامع اولیه بر اساس یک معیار شباهت محلی انتخاب میکند تا این که همه گرهها عضو جوامع شوند. در انتها جوامع شناساییشده ادغام میشوند تا جوامع نهایی شکل بگیرند.
زارعزاده و همکاران در [7] یک گونه بهبودیافته از الگوریتم موسوم به GCN8 را ارائه کردهاند که از امتیازدهی ترکیبی به گرهها و بروزرسانی برچسبهای همگام برای افزایش دقت تشخیص جوامع استفاده میکند. در این مقاله ابتدا مشکلات الگوریتمهای موجود در راستای افزایش دقت شناسایی جوامع مورد تحلیل قرار گرفته است که مهمترین آنها عبارتند از دقت پایین، تصادفیبودن و ناپایداری. برای حل این مشکلات، این تحقیق یک روش بهبودیافته برای شناسایی جوامع پیشنهاد میکند که از یک امتیازدهی ترکیبی برای گرهها و بروزرسانی همگام برچسب گرههای مرزی استفاده میکند و همچنین مشکل بروزرسانی تصادفی را برطرف میکند. برای بروزرسانی برچسب گرههای مرزی از معیارهای مرکزیت درجهای9 و همسایههای مشترک استفاده میشود. همچنین یک روش جدید برای ادغام جوامع پیشنهاد شده است که نسبت به روشهای مبتنی بر پیمانگی10 سریعتر است.
همچنین یک روش دیگر به نام 11APAS در [8] معرفی شده است که از الگوریتم مبتنی بر انتشار استفاده میکند که جوامع را با بهرهگیری از یک ماتریس شباهت نامتقارن تطبیقی شناسایی میکند و میتواند به صورت کارآمد احتمالات رهبری را بین نقاط داده نشان دهد. ایده اصلی این الگوریتم این است که مقدار شباهت بین دو گره i و k متقارن نیست و بنابراین یک ماتریس شباهت با عنوان ماتریس انتشار وابستگی با شباهت تطبیقی معرفی شده است که میتواند به صورت کارا احتمالات رهبری بین نقاط داده را نشان دهد. این ماتریس، شباهت متقارن را تبدیل به شباهت نامتقارن میکند که نتیجه آن بهبود کارآمدی الگوریتم شناسایی جوامع در شبکههای جهان واقعی بوده است.
همچنین برخی از منابع مانند [9] و [10] به بررسی کاربردهای شناسایی جوامع در زمینههای مختلف پرداختهاند. یکی از مهمترین کاربردها که در مرجع [9] مورد اشاره قرار گرفته است تحلیل یک شبکه از اقلام (کالاها) برای فروش در وبسایتهای فروش آنلاین بزرگ است. اقلام به عنوان یک شبکه درنظر گرفته میشوند و در صورتی که توسط یک خریدار واحد خریداری شوند بین آنها لینک برقرار میشود. این رویکرد باعث خوشهبندی کالاها به صورت مناسب و در نتیجه تأثیر مثبت و مطلوب بر رفتار خرید مشتریان شده است.
در مرجع [10] با بررسی تکنیکهای مختلف شناسایی جوامع، براساس ویژگیهای شبکهها راهنماییهایی برای کمک به انتخاب بهترین روش کشف جوامع برای هر شبکه و کاربرد معین ارائه شده است. همچنین قواعد ارائهشده در این تحقیق، محدودیتهای استفاده از هر الگوریتم مشخص برای هر شبکه را با توجه به ویژگیهای ماکروسکوپی شبکه بیان میکند. همچنین از ترکیب پارامترها به عنوان یک شاخص قابلاندازهگیری برای یافته محدودههای اتکاپذیری الگوریتمهای مختلف استفاده شده است و نیز میزان وابستگی قدرت شناسایی و زمان پردازش هر الگوریتم به اندازه شبکه مورد بررسی قرار گرفته است.
در پژوهش [11]، یک الگوریتم ژنتیک به نام الگوریتم ژنتیک-NET ارائه شد که مفهومی از امتیاز جامعه را برای نشان دادن کیفیت از بخشبندی شبکههای اجتماعی به کار میگیرد. امتیاز جامعه، به حداکثر رساندن ارتباطات داخلی در ساختار جامعه است. این روش جستجوی نامعتبر را زمانی به طور موثر کاهش میدهد که فقط همبستگی واقعی تمام گرهها در هر عملگر در نظر گرفته شود.
در پژوهش [12]، یک الگوریتم اکتشافی برای بخشبندی گرافها ارائه شد. این الگوریتم هنوز هم در ترکیب با تکنیکهای دیگر به کار میرود. هدف آن به حداقل رساندن یک تابع ارزیابی است که تفاوت لینکهای درون جامعه و بین جامعه است. انگیزه پشت این روش، مسأله تقسیمبندی مدارهای الکترونیکی بر روی بوردها بود که در آن رأسها در بوردهای مختلف قرار بود با حداقل تعداد اتصالات به هم متصل شوند. در واقع، تابع بهینهسازی برمبنای حداقل تعداد اتصالات بین بوردهای مختلف تعریف میشود که این تابع را میتوان به صورت تفاوت بین تعداد یالهای داخل مجموعهها و تعداد یالهای قرار گرفته بین آنها تعریف کرد.
مرجع [13] یک الگوریتم مبتنی بر الگوریتم بهینهسازی شاهین هریس و چند تابع تکاملی دیگر به عنوان یک تکنیک یادگیری بهبودیافته ارائه میکند که هدف از آنها برقراری تعادل بین استخراج و اکتشاف است. این رویکرد باعث افزایش قابل ملاحظه دقت و صحت شناسایی جوامع در شبکههای اجتماعی شده است.
در مرجع [14] یک چارچوب مبتنی بر موقعیت جغرافیایی و اعتماد ارائه شده است که با الگوریتمهای تشخیص جوامع ترکیب شده است تا کاربران بدخواه را در جوامع شناسایی و فیلتر کند. این عملکرد در شبکههای اجتماعی نسل پنجم مورد توجه قرار گرفته است. چارچوب ارائهشده از اطلاعات جغرافیایی و اعتماد اجتماعی در داخل شبکه و رویکرد مبتنی بر هوش مصنوعی در کشف جوامع بهره میگیرد تا کاربرانی را که باعث آسیبرساندن به دیگران میشوند شناسایی کند. مزیت این چارچوب نسبت به الگوریتمهای مشابه این است که خصوصیتهایی را که یک کاربر بدخواه و آسیبرسان نمیتوان به راحتی جعل کند، مورد استفاده قرار میدهد. مؤلفان این مقاله، چارچوب پیشنهادی خود را بر روی دادههای شبکه اجتماعی مصنوعی مورد ارزیابی قرار دادهاند که نتیجه آن بهبود دقت شناسایی کاربرانی بوده است که بالقوه بدخواه هستند.
الگوریتمهای انتشار برچسب جزو روشهای یادگیری نیمهنظارتشده و سریع در حوزه شناسایی جوامع هستند. اما ناپایداری و تصادفی بودن آنها چالش مهمی محسوب میشود. بسیاری از محققان، راهکارهایی برای بهبود تکنیک انتشار برچسب ارائه کردهاند که اغلب آنها برای کشف جوامع بزرگ مناسب نیست؛ زیرا پیچیدگی زمانی آنها بسیار بالا است؛ بنابراین در مرجع [15] یک الگوریتم انتشار برچسب بر مبنای معیار h-index تطبیقی ارائه شده است که پایداری و دقت LPA را با استفاده از معیار h-index اصلاحشده بهعنوان یک ملاک اهمیت گره، بهبود میبخشد. با آن که روش پیشنهادی در این پایاننامه نیز از ترکیب معیار h-index با رویکرد انتشار برچسب استفاده میکند، تفاوتهای قابلملاحظهای نسبت به روش مرجع [16] دارد؛ زیرا اولاً روش پیشنهادی بر مبنای بهبود الگوریتم LBLD طراحی شده و ثانیاً در معیار h-index بهمنظور متناسب شدن با کاربرد شناسایی جوامع، اصلاحاتی پیشنهاد شده است که جزئیات این تغییرات و نوآوریها را در فصل بعد که به توصیف روش پیشنهادی میپردازد ارائه خواهیم کرد.
کار تحقیقاتی که بهعنوان راهکار پایه در این پژوهش موردمطالعه و بررسی قرار گرفته است در مرجع [1] ارائه شده است. الگوریتم پیشنهادی در این روش LBLD نام دارد که برگرفته از سرنام کلمات عبارت «انتشار برچسب متوازن محلی» است. این الگوریتم ابتدا براساس یک معیار شباهت، درصدی از گرههای شبکه را که بیشترین میزان اهمیت را دارند، شناسایی میکند. به این گرهها برچسبهای متوالی و متفاوت انتساب داده میشود. سپس با یک رویکرد متوازن و با انتشار برچسب از گرههای اولیه به رأسهای مجاور آنها، جوامع توسعه داده میشوند. در انتها یک مرحله ادغام جوامع اجرا میشود تا جوامع کوچک با یکدیگر ترکیب شوند و جوامع با بزرگی مطلوب و در عین حال قوی را تشکیل دهند.
شکل 2 فرآیند انتشار برچسب در الگوریتم LBLD در یک شبکه نمونه را نشان میدهد. در شکل سمت چپ، مهمترین گرهها شناسایی شده و برچسبهای متفاوت به آنها انتساب داده شده که با رنگهای متمایز نشان داده شده است. در شکل سمت راست، بروزرسانی برچسبها برمبنای انتشار برچسب انجام شده است.
شکل 2. نمونهای از فرایند شناسایی جوامع براساس الگوریتم LBLD [1]
Figure 2. An example of the community detection process based on the LBLD algorithm.
3- راهکار پیشنهادی
3-1- توصیف کلی راهکار پیشنهادی
در این بخش، توصیف کلی ایده پیشنهادی ارائه میگردد. سپس در بخش 3-2 روش پیشنهادی به تفصیل ارائه و تشریح میشود. در مدلسازی و تحلیل شبکههای اجتماعی، یکی از مهمترین ملاکهای تخمین میزان شباهت بین گرهها شباهت ساختاری رأسها بر مبنای تعداد همسایههای مشترک است. برای این منظور، معیارهای شباهت مختلفی مانند شباهت کسینوسی و شباهت جاکارد استفاده میشوند. در روش پیشنهادی [1] معیار دیگری توسط مؤلفان ارائه شده است. اما پیشنهاد ما این است که از معیار جاکارد برای این منظور استفاده شود. دلیل استفاده از معیار شباهت جاکارد این است که این معیار در مسائل حوزه مدلسازی و تحلیل شبکههای اجتماعی و بهطورکلی در ارزیابی شباهت بین گرهها در گراف بسیار کارآمد است و نتایج ارزیابیهای ما در بخش 4 نیز این موضوع را تأیید میکند.
این معیار شباهت بین دو رأس گراف را با تقسیم تعداد همسایههای مشترک آن دو بر تعداد همسایههای مشترک و غیرمشترک آنها تخمین میزند. بهعبارتدیگر شباهت جاکارد برای دو رأس A و B در یک شبکه اجتماعی برابر است با تعداد اعضای مجموعه اشتراک همسایههای A و B تقسیم بر تعداد اعضای مجموعه اجتماع آنها. رابطه (1) معیار جاکارد را نشان میدهد [20]:
| (1) |
| (2) |
| (3) |
| (4) | |||
| (5) | |||
| (6) |
نام مجموعهداده | تعداد رأسها (افراد) | تعداد یالها (لینکها) | تعداد جوامع (خوشهها) |
باشگاه کاراته زاخاری | 34 | 78 | 2 |
دلفینها | 62 | 159 | 2 |
فوتبال | 115 | 613 | 12 |
آمازون | 334863 | 925872 | 75149 |
اولین آزمایش بهمنظور تعیین مقدار اطلاعات متقابل نرمالشده (NMI) بر اساس روش پیشنهادی انجام شده است. این بررسی برای چهار مجموعهداده مورد ارزیابی قرار گرفته است. نتایج بهدستآمده در جدول (2) نشان داده شده و با نتایج روشهای موجود مقایسه شده است.
جدول 2: مقادیر NMI حاصل از روش پیشنهادی و مقایسه آن با نتایج روشهای موجود
Table 2: NMI values obtained from the proposed method and a comparison with the results of existing methods.
نام مجموعهداده | الگوریتم LBLD [1] | الگوریتم LSMD [3] | الگوریتم مرجع [16] | روش پیشنهادی |
باشگاه کاراته زاخاری | 1 | 1 | 1 | 1 |
دلفینها | 1 | 1 | 0.98 | 1 |
فوتبال | 0.91 | 0.93 | 0.92 | 0.95 |
آمازون | 0.97 | 0.95 | 0.97 | 0.98 |
همانگونه که در جدول (2) مشاهده میشود، برای دو مجموعه داده باشگاه کاراته و دلفینها که مجموعههایی با تعداد کم رکورد هستند، الگوریتم پیشنهادی ما مانند دو الگوریتم مورد مقایسه، بهترین نتیجه ممکن یعنی مقدار NMI برابر با 1 را ارائه میکند. در مورد مجموعهدادههای فوتبال و آمازون، مقدار NMI حاصل از راهکار پیشنهادی بیشتر از دو الگوریتم مورد مقایسه است که به معنی انتخاب جوامع قویتر است.
آزمایش بعدی باهدف محاسبه F-measure بر اساس روش پیشنهادی و مقایسه آن با الگوریتمهای قبلی است. نتایج این ارزیابی در جدول (3) نشان داده شده است.
جدول 3: مقادیر F-measure حاصل از روش پیشنهادی و مقایسه آن با نتایج روشهای موجود
Table 3: F-measure values obtained from the proposed method and its comparison with the results of existing methods
نام مجموعهداده | الگوریتم LBLD [1] | الگوریتم LSMD [3] | الگوریتم مرجع [16] | روش پیشنهادی |
باشگاه کاراته زاخاری | 1 | 1 | 1 | 1 |
دلفینها | 1 | 1 | 0.99 | 1 |
فوتبال | 0.916 | 0.910 | 0.914 | 0.923 |
آمازون | 0.90 | 0.84 | 0.87 | 0.92 |
مطابق جدول 3 در مورد معیار F-measure هم نتایج روش پیشنهادی برابر یا قدری بهتر از نتایج دو الگوریتم مورد مقایسه است.
آزمایش بعدی بهمنظور محاسبه معیار پیمانگی در روش پیشنهادی و مقایسه آن با الگوریتمهای موجود انجام شد که نتایج آن در شکل 4 ارائه شده است. لازم به ذکر است که با توجه به این که در مرجع [1] مقدار این معیار برای مجموعه داده آمازون گزارش شده است بنابراین ارزیابی و مقایسه روش پیشنهادی نیز بر روی همین مجموعه داده انجام گرفته است. شکل 4 نشان میدهد که راهکار پیشنهادی مقدار معیار پیمانگی را به میزان 2 درصد نسبت به الگوریتم و به میزان 5 درصد نسبت به الگوریتم LSMD بهبود داده است.
نکته قابلملاحظه در نتایج حاصل این است که اگرچه اندازه مطلق بهبود مقادیر معیارهای NMI و F-measure در روش پیشنهادی نسبت به سایر روشهای مورد مقایسه، جزئی به نظر میرسد؛ ولی اولاً در این حوزه تحقیقاتی، چون مقدار معیارهای ارزیابی بین صفر و یک است، اغلب بهبودها در این معیارها جزئی است و ثانیاً اگر مقدار نسبی و درصدی بهبود معیارهای ارزیابی موردتوجه قرار گیرد، ملاحظه میشود که درصد افزایش مقادیر NMI و F-measure قابلملاحظه است و نشان میدهد که روش پیشنهادی کارایی قابلقبولی در شناسایی جوامع دقیقتر از خود نشان داده است.
آخرین آزمایش انجامشده برای تعیین مقدار بهینه پارامترهای k و p صورت گرفت که نتایج آن در جدول (4) ارائه شده است. همان طور که نتایج این جدول نشان میدهد بهترین مقادیر F-measure به ازای k=5, p=70% حاصل شده است یعنی شرایطی که در هر جامعه حداقل هفتاد درصد از اعضای جامعه هر یک حداقل با پنج عضو دیگر همان جامعه در ارتباط باشند.
Figure 4. The value of the evaluation metric obtained from the proposed method compared to the LBLD and LSMD algorithms on the Amazon dataset.
جدول 4: مقادیر F-measure حاصل از روش پیشنهادی به ازای مقادیر مختلف k و p
Table 4: F-measure values obtained from the proposed method for various values of k and p
نام مجموعهداده | k=5, p=60% | k=5, p=70% | k=7, p=60% | k=7, p=70% |
باشگاه کاراته زاخاری | 0.982 | 1 | 0.990 | 0.991 |
دلفینها | 0.976 | 1 | 0.968 | 1 |
فوتبال | 0.903 | 0.923 | 0.909 | 0.916 |
آمازون | 0.914 | 0.92 | 0.905 | 0.912 |
5- نتیجهگیری و کارهای آینده
مسئله استخراج جوامع در شبکههای اجتماعی در سالهای اخیر توجه محققان را به خود جلب کرده است. به دلیل گسترش روزافزون کاربردهای این حوزه و باتوجهبه اهمیت افزایش دقت استخراج جوامع، در این پایاننامه، راهکار جدیدی با بهبود یک الگوریتم موجود در این زمینه موسوم به LBLD [1] ارائه شد. برای این منظور از معیار شباهت جاکارد برای تعیین میزان مشابهت رأسهای شبکه از نظر همسایههای مشترک استفاده شد. همچنین یک معیار جدید مبتنی بر مفهوم معیار h-index برای افزایش دقت شناسایی جوامع معرفی و استفاده شد. ایده پیشنهادی بر این اصل مبتنی است که برای قویتر بودن یک جامعه شناساییشده لازم است تعداد بیشتری از اعضای جامعه، اتصالات بیشتری با بقیه اعضای جامعه داشته باشند؛ بنابراین جوامعی که این شرط را برآورده نمیکنند در الگوریتم پیشنهادی به جوامع کوچکتر و قویتری تفکیک میشوند.
در نهایت، راهکار پیشنهادی با پیادهسازی و اعمال بر روی چند مجموعهداده شناختهشده ارزیابی و با کار مرجع [1] مقایسه گردید. نتایج ارزیابیهای انجامشده نشاندهنده بهبود میزان قویبودن جوامع استخراجشده نسبت به روشهای مورد مقایسه از نظر معیارهای NMI، ماژولاریتی و F-measure است. میزان بهبود این سه معیار بر روی مجموعهدادههای مختلف نسبت به الگوریتمهای مورد مقایسه به طور متوسط برابر با 3.2درصد، 3.5 درصد و 2.9درصد بوده است.
پیشنهادهای مختلفی در راستای ادامه کار این پژوهش و بهبود آن قابلطرح است که از جمله میتوان به موارد زیر اشاره کرده:
· برای بررسی کیفیت جوامع شناساییشده، علاوه بر ارزیابی میزان اتصالات داخل هر جامعه، میزان اتصالات بین جوامع نیز مورد ارزیابی قرار گیرد؛ زیرا شناسایی جوامع بهصورت مطلوب، زمانی حاصل میشود که ارتباطات در داخل هر جامعه، بیشینه و بین جوامع مختلف، کمینه باشد.
· پیشنهاد دیگر، استفاده از الگوریتمهای یادگیری ماشین یا روشهای فراابتکاری و تکاملی برای تعیین مقدار پارامترهای k و p در روش پیشنهادی است.
· همچنین میتوان از ترکیب ایده پیشنهادی در این مقاله با الگوریتمهای خوشهبندی کلاسیک و شناختهشده بهمنظور افزایش دقت شناسایی جوامع استفاده کرد.
مراجع
[1] H. Roghani, and A. Bouyer, "A Fast Local Balanced Label Diffusion Algorithm for Community Detection in Social Networks," IEEE Transactions on Knowledge and Data Engineering · January 2022.
[2] K. Berahmand, A. Bouyer, and M. Vasighi, "Community Detection in Complex Networks by Detecting and Expanding Core Nodes Through Extended Local Similarity of Nodes," IEEE Transactions on Computational Social Systems, vol. 5, no. 4, pp. 1021-1033, 2018, doi: 10.1109/TCSS.2018.2879494.
[3] A. Bouyer and H. Roghani, "LSMD: A fast and robust local community detection starting from low degree nodes in social networks," Future Generation Computer Systems, vol. 113, pp. 41-57, 2020/12/01/ 2020, doi: https://doi.org/10.1016/j.future.2020.07.011.
[4] Adamic LA, Glance N, editors. The political blogosphere and the 2004 US election: divided they blog. Proceedings of the 3rd international workshop on Link discovery; 2005.
[5] Z. Sun et al., "Community detection based on the Matthew effect," Knowledge-Based Systems, vol. 205, p. 106256, 2020.
[6] S. Aghaalizadeh, S. T. Afshord, A. Bouyer, and B. Anari, "A three-stage algorithm for local community detection based on the high node importance ranking in social networks," Physica A: Statistical Mechanics and its Applications, vol. 563, p. 125420, 2021.
[7] M. Zarezade, E. Nourani, and A. Bouyer, "Community detection using a new node scoring and synchronous label updating of boundary nodes in social networks," Journal of AI and Data Mining, vol. 8, no. 2, pp. 201-212, 2020.
[8] S. Taheri and A. Bouyer, "Community Detection in Social Networks Using Affinity Propagation with Adaptive Similarity Matrix," Big Data, vol. 8, no. 3, pp. 189-202, 2020.
[9] A. Clauset, M. E. Newman, and C. Moore, “Finding community structure in very large networks,” Physical Review E, vol. 70, no. 6, p. 066111, 2004.
[10] Yang Z, Algesheimer R, Tessone CJ. A comparative analysis of community detection algorithms on artificial networks. Scientific reports. 2016;6(1):30750.
[11] F. D. Zarandi and M. K. Rafsanjani, “Community detection in complex networks using structural similarity,” Physica A: Statistical Mechanics and its Applications, vol. 503, pp. 882–891, 2018.
[12] M’barek MB, Hmida SB, Borgi A, Rukoz M. GA-PPI-Net Approach vs Analytical Approaches for Community Detection in PPI Networks. Procedia Computer Science. 2021;192:903-12.
[13] Patil SV, Kulkarni DB, editors. Graph partitioning using heuristic Kernighan-Lin algorithm for parallel computing. Next Generation Information Processing System: Proceedings of ICCET 2020, Volume 2; 2021: Springer.
[14] Gharehchopogh, F.S., 2023. An improved Harris Hawks optimization algorithm with multi-strategy for community detection in social network. Journal of Bionic Engineering, 20(3), pp.1175-1197.
[15] Hevey D. Network analysis: a brief overview and tutorial. Health psychology and behavioral medicine. 2018;6(1):301-28.
[16] V. A. Traag, L. Waltman, and N. J. van Eck, "From Louvain to Leiden: guaranteeing well-connected communities," Scientific reports, vol. 9, no. 1, pp. 1-12, 2019.
[17] Hernández-García, Á., Cuenca-Enrique, C., Traxler, A., López-Pernas, S., Conde-González, M. Á., & Saqr, M. (2024). Community detection in learning networks using R. In Learning analytics methods and tutorials: a practical guide using R (pp. 519-540). Cham: Springer Nature Switzerland.
[18 Yilmaz, C. B., Dagdeviren, Z. A., & Unalir, M. O. (2024, September). Identifying Social Connections: An Empirically-Driven Evaluation of Community Detection Methods on Twitter. In 2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP) (pp. 1-8). IEEE.
[19] Rostami, M., Oussalah, M., Berahmand, K., & Farrahi, V. (2023). Community detection algorithms in healthcare applications: A systematic review. IEEE Access, 11, 30247-30272.
[20] Su, S., Guan, J., Chen, B., & Huang, X. (2023). Nonnegative matrix factorization based on node centrality for community detection. ACM Transactions on Knowledge Discovery from Data, 17(6), 1-21.
[1] Local Similarity Multi-level Diffusion
[2] Local Balanced Label Diffusion
[3] Label influence Policy for Label Propagation Algorithm
[4] Label Propagation Algorithm
[5] Importance based Label Propagation Algorithm
[6] Community Detection based on the Matthew Effect
[7] Local Community Detection based on high importance nodes Ranking
[8] Graph Convolutional Network
[9] Degree centrality
[10] modularity-based
[11] Affinity Propagation with Adaptive Similarity
[12] Node Importance
[13] Normalized Mutual Information
[14] Precision
[15] Recall
[16] F-Score /F-measure
Related articles
-
-
Challenges and solutions to identify and prevent SYN attacks in the Internet of Things
Print Date : 2025-06-07
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2021-2025