Discovering a Way to Analyze Customer Emotions on Social Media for use in Advertising Systems
Subject Areas : مدیریتleila khajehvand 1 , Abbas Toloie Eshlaghy 2 * , Morteza Mosakhani 3
1 - M.A.,Department of Management Information Systems, Science and Research Branch, Islamic Azad University, Tehran, Iran
2 - Professor, Department of Industrial Management, Science and Research Unit, Islamic Azad University, Tehran, Iran
3 - Professor, Department of Management , Science and Research Branch, Islamic Azad University, Tehran, Iran
Keywords: Machine Learning, Users, Content, Social networks, EMOTIONAL ANALYSIS,
Abstract :
Recently,social networks have attracted special attention. In various social networks, users are constantly expressing their public as well as private opinions on various topics. Twitter is one of these social networks that has become very popular in the last decade. This social network provides organizations with a fast and effective way to analyze customers' feelings, views, and criticisms of market success. Emotional analysis is a process in which people's opinions, feelings, and attitudes about a particular subject are extracted. There has been a lot of research on emotion analysis based on user comments, documents and articles. Analysis of what is being said is very different from Twitter data, because Twitter tweets are limited to 280 characters and force users to express their feelings concisely. The best results in emotion classification are obtained from machine learning techniques such as simple Bayes and support vector machine. In this research, a method for analyzing emotions in social networks is presented. In this regard, we have tried to improve the classification of text by Bayesian method to some extent by focusing on the stages of data preprocessing and feature selection.users' feelings are analyzed. The classification problem has been formulated and solved using the latest achievements in the field of machine learning. . To evaluate the proposed method in this dissertation is from the Twitter data set scenario. The proposed method is compared with other classification methods. Has shown the best performance.
_||_
مجله مدیریت توسعه و تحول 54 (1402) 41-33
مدیریت احساسات مشتریان در رسانه های اجتماعی جهت بهبود تبلیغات و افزایش خرید
لیلا خواجهوند1، عباس طلوعی اشلقی2،*، مرتضی موسیخانی3
1دانشجوی کارشناسی ارشد، گروه مدیریت فناوری اطلاعات، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
2استاد، گروه مدیریت صنعتی، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران (عهدهدار مکاتبات)
3استاد، گروه مدیریت دولتی، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
تاریخ دریافت: اسفند 1401، اصلاحيه: فروردین 1402، پذیرش: تیر 1402
چکیده :
امروزه شبکههاي اجتماعي توجه ويژهاي را به خود جلب نمودهاند. در شبکههاي اجتماعي گوناگون، کاربران دائما در حال ابراز نظرات عمومي و همچنين خصوصي خود دربارهي موضوعات مختلف هستند. توييتر يکي از اين شبکههاي اجتماعي است که در دهه اخير محبوبيت بسياري يافته است. اين شبکه اجتماعي روشي سريع و موثر براي تحليل احساسات، ديدگاهها و انتقادات مشتريان براي موفقيت در بازار را به سازمانها ارائه ميدهد. تحليل احساسات يا عقيده کاوي فرآيندي است که در آن نظرات، احساسات و نگرش افراد در ارتباط با موضوعي خاص استخراج ميشود. پژوهشهاي زيادي در رابطه با تحليل احساسات بر روي نظرات کاربران، مستندات و مقالات انجام شده است. تحليل بر روي موارد بيان شده تفاوت عمدهاي با داده هاي توييتر دارد، به اين سبب که توييتهاي توييتر محدوديت 280 کاراکتري دارند و کاربران را وادار به بيان احساسات خود به صورت فشرده و کوتاه مينمايند. بهترين نتايج به دست آمده در طبقه بندي احساسات از تکنيکهاي يادگيري ماشين مثل بيز ساده و ماشين بردار پشتیبان حاصل شده است.
در اين پژوهش به ارائه روشي براي تحليل احساسات در شبکههاي اجتماعي پرداخته ميشود. در اين راستا سعي شده با تمرکز بر مراحل پيش پردازش دادهها و انتخاب ويژگي، طبقهبندي متن توسط روش بيز را تا حدودي بهبود بخشيم. به عبارتي، با تعريف اين مسئله به صورت يک مسئله کلاسبندي باينري بر اساس خصيصههاي پيشنهادي به تحليل احساسات کاربران پرداخته ميشود. مسئله کلاسبندي با استفاده از جديدترين دستاوردهاي حوزه يادگيري ماشين فرموله و حل شده است. براي ارزيابي روش پيشنهادي در اين رساله از سناريو مجموعه دادگان توييتر ميباشد. روش پيشنهادي با ساير روشهاي طبقهبندي مقايسه ميشود. بهترين عملکرد را از خود نشان داده است.
واژههای اصلی: شبکههاي اجتماعي، تحليل احساس، محتوا ،يادگيري ماشين، کاربران.
1- مقدمه
رسانههاي اجتماعي با سرعتي تصاعدي در حال گسترش هستند و در حال حاضر آن ها فرصتي بينظير براي کسب وکارها ايجاد کردهاند. فيسبوک، بهعنوان بزرگترين شبکه اجتماعي در حال حاضر بيش از 900 ميليون کاربر فعال دارد بيش از 70% اين کاربر بهصورت روزانه وارد اين سايت شده و در حدود 940 ميليارد دقيقه را صرف بازديد از اين سايت مينمايند. همين وضعيت براي ديگر رسانههاي اجتماعي نظير توئيتر صادق است. با شيوع بيماري کرونا و همهگير شدن آن، کاربران از صنايع مختلف انتظار دارند سرويس و محصولات خود را در بستر آنلاين به فروش برسانند و آن ها بتوانند در هر شرايطي به محصولات مورد نياز خود دسترسي داشته باشند تحقيق کن 2020 بيش از 98% کاربران آمريکايي رسانههاي اجتماعي عقيده دارند که شرکتها بهتر است خدمات خود را در قالب رسانههاي اجتماعي ارائه نمايند و بيش از 85% معتقدند که کارخانجات بايد تعامل بهتري از طريق رسانههاي اجتماعي با مشتريان خود داشته باشند[13]. اين آمار و ارقام نشان دهنده اين موضوع است که چقدر رسانه هاي اجتماعي و ارائه سرويس برروي اين سامانه ها براي مشتريان اهميت دارد و کسب و کارها براي افزايش سهم بازار و پيشرو شدن در رقبا بر روي اين پروژه ها سرمايه گذاري مي کنند. استفاده از رسانههاي اجتماعي براي فرآيندهاي مرتبط با مشتريان، که به آن مديريت ارتباط با مشتري اجتماعي گفته ميشود، بخش بزرگتري از استفاده صرف کسبو کارها از رسانههاي اجتماعي را شامل ميشود. در اکثر منابع، مديريت ارتباط با مشتري به چهار شکل کاملاً متفاوت مورد توجه قرارگرفته است: استراتژيک، عملياتي، تحليلي و تعاملي. در نگاه استراتژيک به مديريت ارتباط با مشتري، CRM يک استراتژي محوري و کليدي در کسبو کار است و قرار است مشتريان سود ده را جذب کسبو کار کرده و آنها را براي ما حفظ کند.
*edu.myresearch@gmail.com
در نگاه عملياتي به مديريت ارتباط با مشتري، هر فرايندي که بهنوعي با مشتري مرتبط است. با استفاده از سامانههاي نرمافزاري، به ابزارهاي خودکار تجهيز ميشود. بازاريابي، فروش و خدمات مشتريان، ازجمله اين فرايندها هستند. در نگاه تحليلي به مديريت ارتباط با مشتري، CRM ابزاري براي تحليل هوشمندانه دادهها و اطلاعات مربوط به مشتري باهدفهاي استراتژيک و يا عملياتي است. در نگاه تعاملي به مديريت ارتباط با مشتري، CRM از فناوري براي مديريت مرزهاي سازمان، چه در رابطه با مشتري و چه شرکاي تجاري استفاده ميشود و هر نوع داده و اطلاعاتي که از مرزهاي سازمان عبور ميکند توسط اين سيستم مديريت ميشود. هدف اين سيستم ايجاد ارزش براي مشتريان و همکاران سازمان است. با هر ديدگاهي که به CRM توجه شود رسانههاي اجتماعي ميتواند جايگاه مهمي داشته باشد. يکي از زير بخشهاي مهم براي تحقق SCRM، تحليل احساسات و علايق مشتريان ميباشد. با توجه به وسعت و قابليتهاي تعامل کاربران، اين بخش نيازمند تحول بنيادين با توجه به نيازهاي روزافزون فضاي کسبو کار و روشهاي بازاريابي ميباشد[1].
تحليل احساسات و علايق مشتريان قلب هر سامانه مديريت ارتباط با مشتري محسوب ميشود. مسئله مطرح در اين پروژه، ارائه روشي براي تحليل احساسات مشتريان در سامانههاي مديريت ارتباط با مشتري اجتماعي است. اين روش قادر خواهد بود با بررسي پستها و فعاليتهاي کاربران در رسانههاي اجتماعي به شناسايي احساسات، اقدام به گروهبندي مشتريان بر حسب علايق و احساسات نمايد. همينطور اين روش قادر است گزارشگيري کارآمدي از تغييرات نظرات و احساسات مشتريان در بازههاي زماني مختلف را ارائه نمايد. تحليل احساس يکـى از فعالتريـن حوزه هـاى پژوهشـى در پـردازش زبـان طبيعـى اسـت کـه به دليـل اهميـت آن در کسـب وکار و جامعـه بـه خـارج از علم کامپيوتـر مانند مديريـت و علـوم اجتماعـى نيـز گسـترش يافته اسـت. اهميـت درحال رشـد تحليـل احساسـات بـا رشـد رسـانههاى اجتماعـى مانند بررسـىها، انجمنهـا، بحـث، وبلاگها، ميکروبلاگهـا، توييتـر و شـبکههاى اجتماعـى همخوانـى دارد. سيسـتمهاى سـنجش در هـر حـوزة تجـارى و اجتماعـى کاربرد دارنـد؛ زيرا نظـرات در همه احساسـات تقريبـا فعاليتهـاى انسـانى متمرکـز هسـتند و تأثيـرات کليدى رفتارهـاى ما به شـمار ميروند. کسب وکارها با تحليل احساسات کاربران خود ميتوانند سرويس يا محصول خود را ارتقا دهند يا محصولات و سرويسهاي جديد را به بازار ارائه دهند. از طرفي تحليل احساسات کاربران ميتواند به تصميمات مديران سازمان جهت ارائه تبليغات موثرتر، بهبود پرموشنها و جذب کردن کاربران کمک کند. همچنين در صورتي که مشتريان نسبت به محصولات يا سرويسهاي فعلي احساس ناخوشايندي داشته باشند ميتوان با دخيل کردن نظرات آنها اين حس ناخوشايند را به احساس مثبت و افزايش رضايتمندي آنها تبديل کرد.
در بخش دوم به ارائه کارهای مرتبط پرداخته میشود. در بخش سوم کار پیشنهادی مطرح میشود و در نهایت در بخش چهارم به ارزیابی روش پیشنهادی پرداخته میشود.
2- پیشینه تحقیق
بيشتر مطالعات مرتبط با تحليل احساس در گذشته بر اساس الگوريتمهاي يادگيري با نظارت انجام گرفته است كه نياز به تهيه داده برچسب خورده دارند. مدل بيز ساده، سادهترين و پراستفادهترين الگوريتم احتمالاتي براي دستهبندي است و بر مبناي قضيه بيز كار ميكند. اين مدل احتمالات پسين رويدادها را محاسبه كرده و برچسبي كه بيشترين احتمال پسين را دارد به رويداد نسبت ميدهد. دستهبندي پركاربردآنتروپي بيشينه است كه كار دستهبندي را ميتوان با آن انجام داد. اين روش بر پايه مدل نمايي و اصل حداکثر آنتروپي است. استفاده از اين روش تجربههاي موفقي در كار پردازش زبان طبيعي از جمله در تحليل احساس به ارمغان آورده است. اين روش در اكثر (و نه در همه) مواقع نسبت به مدل بيز ساده برتري دارد.ماشين بردار پشتيبان كار دستهبندي اسناد بر مبناي موضوعات مشابه بسيار مفيد است. روش SVM يك مدل يادگيري بانظارت است كه كار آن دستهبندي كردن اشيا در كلاسهاي مختلف با استفاده از ويژگيهاي استخراج شده است. اين دستهبندي با ايجاد ابرصفحهاي ميان نمونههاي هر كلاس و حداكثركردن فاصله نمونهها از اين صفحه صورت ميگيرد. برتري اين روش نسبت به ديگر روشهاي مطرح يادگيري ماشين آن است كه در مورد دادههاي ورودي پيش فرضي ندارد و به جاي تكيه بر ارزشهاي احتمالاتي، سعي دارد تا بهينهترين دستهبندي را با دادههاي موجود انجام دهد و نتايج به دست آمده از آن در تحليل احساس برتري محسوسي به ديگر روشهاي يادگيري ماشين در زبان انگليسي دارد[8]. در سالهاي اخير روشهاي يادگيري عميق به خصوص شبكههاي (RNN)در تحليل احساس براي زبان انگليسي چيني و آلماني در ميان زبانهاي مختلف، با استفاده از بردارهاي مختلف نمايش كلمات كاربرد زيادي داشته است. آنها براي درك و كنترل تركيب معنايي در كارهاي پيچيدهاي مانند تحليل احساس مفيد هستند. شبكههاي RNN براي دادههايي با قابليت تبديل به مقادير متوالي به كار ميروند و با استفاده از ايده اشتراكگذاري پارامترها براي رسيدن به وزنهاي مطلوب، توانايي پردازش تواليهايي با طولهاي متفاوت را دارند. با وجود اين كه استفاده از آنها در تحليل احساس براي زبان انگليسي با نتايجي بهتر از روشهاي يادگيري بانظارت همراه بوده است. با رشد ساختار شبكههاي RNN ،ابعاد ماتريسها در مرحله بازپخش به صورت تواني رشد ميكنند و در عمل استفاده از آنها غير ممكن ميشود[11]. شبكههاي پيچشي كه كولوبرت و ديگران در ابتدا براي كاربرد در بينايي رايانهاي ارائه كردهاند، اخيراً در بسياري از كارهاي پردازش زبان طبيعي مانند تجزيه نحوي، تجزيه سطحي، برچسبزني نقش معنايي مورد استفاده قرار گرفته است. استفاده از شبكههاي پيچشي قطعهبندي در تحليل احساس نيز براي زبانها با منابع فراوان مورد استفاده قرار گرفته و باعث بهبود قابل توجه دقت و كاهش زمان مرحله آموزش نسبت به ديگر روشهاي يادگيري عميق شده است. پژوهشهاي حوزه تحليل احساس در زبان فارسي معمولاً يا با استفاده از روشهاي مبتني بر قاعده هستند يا مبتني بر پيكره. براي بهبود نتايج معمولاً از پيشپردازش نظرات و ويژگيهاي لغتنامه استفاده شده است. بصيري و همكاران[6] يك چارچوب مبتني بر لغتنامه ارائه كردند كه به صورت بدون نظارت با استفاده از قواعد از پيش تعيين شده و لغتنامه تعريف شده جهتگيري متون محاوره را تشخيص ميدهد. استفاده از SVM براي تحليل احساس در زبان فارسي بر روي داده مربوط به نقد فيلم، منجر به نتايج بهتري نسبت به روشهاي ديگر يادگيري ماشين شده است. بازدهي اين روشها وابسته به كيفيت برچسبدهي در پيكرهها و شيوه گزينش ويژگيها پيش از شروع كار دستهبندي است. روشنفكر و همكاران[7] براي اولين بار از شبكههاي عصبي LSTM براي تشخيص احساس متون فارسي استفاده كردند و توانستند نسبت به روشهاي يادگيري سنتي نتايج بهتري داشته باشند، اما اين نوع شبكه ها براي آموزش نياز به دادههاي خيلي زيادي دارند. همچنين آنها در كار خود فقط دو سطح از احساس را در نظر گرفتند و از جاسازي ساده كلمات استفاده كردند. اينترنت از قابليتها و امکانات زيادي براي ايفاي کارکرد حوزه عمومي برخوردار است. شبکه اينترنت امکاناتي در اختيار مردم جوامع ميگذارد تا در فضايي مناسب به گفتگوي آزاد و برابر با هم بپردازند و در نتيجه فرآيندهاي گفتگو و مباحثه، به نقطهنظرهاي مشترکي درباره مسائل سياسي و اجتماعي دست يابند و به افکار عمومي شکل دهند. (ميناوند، محمدقلي) مجموعه دادههاي نشات گرفته از تحقيق بر روي شبکههاي اجتماعي در زمينههاي بسياري مانند جامعه شناسي و روانشناسي باارزش هستند. اما حمايت از ديدگاه فني به اندازه کافي دور است، و به روشهاي خاص فوري نياز دارند. (اکسيو وانگ و همکار) تحقيق روانشناسي براي تشخيص کاربران افسرده شبکههاي اجتماعي[16] را با استفاده از دادهکاوي انجام داده است. اخيرا ايده استفاده از تجزيه و تحليل احساسات کاربران شبکههاي اجتماعي براي بهبود عملکرد برنامههاي کاربردي در وب سايتهاي خريد آنلاين توجه پژوهشگران را به خود جلب کرده است. وب سايت هاي خريد آنلاين بطور گستردهاي بررسي در مورد يک محصول ارائه ميکنند و مشتريان ميتوانند استفاده کنند[4]. در اينجا تجزيه و تحليل احساسات مشتريان در باره هر محصول انجام ميشود. در بررسي از سايتهاي شبکه اجتماعي قوانين براي احساسات مثبت يا منفي بسته به نمره کلي آن، با کمک SentiWordNetمحاسبه ميشود. تجزيه و تحليل تمايلات شامل تشخيص ذهنيت و احساسات موجود در نظرات است. نظرات عبارات توصيف عواطف و احساسات مردم در مورد يک موضوع، نهاد و يا رويداد است با استفاده از تکنيکهاي زبان طبيعي انجام توصيف ميکنند.[14] تقاضا براي اطلاعات فرابري شده از منابع متني به طور فزايندهاي در حال افزايش است. ذات غيرساخت يافتي اين متون، اعمال همان روشهايي را که ما در مورد ديتابيسها بکار میبريم، غير ممکن ميسازد. کاربردهاي مهمي را که از پردازش متون مورد انتظار است، بررسي ميکنیم. به اينگونه پردازشها که روي متون اعمال ميشود، متنکاوي ميگوييم[5]. وظيفهي اصلي عقيدهکاوي طبقهبندي قطبيت است. طبقهبندي قطبيت وقتي اتفاق ميافتد که يک تکه متن که يک عقيده در مورد يک موضوع را بيان کند به يکي از دو احساس متضاد تقسيم شود. نظراتي مثل «موافق» در مقابل «مخالف»، «دوست داشتن» در مقابل «دوست نداشتن» مثالهايي از طبقهبندي عقايد هستند. طبقهبندي قطبيت بيانات موافق و مخالف را تشخيص ميدهد و به توليد ارزيابيهاي معتمدتر کمک ميکند[2]. بسياري از شرکتها از عقيده کاوي و تحليل احساسات به عنوان جزئي از تحقيقاتشان استفاده ميکنند. مثلاً شرکتها از عقيده کاوي براي ساخت و نگهداري نظرات استفاده ميکنند. سيستمهاي آنها به طور مداوم اطلاعات را از وب مثل نظرات محصولات، دريافت برند و مسائل سياسي جمعآوري مي کند. ديگر سيستمها نيز ممکن است از عقيده کاوي و تحليل احساسات به عنوان يک فناوري زير مؤلفه براي بهبود مديريت روابط مشتري و سيستم توصيهگر از طريق بازخوردهاي مثبت و مشتريان استفاده کنند. به طور مشابه، عقيده کاوي و تحليل احساسات ممکن است شعلهها (زبان خصومتآميز و گرماي اضافي) را در روابط اجتماعي شناسايي و حذف کنند[12] .طبقهبندي بيان احساسات بر اساس معناي آنها و دانش قبلي تمايلات معنايي ناميده ميشود. با وجود اينکه تحليل نحوي نقشي کليدي در طبقهبندي اسناد بازي ميکند اما اين براي استخراج مفاهيم از متن فقط از طريق نحو کافي نيست. معيارهاي تئوري اطلاعات و دانش معنايي يک سلسه مراتب را با استفاده از WordNet ترکيب کردند تا مفاهيم را به طور اتوماتيک از متن استخراج کنند[15] دنکه نقش مدل بر پايه قوانين و يادگيري ماشين در يک دامنه چندگانه، بر روي سناريو طبقهبندي تست کرده است نتايج آنها نشان ميدهد که رويکرد مبتني بر واژگان، که با استفاده ازSentiWordNet ساخته شده است، دقت آن در مقايسه با روشهاي يادگيري ماشين محدودتر است[10].
3- روش پيشنهادي
در اين قسمت به ارائه روش پيشنهادي براي تحليل احساسات مشتريان در رسانه اجتماعي خواهيم پرداخت. اين روش شامل پنچ مرحله به صورت شکل ميباشد. اين مراحل شامل جمعآوري داده، پيش پردازش داده، آمادهسازي داده، برچسبگذاري کلمات، شناسايي خصيصههاي مرتبط با دامنه و خوشهبندي کلمات مرتبط با احساسات ميباشد. اين مراحل به صورت تفصيلي در ادامه بخش تشريح خواهد شد.
شکل (1) : روش پيشنهادي
مرحله اول ،ورودي نظرات کاربران
کاربران با ثبتنام بر روي شبکههاي اجتماعي، فعاليت خود را بر بستر اين شبکهها آغاز ميکنند. اين فعاليتها شامل توليد محتوا توسط کاربران، پيگيري علاقمندي هايشان، عضو شدن در گروههاي متنوع و غيره ميباشد. تمامي فعاليتهاي انجام شده توسط اين کاربران در پايگاه داده ذخيره ميشود، بنابراين انواع مختلفي از دادههاي متني يا غير متني، دادههايي با ساختارهاي متنوع، دادههاي غير دقيق و نادرست وجود دارد. در مراحل بعدي سعي در تميز کردن دادهها ميشود. در مرحله نخست به جمعآوري داده پرداخته ميشود. دادههايي ميتوانند از رسانههاي مختلف جمعآوري شود. در اين پاياننامه داده تويتر انتخاب شده است. براي جمعآوري دادههاي توئيتر چندين ابزار کاربردي متفاوت، وجود دارد. 1) برنامه کاربردي جستجوي توئيتر، 2) برنامه کاربردي جريان توئيتر، 3) ابزار آتشنشاني توئيتر.
مرحله دوم، پيش پردازش دادهها: جداسازي جملات
مشتريان با ثبت نام بر روي رسانههاي اجتماعي، فعاليتهاي خود را بر بستر اين شبکهها آغاز ميکنند. اين فعاليتها شامل توليد محتوا توسط کاربران، پيگيري علاقمنديهايشان، عضو شدن در گروههاي متنوع، ارائه نظرات مثبت و منفي خود نسبت به يک محصول يا سرويس خاص ميباشد. تمامي فعاليتهاي انجام شده توسط اين مشتريان در پايگاه داده ذخيره ميشود، بنابراين انواع مختلفي از دادههاي متني يا غير متني، دادههايي با ساختارهاي متنوع، دادههاي غير دقيق و نادرست وجود دارد. در اين مرحله براي از بين بردن عدم اين ناسازگاريها، کمبودهاي يکپارچگي و بهبود تحليل نتايج به آماده سازي دادهها پرداخته ميشود، براي اين کار دادهها، به سه دسته ساختاريافته، نيمه ساختاريافته و غير ساختاريافته تقسيم ميشود.
-آمادهسازي دادههاي ساختاريافته
داده هاي ساختاريافته از درجه بالاي سازماندهي برخوردار هستند. براي آمادهسازي دادههاي ساختار يافته چهار گام اصلي که در شکل 2 مشاهده ميشود، طي خواهد شد.
شکل (2): آمادهسازي دادههاي ساختار يافته
- آمادهسازي دادههاي نيمه ساختاريافته و غير ساختار يافته
دادههاي نيمهساختاريافته شکلي از دادههاي ساختاريافتهاي هستند که از ساختار رسمي از جداول و مدلهاي دادهاي وابسته به پايگاهِ دادههاي رابطهاي مطابقت نميکنند، اما با اين وجود شامل برچسبها يا علامتها و شاخصهايي هستند که عناصر معنايي را از يکديگر جدا ميکنند و سلسله مراتبي از رکوردها و فيلدها را بين دادهها ايجاد ميکنند. دادههاي غير ساختار يافته به دادههايي گفته ميشود که از هيچ مدل از قبل تعريف شده اي تبعيت نميکنند مثالي از دادههاي ساختاريافته متنهاي سنگين ميباشد.
شکل (3) : آمادهسازي دادههاي نيمه ساختار يافته و غير ساختار يافته
در اين بخش داده ها را به فرمتي مناسب تبديل کرده و آنها براي مرحله بعدي آماده ميشوند.
گاهي دادههاي خامي که براي تحليل داريم مناسب گروهي از آزمونهاي آماري نيستند و براي اينکه بتوانيم از اين دسته آزمونهاي آماري استفاده کنيم و همچنين دقت تحليل را بالا ببريم بايد در دادههاي خام تغييراتي ايجاد کنيم. يکي از اين تغييرات، تبديل داده ها نام دارد. تبديل دادهها، روشهايي رياضي است که براي تعديل متغيرهايي بهکار ميرود که از مفروضههاي آماري نرمال بودن، خطّي بودن و يکساني پراکندگي پيروي نميکنند يا الگوهايي با دادههاي پرت غيرمعمول دارند
در مجموع زماني که پيش شرطهاي آزمونهاي چندمتغيره برقرار نباشد، بايد دادههاي به دست آمده را تبديل کنيم تا امکان استفاده از برخي آزمونهاي مدنظر (عموما پارامتريک) فراهم شود.
در ابتدا بايد ميزان تخطّي و تفاوت دادهها از پيشفرضهاي ذکر شده را تعيين کرد و در صورتي که پيشفرضها يا پيش شرط هاي آماري به دست آمده داراي تفاوت قابل اعتنايي با مقدار معيار باشند از روش تبديل داده ها استفاده کرد. تبديل دادهها با هدف تعديل متغيرها از جنبه علمي روشي پذيرفته شده است. البته زماني که اختلاف دادهها با پيشفرضهاي آماري اندک باشد و به طور تقريبي مفروضات آماري برقرار باشد ميتوان از تبديل دادهها صرف نظر کرد.
بايد توجه داشت که تبديل دادهها تا اندازهاي مانند شمشير دولبه است. حسن اين روش اين است که مي تواند دقت معنیداري تحليلهاي آماري را افزايش دهد و عيب آن اين است که ممکن است تفسير دادهها را دشوارتر کند. در نتيجه بايد از روش تبديل دادهها به شيوهاي مدبرانه استفاده کرد.
دشوارکردن تفسير دادهها بدين معناست که وقتي دادهها را تبديل ميکنيم، مقدار حداقل و حداکثر و شيوه توزيع متغير و تمامي شاخصهاي ميانگين و انحراف استاندارد تغيير ميکند و با حالت معمول و عادي تفاوت پيدا ميکند. مثلا اگر سن افراد که به صورت کمّي (نسبي) سنجيده شده است را به توان دو برسانيم شاخص هاي آماري سن افراد تغيير ميکند و با سنهاي غير عادي مثل 250 ، 300 و غيره مواجه ميشويم. يا وقتي متغيري مانند اعتماد اجتماعي داريم و با 10 سوال اين متغير را سنجيديم و دامنه ميانگين اين متغير بين 1 تا 5 باشد، لگاريتم گرفتن از اين متغير دامنه نمرات را تغيير ميدهد و توضيح و تفسير متغير را با مشکل مواجه ميکند. يکي از راههاي رفع اين مشکل اين است که هنگام گزارش يافتههاي توصيفي و شاخصهاي آماري (مانند ميانگين، انحراف استاندارد و مقدار حداقل و حداکثر)؛ يافتهها و شاخصهاي آماري را هم به صورت عادي (قبل از تبديل دادهها) و هم بعد از تبديل دادهها گزارش کنيم.
در اين مرحله به کلمات وزن داده ميشود. کلمات با توجه به وزني که در اين مرحله و با استفاده از معيارهاي تعريف شده در مرحله بعدي دريافت ميکنند، مشخص ميشوند. نام ديگر اين مرحله استخراج ويژگي است. يعني در اين مرحله ويژگيهاي موردنظر را مشخص ميکنيم تا در مرحله بعدي انتخاب شوند.
در مرحله انتخاب ويژگي، ويژگيهايي که معيارهاي تعريف شده را ماکزيمم ميکنند، انتخاب خواهند شد. اين روش با کاهش نمونهها سعي در ايجاد يک دستهبندي مناسب دارد.
-تشخيص توييتهاي مورد علاقه کاربر
اولا بايستي مرتبط بودن توئيت را با علايق کاربر پيدا کرد. به منظور تعيين ميزان ارتباط يک توئيت با موضوعات مورد علاقه کاربر در اغلب کارهاي انجام شده از روش TF-IDF و کسينوس زاويه بين بردار کلمات و
استفاده ميگرددDF . اين معيار تعداد تکرار ويژگيها را در متون بررسي ميکند. در اين معيار يک ميزان آستانه تعريف ميشود. آن ويژگيهايي که تعداد تکرارشان بيشتر يا کمتر از ميزان آستانه است، حذف ميشوند. تکرار زياد يک ويژگي در اينجا احتمال انتخاب آن ويژگي را بيشتر ميکند. ازجمله ويژگيهاي اين روش، مقياسپذيري، سادگي و تأثير آن است. معيار ديگر مورد استفاده "بهره اطلاعاتي" ميباشد. اين روش با استفاده از آنتروپي قابل محاسبه است. و آن ويژگيهايي که ميزان gain بيشتري دارند را انتخاب ميکند. براي افزايش دقت روش پيشنهادي از آنتولوژي استفاده ميگردد. آنتولوژي براي مدلسازي شرايط در يک دامنه مورد علاقه و همچنين روابط ميان اين شرايط استفاده ميشود. مهمترين بخش آنتولوژي نقش کليدي آن در توسعه وب معنايي است. تحليل احساسات با استفاده از آنتولوژي به اين صورت است که از آنتولوژي جهت استخراج مفاهيم مرتبط استفاده ميشود. اين بخش به بخش استخراج ويژگي اعمال شده است (در شرح مسئله، بخش استخراج ويژگيها توضيح دادهشده است). در واقع آنتولوژي يک نوع معناشناسي انجام ميدهد.کلمات يکسان، ممکن است معاني مختلف و کلمات مختلف، ممکن است معاني يکسان داشته باشند. آنتولوژي کلماتي را که از نظر مفهوم به آن ويژگيها نزديکترند، مشخص ميکند.
-بررسي تعداد لايک ، تعداد کامنتها و تعداد ذکر شدنها:
لايک شدن يک پست توسط کاربر نشان دهنده آن است که کاربر نسبت به آن موضوع حساسيت بيشتري دارد. بنابراين تعداد لايک ميتواند پارامتر مهمي در تشخيص احساس کاربر باشد. از طرفي اگر تعداد منشنها زياد باشد يعني کاربران تمايل دارند موضوع را با ساير دوستان خود به اشتراک بگذارند. و همينطور تعداد کامنت ها نشان دهنده آن است که موضوع براي کاربر جذاب بوده و به ارائه ايده خود پرداخته است.
شبکههاي عصبي پيچشي ردهاي از شبکههاي عصبي عميق هستند که معمولاً براي انجام تحليلهاي تصويري يا گفتاري در يادگيري ماشين استفاده ميشوند. اين شبکه يک الگوريتم يادگيري عميق است که تصوير ورودي را دريافت ميکند و به هر يک از اشيا / جنبههاي موجود در تصوير ميزان اهميت (وزنهاي قابل يادگيري و باياس) تخصيص ميدهد و قادر به متمايزسازي آنها از يکديگر است. در الگوريتم ConvNet در مقايسه با ديگر الگوريتمهاي دستهبندي به پيشپردازش کمتري نياز است. در حاليکه فيلترهاي روشهاي اوليه به صورت دستي مهندسي شدهاند، شبکه عصبي پيچشي، با آموزش ديدن به اندازه کافي، توانايي فراگيري اين فيلترها / مشخصات را کسب ميکند. معماري ConvNet مشابه با الگوي اتصال نورونها در مغز انسان است و از سازماندهي قشر بصري در مغز الهام گرفته شده است. هر نورون به محرکها تنها در منطقه محدودي از ميدان بصري که تحت عنوان ميدان تاثير شناخته شده است پاسخ ميدهد. يک مجموعه از اين ميدانها براي پوشش دادن کل ناحيه بصري با يکديگر همپوشاني دارند.ConvNet قادر است به طور موفقي وابستگيهاي زماني و فضايي را در يک تصوير با استفاده از فيلترهاي مرتبط ثبت کند و همچنين، معماري فيلترگذاري بهتري را روي مجموعه داده تصوير به دليل کاهش تعداد پارامترهاي درگير و استفاده مجدد از وزنها انجام ميدهد.
4- ارزیابی
در اين بخش به ارزيابي روش پيشنهادي که برحسب مجموعه دادگان تويتر است مي پردازيم.
براي ارزيابي روش پيشنهادي بر طبق مراحل زير عمل کرده و خروجي روش پيشنهادي با ساير الگوريتم هاي يادگيري ماشين مقايسه خواهد شد.براي جمع آوري داده در توييتر از روش جريان توييتر استفاده شده است. بر طبق اين ابزار توييت هاي مورد نظر بر حسب موضوعوات محتلف
جدول (1) : جزئیات مجموعه داده
شماره | مجموعه دادگان | تعداد پست ها | تعداد کاربران | تعداد بازنشرها |
مجموعه دادگان يک | کويد 19 | 23457 | 65890 | 654780 |
مجموعه دادگان دو | آتشسوزي در جنگل هاي استراليا | 4500 | 78904 | 567890 |
مجموعه دادگان سه | بهار عرب | 5498 | 456789 | 47890 |
جدول (2) : معیار ارزیابی
نتايج پيش بيني |
|
| |
غلط negative | درست positive |
| نتايج واقعي |
True Negative | True Positive | درست positive | |
False Negative | False Positive | غلط negative |
جدول (3) : روابط روشهاي مختلف ارزيابي
رابطه 1 |
| |||
|
| |||
رابطه 2 |
| |||
رابطه 3 |
| |||
رابطه 4 |
|
مجموعه دادگان سوم | مجموعه دادگان دوم | مجموعه دادگان اول | ميانگين | معيار حساسيت |
786530612/0 | 88125000/0 | 896666700/0 | 854815771/0 | SASM |
484057971/0 | 456785714/0 | 416363600/0 | 4524024280/0 | KNN |
539074074/0 | 544255319/0 | 516483516/0 | 533270970/0 | نيوبيزين |
7045057971/0 | 778571400/0 | 696363600/0 | 726330990/0 | SVM |
در جدول 5، روشهاي پيشنهادي با سه روش ديگر از نظر معيار تشخيص مقايسه شده است. در اين ارزيابي، ميزان پيشبيني درست تصميمات عدم بازنشر، در معيار تشخيص بسيار موثر است. همانطور که در جدول 5 ، مشاهده ميشود، SASMبهترين عملکرد را داشته است. در معيار تشخيص نيز، روش SVM به صورت ميانگين، بهترين عملکرد را بعد از SASMبه خود اختصاص داده است. روش SASMتوانسته است، موارد عدم بازنشر را بهتر از روشهاي ديگر، تشخيص دهد. در اين بخش، روش KNN بدترين عملکرد را به خود اختصاص داده است.
جدول (5): مقايسه معيار تشخيص روشهاي پيشنهادي با بقيه روشها
مجموعه دادگان سوم | مجموعه دادگان دوم | مجموعه دادگان اول | ميانگين | معيار تشخيص |
76407767/0 | 78969700/0 | 66073170/0 | 738168790/0 | SASM |
42777778/0 | 39532710/0 | 35934070/0 | 394148527/0 | KNN |
57317073/0 | 565591398/0 | 51031250/0 | 549691543/0 | نيوبيزين |
73015873/0 | 58571430/0 | 45918370/0 | 591668557/0 | SVM |
در ادامه ارزيابي روشهاي پيشنهادي براي پيشبيني تصميم بازنشر کاربر در مواجهه با يک پست، به بررسي معيار نرخ خطاي روشهاي پيشنهادي در مقايسه با روشهاي ديگر ميپردازيم. معيار دقت، يکي از پرکاربردترين معيارها براي ارزيابي روشهاي پيشبيني و کلاسبندي است. هر چه نسبت ميزان پيشبيني درست تصميم بازنشر، به پيشبينيهاي نادرست، بيشتر باشد، دقت روش مربوطه بالاتر خواهد بود. جزئياتي بيشتري از نتايج مقايسه روشهاي پيشنهادي با ديگر روشها از نظر معيار دقت، در جدول 6 آورده شده است.
جدول (6): مقايسه نرخ دقت روشهاي پيشنهادي با بقيه روشها
مجموعه دادگان سوم | مجموعه دادگان دوم | مجموعه دادگان اول | ميانگين | معيار دقت |
752631579/0 | 8615385/0 | 68585710/0 | 766675726/0 | SASM |
389705882/0 | 48571430/0 | 34367820/0 | 406366127/0 | KNN |
562272730/0 | 691752577/0 | 682121212/0 | 645382173/0 | نيوبيزين |
739220779/0 | 78873240/0 | 59523810/0 | 707730426/0 | SVM |
همان طور که در جدول 6 مشاهده ميشود، روش SASM در اين معيار، بهترين عملکرد را داشته است. بعد از اين روش ماشين بردار پشتيان بهترين دقت را در بين روشهاي ديگر داشته است. يکي از دلايل برتري روشهاي پيشنهادي بر اساس معيار دقت در ماهيت اين روشها ميباشد. در اجتماعات برخط ممکن است کاربران دچار تغيير سلايق شوند. اين برتري روش پيشنهادي در دقت پيشبينيهاي انجام شده بسيار موثر است.
در جدول 7، معيار F-measure روشهاي مختلف مقايسه شده است. همانطور که پيشتر اشاره شد، معيار F-measure بکارگرفته شده در اين رساله، ميانگين موزون دقت و بازيابي (حساسيت) ميباشد (β=1(. همانطور که اشاره شد، ميزان اين معيار، ارتباط مستقيمي به دقت و بازيابي روشها دارد. هر دو روش پيشنهادي، بهترين عملکرد را داشتهاند. نکته جالب در اين جدول، پايين بودن مقدار F- measure براي روش KNN است. با وجود دقت نسبتاً خوب اين روش، با توجه به ضعف شديد اين روش در بازيابي، بدترين عملکرد را در اين معيار دارد.
جدول (7): مقايسه معيار F measure روشهاي پيشنهادي با بقيه روشها
مجموعه دادگان سوم | مجموعه دادگان دوم | مجموعه دادگان اول | ميانگين | معيار F measure |
579591837/2 | 283775/2 | 3/2 | 387780612/2 | SASM |
655347391/1 | 1857143/1 | 6990909/1 | 513384197/1 | KNN |
441124127/1 | 597011299/1 | 531612152/1 | نيوبيزين | |
195121951/2 | 4482759/1 | 7142857/1 | 785894517/1 | SVM |
5-نتیجهگیری
تحليل انتشار اطلاعات و نفوذ اجتماعي در شبکههاي اجتماعي داراي کاربردهاي بسيار زيادي در جهان واقعي دارد. يکي از مثالهاي کاربردي آن بيشنهسازي نفوذ در بازاريابي ويروسي ميباشد. تعيين کاربران تأثير گذار به عنوان يکي از اصليترين موضوعات موجود در شبکههاي اجتماعي ميباشدکه اهميت فراواني دارد. چنانچه اين کاربران به صورت دقيقتري شناسايي شوند، عملياتي که بر مبناي اين کاربران انجام ميشود با نفوذتر خواهد بود. هدف از انجام اين پروژه ارائه روشي براي تحليل احساسات مشتري در رسانههاي اجتماعي جهت استفاده در سامانههاي تبليغات است.براي اين امر از API جست و جوي تويتر استفاده شده است. اين مجموعه داده شامل اطلاعات مرتبط با کاربران و فعاليتهايشان در بستر شبکه اجتماعي تويتر بوده است که در پايگاه داده ذخيره شده است. اين دادههاي ذخيره شده براي آماده سازي به سه دسته ساختار يافته، نيمه ساختار يافته و غير ساختار يافته تقسيم شده است و براي هر کدام از ساختارها مراحلي براي آماده سازي داده انجام شده است. سپس دادهها به فرمت مناسب تبديل شده است و ويژگي هاي مورد نظر استخراج ميشود و در نهايت به طبقهبندي کاربران براساس احساسات مثبت و منفي با استفاده از روش شبکه عصبي چرخشي خواهيم پرداخت. اين روش با سه روش ديگر نيز براي ارزيابي مقايسه شد و از سه روش ديگر عملکرد بهتري داشت.
رفتارشناسي کاربران در شبکههاي اجتماعي يکي از جذابترين بحثهاي حوزه فناوري اطلاعات در دهه اخير ميباشد. رفتارشناسي کاربران اين امکان را در اختيار توسعهدهندگان فناوري اطلاعات فراهم ميآورد که با استفاده از نيازسنجي تعاملات و برهمکنش علايق و خصوصيات کاربران، به ارائه سرويس بپردازند. اين سرويسها ممکن است در قالب ارائه آگهي تبليغاتي، يا يک فرآيند مديريت دانش و يا حتي به صورت يک توصيه صورت پذيرد. به عنوان پيشنهاد براي کارهاي آينده، ميتوان روي رفتارشناسي انتشار در شبکههاي اجتماعي مطالعات تکميلي صورت پذيرد. کاربران تاثيرکذار بر روي ساير کاربران اکتشاف شوند، اين کاربران به گونهايي هستند که بيشترين احساس مثبت در جذب کاربران براي خريد يک محصول به ساير کاربان ميدهند و همينطور ميتوانند بيشترين احساس منفي را براي دفع کاربران براي خريد يک محصول را در شبکه هاي اجتماعي داشته باشند. پستهاي تاثيرگذاري که بيشترين
احساس مثبت و منفي را براي جذب يا دفع به خريد يک محصول ميانجامد را اکتشاف کرد. با اتخاذ روشهاي ديگر براي مدل پيشنهادي ميتوان آن را مقياس پذيرتر نمود. با دخيل کردن ويژگيهايي همچون فرهنگ، نژاد، قوميت به مدل پيشنهادي ميتوان نتايج گستردهتري را کسب نمود. با ترکيب مدلهاي طبقهبندي و قراردادن وزنهاي متفاوت به ويژگيهاي تأثيرگذار، عملکرد روش پيشنهادي را افزايش داد. از طرفي علايق کاربران با گذشت زمان تغيير ميکند، اين تغييرات يا بستگي به برهههاي خاص زماني دارد، مانند اوايل سال جديد و يا بر اثر تغيير طبع کاربر با گذر زمان ايجاد ميشود، با در نظر گرفتن اين پويايي در شبکههاي اجتماعي ميتوان روش پيشنهادي را انعطافپذيرتر نمود.
منابع و ماخذ
[1] Arora, L., Singh, P., Bhatt, V., Sharma, B. (2021). Understanding and Managing Customer Engagement through Social Customer Relationship Management. Journal of Decision Systems, 1-21
[2] Bagheri A., Saraee, M. (2014). Persian Sentiment Analyzer: a Framework Based on a Novel Feature Selection Method. International Journal of Artificial Intelligence™, Vol. 12, No. 2, pp. 115-129.
[3] Chen, Z S., Zhang, X., Govindan, K., Wang, X. J., Chin, K. S. (2021). Third-Party Reverses Logistics Provider Selection: A Computational Semantic Analysis-Based Multi-Perspective Multi-Attribute Decision-Making Approach. Expert Systems with Applications, 166, 114051.
[4] Cieliebak, M., Deriu, J., Egger, D., Uzdilli, F. (2017). A Twitter Corpus and Benchmark Resources for German Sentiment Analysis. in Proc of the 5th Ine, Workshop on Natural Language Processing for Social Media, SocialNLP, pp. 45-51, Boston, USA.
[5] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., Kuksa, P. (2011). Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research, vol. 12, No. 76, pp. 2493-2537.
[6] Cortes C., Vapnik, V. (1995). Support-Vector Networks. Machine Learning, Vol. 20, No. 3, pp. 273-297.
[7] Dos Santos C.N., Gatti, M. (2014). Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. in Proc of the 25th International Conf. on Computational Linguistics, COLING'14, pp. 69-78, Dublin, Ireland, 25–29.
[8] Jaynes, E.T. (1957). Information Theory and Statistical Mechanics. Physical Review, Vol. 106, No. 4, pp. 620.
[9] Maulud, D. H. (2021). State of Art for Semantic Analysis of Natural Language Processing. Qubahan Academic Journal 1.2, 21-28.
[10] Mikolov, T., I. Sutskever, I., Chen, K., Corrado, G.S., Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. in Proc Advances in Neural Information Processing Systems, NIPS'13, pp. 3111-3119, Lake Tahoe, CA, USA, 5-10.
[11] Neethu M.S., Rajasree, R. (2013). Sentiment Analysis in Twitter using Machine Learning Techniques. in Proc IEEE 4th Int. Conf. on, Computing, Communications and Networking Technologies, ICCCNT’13, 5 pp., Tiruchengode, India, 4-6.
[12] Roshanfekr, B., Khadivi, S., Rahmati, M. (2017). Sentiment Analysis using Deep Learning on Persian Texts. in Iranian Conf, on Electrical Engineering, ICEE’17, pp. 1503-1508, Tehran, Iran, 2-4.
[13] Shearer, E., Amy, M. (2021). News Use across Social Media Platforms in 2020.
[14] Socher, R., Perelygin, A., Wu, J.Y., Chuang, J., Manning, C.D., Ng, A.Y., Potts, C. (2013). Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank. in Proc of the Conf.
[15] Wang, K., Wang, X., Lin, L., Wang, M., Zuo, W. (2014). 3D human Activity Recognition with Reconfigurable Convolutional Neural Networks. in Proc of the 22nd ACM International Conf. on Multimedia, pp. 97-106, Orland, FL, USA, 18-19.
[16] Zhang, Y., Chen, M., Liu, L., Wang, Y. (2017). An Effective Convolutional Neural Network Model for Chinese Sentiment Analysis. in Proc AIP Conf. Proc., vol. 1836, pp. 020084, Rome, Italy, 27-29.
[17] on Empirical Methods in Natural Language Processing, EMNLP'13, vol. 1631, pp. 1631-1642, Seattle, WA, USA, 18-21.
-
The impact of risk management on the development of government audit with a hybrid approach
Print Date : 2023-11-22 -
Presenting the native model of e-government in Iran: a study in the Ministry of Sports and Youth
Print Date : 2023-11-22 -
Exploratory Factor Detection Challenges Questionnaire information management systems
Print Date : 2020-02-20 -
The pattern of fair behavior of managers and its effect on financial reporting
Print Date : 2024-09-08