رده:شناسایی نظرات هرز

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

محتویات

مقدمه

اینترنت به دلیل خصوصیاتی چون قابلیت استفاده و دسترسی گسترده آن، اشکال کاملاً جدیدی از تعاملات، فعالیت‌ها و سازماندهی‌های اجتماعی را پدید آورده‌ است. با توجه به اين كه نظارت و كنترلي روي محتوا و داده‌هاي وارد شده در آن وجود ندارد تحليل بر روي محتواي آن بسيار زمان‌بر خواهد بود.
بدون اغراق می‌توان گفت که استفاده از نظرات در رسانه‌های اجتماعی در حال افزایش است. اشخاص و سازمان‌ها از نظرات در شبکه‌های اجتماعی به‌صورت گسترده‌ای برای تاثیر بر تصمیمات خریداران، تصمیم‌گیری در انتخابات، بازاریابی و طراحی محصول، استفاده می‌کنند. نظرات برخط به‌صورت افزاینده‌ای توسط افراد و سازمان‌ها استفاده می‌شوند. بنابراين بسيار مهم است كه اين نظرات خالي از غرض‌ورزي باشند تا مراجعه‌كنندگان به اين سايت‌ها بتوانند به نظرات اتكا كنند.نظرات مثبت اغلب به معنی سود بیش‌تر و شهرت برای تجارت و اشخاص است که متاسفانه ابزاری برای بازی دادن سیستم‌ها شده است بدین طریق که با جعل دیدگاه و یا نظر ، محصولات مشخص، سرویس‌ها، اشخاص و سازمان‌ها را ارتقا داده یا بی‌اعتبار می‌کنند. این نظرات حتی بدون فاش کردن هویت اصلی شخص یا سازمانی است که شخص برای آن کار می‌کند، صورت مي‌پذيرد.
توليدكننده‌ي اسپم و sybil به کاربرانی که حملات بدخواهانه‌ای دارند، چیزی را درست جلوه می‌دهند ، و یا تبلیغات نامربوط ارسال می‌کنند، گفته می‌شود. تولیدکنندگان اسپم استفاده از اینترنت را از استفاده‌ی عادی به استفاده‌ی بد تغییر دادند برای مثال جعل نظر و یا امتیاز جعلی ، اغراق تاثیر یک محصول، پست توضیحات بدخواهانه علیه رقیب یا ارسال توضیحات تکراری در فروم‌ها، انتشار مقالات، نظرات نامرتبط، ارسال تبلیغات نامربوط.
جاعلين نظرات و ديدگاه، توليدكننده‌ي اسپم ديدگاه نامیده می‌شوند و فعالیت و کارشان توليد اسپم نام دارد.
تولید اسپم بیش‌تر، وسيع‌تر و فریبنده‌تر شده است و درحال حاضر یکی از چالش‌های بزرگ، شناسایی آن است.

انواع اسپم و تولید اسپم‌

شناسایی اسپم در زمینه‌های زیادی مطالعه می‌شود. اسپم وب و اسپم ایمیل دو نوع از انواع اسپم هستند که در مورد آن تحقیقات گسترده‌ای انجام شده است.
اسپم وب به فعالیت برای فریب‌دادن موتور جستجو برای ارتقاء رتبه ‌ی صفحات وب گفته می‌شود که در دسته‌بندی اسپم محتوا و اسپم پیوند ، قرار می‌گیرند.
اسپم محتوا کلمات رایج (اما نامربوط) در صفحات وب است که موتورهای جستجو را برای کوئری‌های جستجو گمراه می‌کند، این نوع از اسپم در ارسال نظرات زیاد استفاده نمی‌شود.
اسپم پیوند، فراپیوندهای موجود در نظرات یا لینک‌های تبلیغاتی است که در فروم‌های رسانه‌های اجتماعی متداول می‌باشد. شناسایی آن هم نسبتا آسان است.
اسپم نظرات به نوعی شبیه به اسپم وب است اما اسپم پیوند حتی با استفاده‌ی آن‌ها در صفحات وب و نظرات به صورت کلمات غیر مرتبط (نامربوط)، متفاوت با اسپم وب است.
اسپم ایمیل که همان ایمیل‌های ناخواسته است به صورت مستقیم یا غیر مستقیم و بدون تبعیض، توسط فرستنده‌ای که به کاربر دیگر هیچ ارتباطی ندارد، ارسال می‌شود . این اسپم‌ها شامل تبلیغات هستند که به صورت بسیار کم توسط نظردهندگان اسپم استفاده می‌شود. تشخیص آن توسط کاربر آسان است و همین نكته باعث شده تا کم‌تر خطرناک باشند.

انواع اسپم نظر و دیدگاه

مطالعات در مورد اسپم نظرات از سال 2007 صورت گرفته است. سه نوع از اسپم نظرات معرفی شدند: نوع اول( نظر جعلی ): نظرات غیرصادقانه‌ای که درخصوص استفاده از محصولات و یا سرویس‌ها، با غرض‌ورزی پنهان، نوشته شده است. نظرات مثبت برای ارتقاء یک محصول یا سرویس و نظر منفیِ کاذب برای لطمه زدن به شهرت محصولات و سرویس‌هاست.
نوع دوم (نظرات در مورد یک علامت تجاری منحصر): نظرات درخصوص محصول یا سرویس خاص نیست و فقط در خصوص علامت تجاری خاص یا تولید کننده‌ی محصول است. با توجه به این که هدفِ نظر، یک محصول خاص نیست به عنوان اسپم در نظر گرفته می‌شوند. به عنوان مثال نظرِ «من از HP متنفرم، من هیچ‌وقت هیچ کدام از محصولات آن را نمی‌خرم»، برای یک پرینتر خاص از محصولات HP.
نوع سوم(غیرِ نظر ): به دو دسته تقسیم می‌شود: (1) تبلیغات و (2) متن نامربوط که نظری در آن داده نشده است. مثلِ سوالات، پاسخ‌ها و متون تصادفی.
نظرات دو نوع 2و 3 کم‌یاب هستند و شناسایی آن‌ها با استفاده از یادگیری با ناظر نسبتا ساده است. حتی اگر آن‌ها شناسایی نشوند مشکل بزرگی به‌وجود نخواهد آمد به این دلیل که انسان در حین خواندنِ نظر، آن را کشف می‌کند.

نظرات مضر

نظرات 2،3،4 و 5 مضر هستند، نظرات 1 و 6 هم زیاد مضر نیستند(جدول1). در حال حاضر، الگوریتم‌های تشخیصِ نظر جعلی در محدوده‌ی نظرات مضر کار می‌کند. الگوریتم‌های تشخیص نظرِ موجود از رتبه‌بندی ویژگی‌ها استفاده می‌کنند. (کیفیت خوب، بد و متوسط برای رتبه‌بندی محصول) این روش هم اگر توليدكنندگان اسپم زیاد و نظردهی پایین باشد، کار نمی‌کند.
Jadvale 1-s.jpg

توليد اسپم شخصی و گروهي

نظر جعلي مي‌تواند توسط افراد مختلفي نوشته شود. توليد‌كننده‌ي اسپم مي‌تواند به تنهايي يا به‌صورت گروهي، نظر جعلی بنویسد. اسپم گروهي بسيار خطرناك است زيرا با توجه به تعداد اعضاي گروه، به‌راحتي مي‌توانند نظر در مورد يك محصول را به‌سرعت تغيير دهند.

انواع داده‌ها و ويژگي‌هاي نظرات

انواع داده‌هایی که برای شناسایی اسپم در نظرات استفاده می‌شود:
محتوی داده:
ویژگی‌های زبان شناختی استفاده می‌شود مانند POS n-gram و ساختارها و معانی که برای تشخیص دروغ استفاده می‌شود.
متا دیتای نظر:
داده‌هایی مانند رتبه‌بندی ستاره‌ای، زمانی که شخص نظر خود را ثبت می‌کند، IP و Mac کامپیوتر فرستنده ثبت می‌شود. هم‌چنین محل جغرافیایی و ترتیب کلیک در سایت بر اساس الگوی رفتاری این افراد و نظراتشان ثبت می‌شود.
مثلاً نظر مثبت در مورد یک هتل که همه‌ی این نظرات از محل‌های اطراف هتل ارسال شده‌اند، قابل اعتماد نیستند یا ارسال چندین نظر از اشخاص مختلف (شناسه‌های مختلف) از یک کامپیوتر.
اطلاعات محصول:
اطلاعات در مورد موجودیت، مانند توصیف محصول و میزان فروش محصول، مثلاً محصولی که فروش خوبی نداشته ولی نظرات مثبت درباره‌ی آن زیاد است، قابل باور نیست.
داده‌های عمومی و خصوصی:
داده‌های عمومی که در صفحه‌ی نظرات، قابل مشاهده هستند مثل محتوی نظر و شناسه‌ی فرد و زمانی که نظر ثبت شده است. داده‌های خصوصی که نشان داده نمی‌شوند مانند آدرس IP و Mac کامپیوتر نظردهنده و اطلاعات کوکی.
هدف اصلی شناسایی اسپم در نظر، تشخیص نظر جعلی، شخص جعل‌کننده‌ی نظر و گروه جعل‌کننده‌ی نظر است. کشف یکی از این سه نوع به شناسایی دو گروه دیگر کمک می‌کند.

این رده در حال حاضر حاوی هیچ صفحه یا پرونده‌ای نیست.