(۲-۸) |
در رابطهی (۲-۸)، I(П; π) اطلاعات دوجانبه است که نحوهی محاسبه آن در روابط (۲-۵) و (۲-۶) آمده است. با بهره گرفتن از الگوریتم K-Means میتوان رابطهی فوق را به طور موثری بیشینه نمود.
در [۱۲] یک چارچوب[۱۱۸] شامل الگوریتمهای CondEns2-dIB، CondEns2-kMeans، CondEns2-EM، CondEnsMI-dIB، CondEnsMI-kMeans و CondEnsMI-EM که هر کدام از آنها یکی از الگوریتم dIB[119]، K-Means و یا EM را جهت خوشهبندی استفاده میکنند. آنچه که نتایج آزمایشات نشان میدهد این است که روشهای مطرح شده از سرعت و کارآیی بالاتری نسبت به دو روش مشابه یعنی dCCIB[120] و seqCCIB[121] [۲۵] برخوردارند. در الگوریتمهای پیشنهادی لزومی به برابری تعداد خوشهها در خوشهبندی اولیه نمیباشد، اما تعداد خوشهها در خوشهبندی نهایی باید توسط کاربر تعیین گردد. مسئلهی دیگری که در روشهای ارائه شده وجود دارد این است که اجتماع اولیهی خوشهبندیها توسط الگوریتم CondEns ساخته میشود. به عبارت دیگر روش خوشهبندی توافقی ارائه شده در [۱۲] به تمام جزئیات مجموعه داده (شامل تمام صفات خاصه) جهت تولید اجتماع خوشهبندیهای اولیه نیاز دارد که این مسئله میتواند حفظ محرمانگی دادهها را که پیشتر به عنوان یکی از مزایای روشهای خوشهبندی توافقی مطرح شد، تحت تأثیر قرار دهد.
۲-۳-۷- روشهای توافقی با بهره گرفتن از مدل ترکیبی
Topchy، Jain و Punch با بهره گرفتن از ترکیبی متناهی از توزیعهای چندجملهای در فضای خوشهبندی، یک مدل احتمالی ارائه داده اند. توزیعهای چندجملهای در روش آنها به عنوان متغیرهای غیرکمی در نظر گرفته میشوند. برچسبهای خوشه yj برای هر شی دادهی xj به عنوان متغیرهای تصادفی از توزیع احتمالی، مدل میشوند. سپس مسئلهی خوشهبندی توافقی به عنوان یک مسئلهی تخمین درستنمایی بیشینه، فرموله میشود. در روش آنها، جهت حل مسئلهی تخمین درستنمایی بیشینه، از یک الگوریتم EM [14،۵۲] استفاده میگردد.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
از مزایای روش ذکر شده، میتوان به ۱) عدم نیاز به تشخیص دو سویی بین خوشهها در خوشهبندیهای اولیه، ۲) پیچیدگی زمانی پایین، ۳) قابلیت کنترل و مدیریت نقص داده (یعنی نقص برچسب خوشهها) و ۴) مدل آماری خوش ساخت آن اشاره نمود. به طور معمول تشخیص خوشهبندیهایی با اشکال غیر کروی برای الگوریتمهای مرکز محور (مانند K-Means) مشکل است و یا امکانپذیر نمیباشد. اما توسط روش ارائه شده در [۶۸] با افزایش تعداد خوشهها در هر خوشهبندی و تعداد خوشهبندیهای اولیه نرخ متوسط خطا[۱۲۲] را در خوشهبندی نهایی نسبت به روشهای دیگر (روشهای ماتریس همبستگی و گراف محور) کاهش داد.
در روشی دیگر، Topchy و همکاران تأکید میکنند که تابع هدف استفاده شده در [۶۲] بر مبنای تعریف رسمی شانون از اطلاعات دوجانبه میباشد. از طرف دیگر، با توجه به تعریف دیگری از درگاشت، معیار اطلاعات دوجانبه معادل است با تابع سودمندی دسته[۱۲۳] که توسط Gluck و Corter معرفی شده است. در رابطهی با خوشهبندی توافقی، تابع سودمندی دسته U(π*, πi) میزان توافق بین دو خوشبندی π*={C1, …, CK} و πi={, …, } را اندازه گیری میکند. هر برچسب خوشه j-ام از خوشهبندی πi میباشد. تابع U در رابطهی (۲-۹) آمده است.
(۲-۹) |
در رابطهی فوق: ، و میباشد.
سودمندی کل برای یک خوشهبندی نیز با توجه به اجتماع خوشهبندیها، به عنوان مجموع سودمندیهای دوبهدو و با بهره گرفتن از رابطهی (۲-۹) به صورت زیر تعریف میگردد:
(۲-۱۰) |
اطلاعات دوجانبه درجه دو نیز با بهره گرفتن از رابطهی (۲-۹) به صورت رابطهی (۲-۱۱) تعریف میگردد:
(۲-۱۱) |
بر اساس اثبات Mirkin در [۵۵]، بیشینه نمودن تابع تعریف شده در رابطهی (۲-۱۰) با کمینه نمودن معیار مربع خطای خوشهبندی، برای تعداد ثابت K خوشه در خوشهبندی π، معادل است. از اینرو، معیار اطلاعات دوجانبه درجه دو کمینه، با واریانس درون خوشهای[۱۲۴] معادل است. به الگوریتمهای توافقی که از اطلاعات دوجانبه درجه دو استفاده میکنند، QMI اطلاق میشود[۶].
روشهایی که از مدل ترکیبی استفاده میکنند روشهایی کاملا مستقل از روشهای دیگر محسوب نمیشوند و اغلب همپوشانی بسیاری با دیگر انواع روشها دارند. به عنوان مثال مدل ترکیبی پیشنهاد شده در [۴۷] نوعی روش شباهت محور نیز میباشد. بررسی و نقد این روش در روشهای ماتریس همبستگی در بخش ۲-۳-۵ آورده شده است. این نوع روشها بیشتر بر روی نحوهی ایجاد اجتماع خوشهبندیهای اولیه تمرکز دارند.
۲-۳-۸- روشهای توافقی رأی محور
گروه دیگری از روشهای خوشهبندی توافقی، روشهای رأی محور میباشند. در [۷۱،۶۵،۵۷] روشهای مختلفی جهت این نوع خوشهبندی معرفی شده است. برخلاف روشهای قبلی ذکر شده، روشهای خوشهبندی توافقی نیاز به حل مسئلهی نظیر به نظیر بودن خوشهها در خوشهبندیهای اولیه دارند. یکی از مسائل مهم در خوشهبندی توافقی رأی محور، برچسب گذاری مجدد بهینه بر روی خوشهها، با توجه به یک خوشهبندی مرجع، است. تشخیص نظیر به نظیر بودن به این صورت که مشخص شود هر خوشه در هر یک از خوشهبندیها با کدامیک از خوشههای خوشهبندی مرجع متناظر است.
در [۶۵] دو روش جهت اثبات سودمندی خوشهبندی توافقی ارائه داده اند. روش اول بر اساس رأی اکثریت و روش دوم نیز بر مبنای اندازهگیری متریک و اندازهگیری احتمالی عمل میکند. در روش اول جهت تولید اجتماع اولیهی خوشهبندیها ابتدا بر روی یک خوشهبندی ۱۰۰% درست نویز بوجود میآورند. به عبارت دیگر چندین خوشهبندی تولید میکنند که هر یک با اعمال نویز (جابهجایی اشیاء داده بین خوشهها) از روی خوشهبندی ۱۰۰% درست بوجود آمده است. سپس شماره خوشههای مربوط به یک شئ داده را با بهره گرفتن از یکی از جایگشتهایش برچسب گذاری مجدد میکنند. سپس با بهره گرفتن از جدول وابستگی[۱۲۵] نظیر به نظیر بودن خوشهها یافته میشود. ترکیب خوشهبندیها و تولید خوشهبندی نهایی نیز با بهره گرفتن از رأی اکثریت (PV) بدست میآید. بدین صورت که برچسب خوشهای با بیشترین تکرار در خوشهبندیهای اولیه برای یک شئ دادهِی مشخص، به عنوان خوشهای که آن داده باید در خوشهبندی نهایی در آن قرار گیرد، انتخاب میشود.