دانشکده مهندسی کامپیوتر- دفاعیه دکترا
جلسه دفاعیه از رساله دکترا - آقای حمید پروین

حذف تصاویر و رنگ‌ها  | تاریخ ارسال: 1392/9/2 | 

 

AWT IMAGE

 

  آقای حمید پروین دانشجوی دکترای جناب آقایان دکتر بهروز مینایی و دکتر سعید پارسا روز دوشنبه مورخ 04/09/92 ساعت 16 در اتاق دفاعیه واقع در طبقه دوم دانشکده مهندسی کامپیوتر از رساله دکترای خود تحت عنوان خوشه بندی ترکیبی با وزن دهی توام خوشه ها و ویژگی ها دفاع خواهند نمود .

 

  چکیده پایان نامه:

  خوشه‌بندی داده‌ها یکی از وظایف اصلی داده‌کاوی است که وظیفه کاوش الگوهای پنهان در داده‌های بدون برچسب را بر عهده دارد. به خاطر پیچیدگی مسئله و ضعف روش‌های خوشه‌بندی پایه، امروزه اکثر مطالعات به سمت روش‌های خوشه‌بندی ترکیبی هدایت شده است.

  چنانچه در روش‌های ترکیب رده‌بندها از روش ترکیب وزن‌دار رده‌بندها استفاده می‌شود، در روش خوشه‌بندی ترکیبی نیز می‌توان اثر ترکیب وزن‌دار خوشه‌بندها را بررسی کرد. ولی از آن جایی که میزان تاثیر رای هر رای‌دهنده باید متناسب با صحت آن باشد، در نتیجه این فرایند در خوشه‌بندی ترکیبی، کاربرد پیدا نکرده است. چرا که در مورد رده‌بندها به دست آوردن صحت رده‌بند با روش‌هایی همچون آزمودن بر داده‌های آزمون را می‌توان به عنوان صحت آن رده‌بند در نظر داشت؛ در حالی که در مورد خوشه‌بندها ما روشی دقیق یا حتی تقریبی برای آزمودن خوشه‌بندها نداریم و این به شدت به معیار خوشه‌بندی وابسته است.

  پراکندگی در نتایج اولیه نیز یکی دیگر از مهم‌ترین عواملی است که می‌تواند در کیفیت نتایج نهایی اثرگذار باشد. هر دو عامل در تحقیقات اخیر خوشه‌بندی ترکیبی مورد توجه قرار گرفته‌اند. اما پاسخ به بعضی سوالات در این زمینه همچنان با ابهامات زیادی روبرو است. از جمله این که یک چارچوب کلی برای مشارکت وزن‌دار خوشه‌بندها در ترکیب نهایی چگونه می‌تواند باشد. مقوله دیگری که در رده‌بندها مطرح شده است، روش‌های وزن‌دهی ویژگی‌ها است. از این جهت می‌توان بپرسیم چگونه می‌توانیم به ویژگی‌ها جهت حضور و میزان تاثیر در هر خوشه امتیازدهی یا وزن‌دهی مناسب کنیم.

  در این پایان‌نامه به این چند پرسش تحقیق پاسخی درخور داده می­شود:

  1. آیا می‌توانیم در خوشه‌بندی ترکیبی، خوشه‌ها را به صورت وزن‌دار در مجمع نهایی شرکت دهیم؟

  2. آیا می‌توانیم در فرآیند خوشه‌بندی ارزش هر ویژگی به ازای هر خوشه دلخواه را به دست آوریم؟

  در این پایان‌نامه چارچوب جدیدی برای بهبود کارایی خوشه‌بندی ترکیبی پیشنهاد شده است که مبتنی بر استفاده وزن‌دار خوشه‌های اولیه علاوه بر استفاده از روشی جهت وزن‌دهی ویژگی‌ها برای هر خوشه نیز هستند. به علاوه، برای هر مرحله از این چارچوب چندین گزینه پیشنهادی ارائه شده است. در روش پیشنهادی از معیار جدیدی در خوشه‌بندی وزن‌دار ویژگی‌ها استفاده شده است. همچنین از آن جایی در مطالعات پیشین فقط تاثیر وزن خوشه‌بندها در ترکیب مورد بررسی قرار گرفته است، در این تحقیق چارچوبی برای ترکیب وزن‌دار خوشه‌ها ارایه می­گردد. همچنین برای مسئله تنوع در افرازهای پایه، از روش­های نمونه­برداری استفاده می­شود. در این روش­های نمونه­برداری، از مکانیسم تقویت داده­های مرزی نیز استفاده شده است. به طور تجربی نشان داده شده است که مکانیسم تقویت تاثیر مطلوبی بر کارایی افراز نهایی دارد و یک نتیجه برجسته­ در خوشه­بندی ترکیبی دارد: تعداد افرازها و نرخ نمونه­برداری رابطه معکوس در کارایی افراز نهایی دارد.

  واژه‌های کلیدی:

  خوشه‌بندی ترکیبی، خوشه‌های وزن‌دار، ویژگی‌های وزن‌دار، خوشه‌بندی ترکیبی وزن‌دار، نمونه­برداری، خوشه‌بندی ترکیبی تقویتی.

 

 

  Abstract:

  Data clustering is one of the main parts of data mining which have to show the hidden patterns in unlabeled data. Due to inherent complexity and weakness of basic clusterings, the researcher has nowadays turned to ensemble based clusterings.

  Because of effectiveness of weighting in classifier ensemble it is expected that the usage of weighting can be effective in clustering ensemble. In classifier ensemble, the vote of each classifier is related to its accuracy. There, the accuracy of each classifier is approximated by testing the classifier over a test data set, but the accuracy of clustering can't be approximated at all; because of its unsupervisedness and also lack of a well-known measure of accuracy for it.

  Diversity in primary results is the first factor that can affect the quality of final partitionings. However, the response to some questions in the field of clustering ensemble faces with many ambiguities. How can be a framework for weighted clustering ensemble? How can clusterings be weightedly participated in final partitioning? In classifier the features can also be weighted. So it can be concluded that the weighted features can be utilized in clustering. How can the features affect weightedly in each cluster? The responses to the above questions have been dealt with through this dissertation. A new framework is proposed to improve performance of clustering ensemble based on cluster weighting. A base clustering is also proposed which can find each cluster in a weighted-feature approach. The main idea of the usage of weighting features in proposed clustering algorithm is to use a new measure of clustering quality that leverages weighting in it. Also weighting in clustering is limited to partitional level. It has been tried to propose a new framework which employs weighting in cluster level.

  At last step of work, a data adaptive/weighting clustering is also has been invstigated. The data adaptive/weighting clustering can be considered as boosting clustering. It has been shown that boosting clustering has two outstanding conclusions on improving clustering performance. The first conclusion is that the size of ensemble has indirect effect on consensus clustering performance. The second one is that the sampling rate has also indirect effect on consensus clustering performance.

 

  Keywords:

  Clustering Ensemble, Weighted Clusters, Weighting Clustering, Weighted Features, Data Weighting Clustering, Boosting Clustering.

 

 

 

  ارائه­دهنده:

 حمید پروین

  parvinhamid@gmail.com

  استاد راهنما:

  دکتر بهروز مینایی - دکتر سعید پارسا

  هیات داوران:

  دکتر محمد رحمتی - دکتر حمید بیگی-دکتر عادل ترکمان رحمانی

  دکتر محمدرضا کنگاوری - دکتر مرتضی آنالویی

  زمان : دوشنبه 4 آذرماه 1392

  ساعت 16 مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

 

 

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://idea.iust.ac.ir/find-14.11063.30741.fa.html
برگشت به اصل مطلب