آقای حمید پروین دانشجوی دکترای جناب آقایان دکتر بهروز مینایی و دکتر سعید پارسا روز دوشنبه مورخ 04/09/92 ساعت 16 در اتاق دفاعیه واقع در طبقه دوم دانشکده مهندسی کامپیوتر از رساله دکترای خود تحت عنوان خوشه بندی ترکیبی با وزن دهی توام خوشه ها و ویژگی ها دفاع خواهند نمود . چکیده پایان نامه: خوشهبندی دادهها یکی از وظایف اصلی دادهکاوی است که وظیفه کاوش الگوهای پنهان در دادههای بدون برچسب را بر عهده دارد. به خاطر پیچیدگی مسئله و ضعف روشهای خوشهبندی پایه، امروزه اکثر مطالعات به سمت روشهای خوشهبندی ترکیبی هدایت شده است. چنانچه در روشهای ترکیب ردهبندها از روش ترکیب وزندار ردهبندها استفاده میشود، در روش خوشهبندی ترکیبی نیز میتوان اثر ترکیب وزندار خوشهبندها را بررسی کرد. ولی از آن جایی که میزان تاثیر رای هر رایدهنده باید متناسب با صحت آن باشد، در نتیجه این فرایند در خوشهبندی ترکیبی، کاربرد پیدا نکرده است. چرا که در مورد ردهبندها به دست آوردن صحت ردهبند با روشهایی همچون آزمودن بر دادههای آزمون را میتوان به عنوان صحت آن ردهبند در نظر داشت؛ در حالی که در مورد خوشهبندها ما روشی دقیق یا حتی تقریبی برای آزمودن خوشهبندها نداریم و این به شدت به معیار خوشهبندی وابسته است. پراکندگی در نتایج اولیه نیز یکی دیگر از مهمترین عواملی است که میتواند در کیفیت نتایج نهایی اثرگذار باشد. هر دو عامل در تحقیقات اخیر خوشهبندی ترکیبی مورد توجه قرار گرفتهاند. اما پاسخ به بعضی سوالات در این زمینه همچنان با ابهامات زیادی روبرو است. از جمله این که یک چارچوب کلی برای مشارکت وزندار خوشهبندها در ترکیب نهایی چگونه میتواند باشد. مقوله دیگری که در ردهبندها مطرح شده است، روشهای وزندهی ویژگیها است. از این جهت میتوان بپرسیم چگونه میتوانیم به ویژگیها جهت حضور و میزان تاثیر در هر خوشه امتیازدهی یا وزندهی مناسب کنیم. در این پایاننامه به این چند پرسش تحقیق پاسخی درخور داده میشود: 1. آیا میتوانیم در خوشهبندی ترکیبی، خوشهها را به صورت وزندار در مجمع نهایی شرکت دهیم؟ 2. آیا میتوانیم در فرآیند خوشهبندی ارزش هر ویژگی به ازای هر خوشه دلخواه را به دست آوریم؟ در این پایاننامه چارچوب جدیدی برای بهبود کارایی خوشهبندی ترکیبی پیشنهاد شده است که مبتنی بر استفاده وزندار خوشههای اولیه علاوه بر استفاده از روشی جهت وزندهی ویژگیها برای هر خوشه نیز هستند. به علاوه، برای هر مرحله از این چارچوب چندین گزینه پیشنهادی ارائه شده است. در روش پیشنهادی از معیار جدیدی در خوشهبندی وزندار ویژگیها استفاده شده است. همچنین از آن جایی در مطالعات پیشین فقط تاثیر وزن خوشهبندها در ترکیب مورد بررسی قرار گرفته است، در این تحقیق چارچوبی برای ترکیب وزندار خوشهها ارایه میگردد. همچنین برای مسئله تنوع در افرازهای پایه، از روشهای نمونهبرداری استفاده میشود. در این روشهای نمونهبرداری، از مکانیسم تقویت دادههای مرزی نیز استفاده شده است. به طور تجربی نشان داده شده است که مکانیسم تقویت تاثیر مطلوبی بر کارایی افراز نهایی دارد و یک نتیجه برجسته در خوشهبندی ترکیبی دارد: تعداد افرازها و نرخ نمونهبرداری رابطه معکوس در کارایی افراز نهایی دارد. واژههای کلیدی: خوشهبندی ترکیبی، خوشههای وزندار، ویژگیهای وزندار، خوشهبندی ترکیبی وزندار، نمونهبرداری، خوشهبندی ترکیبی تقویتی. Abstract: Data clustering is one of the main parts of data mining which have to show the hidden patterns in unlabeled data. Due to inherent complexity and weakness of basic clusterings, the researcher has nowadays turned to ensemble based clusterings. Because of effectiveness of weighting in classifier ensemble it is expected that the usage of weighting can be effective in clustering ensemble. In classifier ensemble, the vote of each classifier is related to its accuracy. There, the accuracy of each classifier is approximated by testing the classifier over a test data set, but the accuracy of clustering can't be approximated at all; because of its unsupervisedness and also lack of a well-known measure of accuracy for it. Diversity in primary results is the first factor that can affect the quality of final partitionings. However, the response to some questions in the field of clustering ensemble faces with many ambiguities. How can be a framework for weighted clustering ensemble? How can clusterings be weightedly participated in final partitioning? In classifier the features can also be weighted. So it can be concluded that the weighted features can be utilized in clustering. How can the features affect weightedly in each cluster? The responses to the above questions have been dealt with through this dissertation. A new framework is proposed to improve performance of clustering ensemble based on cluster weighting. A base clustering is also proposed which can find each cluster in a weighted-feature approach. The main idea of the usage of weighting features in proposed clustering algorithm is to use a new measure of clustering quality that leverages weighting in it. Also weighting in clustering is limited to partitional level. It has been tried to propose a new framework which employs weighting in cluster level. At last step of work, a data adaptive/weighting clustering is also has been invstigated. The data adaptive/weighting clustering can be considered as boosting clustering. It has been shown that boosting clustering has two outstanding conclusions on improving clustering performance. The first conclusion is that the size of ensemble has indirect effect on consensus clustering performance. The second one is that the sampling rate has also indirect effect on consensus clustering performance. Keywords: Clustering Ensemble, Weighted Clusters, Weighting Clustering, Weighted Features, Data Weighting Clustering, Boosting Clustering. ارائهدهنده: حمید پروین parvinhamid@gmail.com استاد راهنما: دکتر بهروز مینایی - دکتر سعید پارسا هیات داوران: دکتر محمد رحمتی - دکتر حمید بیگی-دکتر عادل ترکمان رحمانی دکتر محمدرضا کنگاوری - دکتر مرتضی آنالویی زمان : دوشنبه 4 آذرماه 1392 ساعت 16 مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |