ارائه دهنده:
رضا مرادی
استاد راهنما:
دکتر رضا برنگی
استاد مشاور:
دکتر بهروز مینایی
هیات داوران:
آقای دکتر محمود فتحی، آقای دکتر ناصر مزینی
آقای دکتر محمد رحمتی، آقای دکتر نصراله مقدم چرکری
زمان : سه شنبه 17 اردیبهشت ماه 1398
ساعت 17:00
مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دکترا
چکیده پایان نامه :
در سالهای اخیر مدلهای عمیق نقش مهمی در توسعه کاربردهای هوش مصنوعی مخصوصاً در حوزههای پردازش گفتار، پردازش زبانهای طبیعی و بینایی ماشین داشتهاند. شبکههای پیچشی عمیق یکی از مدلهای عمیق هستند که در بینایی ماشین نتایج درخشانی ارائه دادهاند. با این وجود بهدلیل تعداد زیاد پارامترها، محققین با چالشهایی از قبیل کاهش حجم محاسبات، کاهش حافظه مصرفی، کاهش مدت فرآیند یادگیری، افزایش دقت عملکرد و تمایل شدید به بیشبرازش مواجه بودهاند. در این رساله با هدف بهبود چالشهای مذکور، دو شبکه پیچشی مجزا بهمنظور ردهبندی مجموعه دادههای MNIST، CIFAR-10 و CIFAR-100 پیشنهاد شده است. معماری دو شبکه پیچشی مبتنی بر شبکههای باقیمانده و آغازگر طراحی شده و با بهرهگیری از اصول بنیادین حاکم بر شبکههای پیچشی، میزان افزونگی تقلیل داده شده است. در مدل پیشنهادی اول، با بهکارگیری ازدیاد تصادفی دادههای ورودی و ادغام تصادفی، عمومیتپذیری تقویت شده است و با تحمیل تعامد نقشهویژگیها در تابع هزینه مدل، میزان استقلال دوبهدوی نقشه ویژگیهای تقویت شده و به تبع آن افزونگی رایج در آنها کاهش داده شده است. در مدل پیشنهادی دوم، با اعمال حذف تصادفی در نقشه ویژگیها، عمومیتپذیری تقویت شده است و با تحمیل تُنُکی عمقی بر نقشه ویژگیها، با ایجاد بازنمایی توزیعشده، تفسیرپذیری و کارایی بازنمایی ساخته شده بهبود داده شده است. در فرآیند آموزش، با بهکارگیری یک نرخ یادگیری نمایی پریودیک، تنها با صرف زمانی در حدود آموزش یک مدل پیچشی، یک ماشین ترکیبی متشکل از معماری واحد اما با پارامترهای متفاوت ساخته شده است. بهمنظور ارزیابی مدلها و صحت عملکرد روشهای پیشنهادی، از تحلیل حجم محاسبات، تحلیل حافظه مصرفی، تحلیل خطا، نمودار پراکندگی و دقت ردهبندی استفاده شده است. در نهایت دقتهای بدست آمده در نتیجه بهکارگیری ایدههای پیشنهادی، 77/99، 98/93 و 12/80 هستند که به ترتیب برای مجموعه دادههای MNIST ، CIFAR-10 و CIFAR-100 حاصل شده است.
کلید واژهها: شبکه پیچشی عمیق، طراحی معماری مدل، تنظیمسازی، نقشهویژگیهای متعامد، نقشهویژگیهای تُنُک، حذف تصادفی نقشهویژگیها، مدل ترکیبی کمهزینه.
Abstract:
In recent years, deep models have played an important role in the development of artificial intelligence applications, especially in the areas of speech processing, natural language processing, and computer vision. Deep convolutional neural networks are one of the deep models that have provided brilliant results in computer vision domain. However, due to the large number of parameters, researchers have faced challenges such as reducing computational costs, reducing memory usage, increasing the performance accuracy, reducing the learning process time, and preventing overfitting effect. In this thesis, in order to improve these challenges, two separate convolutional neural networks are proposed for the classification of MNIST, CIFAR-10 and CIFAR-100 data sets. The architecture of two convolutional networks are based on residual and inception networks. They are designed to reduce the common redundancy in convolutional networks by taking advantage of the fundamental principles governing these networks. In the first proposed model named OrthoMaps, by taking advantage of data augmentation and fractional pooling generalizability of the network has been improved. Also, by imposing mutual orthogonality of feature maps in the model cost function, the mutual independence of feature maps is reinforced and consequently, feature maps redundancy has been reduced. In the second proposed model named SparseMaps, by applying dropout on feature maps, generalizability has been improved and by imposing depth-wise sparsity on feature maps interpretability and efficiency of representation have been improved. In the training process, using a periodic learning rate, with time spent training a single model, an ensemble machine composed of one architecture but with different parameters is made. In order to evaluate the models and the validity of the proposed methods, computational and memory costs analysis, error analysis, feature space scatter plot and classification accuracy are used. In the end, the best attained accuracy are 99.77, 93.98 and 80.12 for MNIST, CIFAR-10, and CIFAR-100 datasets, respectively.
Keywords: deep convolutional neural networks, model architecture design, regularization, orthogonal feature maps, sparse feature maps, feature maps dropout, low-cost ensemble.
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.
|