
آقای روح الله عبدی پور دانشجوی دکترای جناب آقای دکتر احمد اکبری روز دو شنبه مورخ 24/09/93 ساعت 17:30 در دانشکده مهندسی کامپیوتر از رساله دکترای خود تحت عنوان بهبود کیفیت گفتاردر سیستم های دومیکروفونه به منظور تطبیق با محیط آکوستیکیدفاع خواهند نمود چکیده بهسازی گفتار، یکی از الزامات در سیستمهای مبتنی بر گفتار است. در کاربردهایی مانند تلفن همراه، وسایل کمک شنوایی و تشخیص گفتار، انجام بهسازی گفتار به عنوان یک مرحله پیشپردازش افزایش قابل توجهی در قابلیت فهم و دقت تشخیص گفتار خواهد داشت. از بین روشهای بهسازی گفتار، روشهای دو میکروفونه، به دلیل داشتن اطلاعات بیشتر نسبت به روشهای تک میکروفونه و همچنین به دلیل کمتر بودن هزینه تولید و بار محاسباتی آن نسبت به چند میکروفونه، در این رساله مورد توجه قرار گرفتهاند. دراین رساله، روشهای بهسازی گفتار، از نظر میزان استفادهشان از اطلاعات مرتبط با شرایط محیطی، به سه دسته مستقل از محیط (که از اطلاعات شرایط محیطی استفاده نمیکنند)، وابسته به محیط (که برای شرایط محیطی خاصی ارائه شدهاند) و تطبیقپذیر با محیط (که خود را با تغییرات محیطی وفق میدهند) تقسیم میشوند. با توجه به اینکه بسیاری از وسایل مبتنی بر گفتار در محیطهای مختلفی بکار گرفته میشوند و با توجه به اینکه تطبیقپذیری با محیط میتواند منجر به ارتقاء کارایی سیستم بهسازی گفتار شود، ارائه یک سیستم دو میکروفونه با قابلیت تطبیقپذیری با تغییرات شرایط محیطی به عنوان هدف این رساله در نظر گرفته شد. برای دستیابی به اهداف این رساله، ابتدا با بکارگیری اطلاعات طیفی، یک سیستم تطبیقپذیر با نویزهای جهتدار و پخشنده ارائه شده است. سپس، با در نظر گرفتن مدلهای جداگانه برای هر نوع نویز، کارایی سیستم افزایش یافته، یک راهکار وابسته به محیط حاصل شده است. پس از آن، با استفاده از ردهبند نوع نویز به عنوان یک مرحله پیشپردازش، به سیستم قابلیت تشخیص نوع نویز در محیط جاری و تطبیق با آن از طریق بکارگیری مدل مناسب داده شد. در ا دامه، اطلاعات مرتبط با تعداد و مکان منابع در قالب یک مدل مخلوط گاوسی برای بهسازی گفتار بکار گرفته شدهاند. همچنین یک الگوریتم مبتنی بر برازش مدلهای آماری، برای تشخیص تعداد منابع و تطبیق با آن پیشهاد شده است. به علاوه، یک الگوریتم مبتنی بر بیشنیه شباهت برای دنبال کردن جابجایی منابع و تطبیق با آنها ارائه شده است. ارزیابیهای به عمل آمده حاکی از توانایی عملکرد برخط روشهای پیشنهادی و داشتن کارایی بالا است. واژههای کلیدی: بهسازی گفتار، جداسازی منابع، شمردن منابع، تطبیق با مکان منابع، تطبیق با نوع نویز ، ردهبندی نوع نویز ، مدل مخلوط گاوسی، رگرسیون خطی بیشینه شباهت، تطبیق مدل، معیار اطلاعات بیزین. : Abstract Speech enhancement is an essential step in many voice-based applications. For example, in applications like mobile phones, hearing aids, and speech recognition systems, the incorporation of a speech enhancement method could noticeably improve speech intelligibility or speech recognition accuracy. Speech enhancement methods are divided into single-microphone, two-microphone, and multi-microphone categories. Among these categories, two-microphone solutions are studied in this thesis due to their more available information in comparison to single-microphone methods and their lower computational and production costs in comparison to multi-microphone methods. In this thesis, the speech enhancement methods are viewed based on their level of dependency to environmental conditions. From this view point, these methods are divided to three categories, namely, environment-independent methods (which do not use any environment-related information), environment-dependent methods (which are proposed for a specific environmental condition), and adaptive to environmental conditions (which change their behavior as environmental changes occur). Since many voice-based devices are used in different acoustical environments, and due to the fact that environment-dependent speech enhancement can improve performance, we considered the adaptability to environment conditions as the goal of this thesis. To reach the goals of this thesis, at first, we proposed a system which is adaptable to diffuse and directional noise fields. Then, considering different models for different noise types, we developed a noise-dependent system. Incorporating a noise type classifier, we enabled the proposed system to detect current noise type and utilize the appropriate model. Then, we modeled cues about the location of sound sources, and used these models for speech enhancement. We also proposed a new method for source enumeration based on the above models and a model selection criterion. Moreover, we proposed an algorithm for adapting to source movements based on maximum likelihood model adaptation technique. Keywords: Speech Enhancement, Source Separation, Adaptation to Source Locations, Adaptation to Noise Type, Noise Classifier, Gaussian Mixture Model, Maximum Likelihood Model Adaptation, Bayesian Information Criterion. ارائه دهنده: روح الله عبدی پور رشته مهندسی کامپیوتر-گرایش هوش مصنوعی و رباتیک استاد راهنما: دکتر احمد اکبری هیات داوران: دکتر حسین صامتی دکتر محمد مهدی همایون پور زمان : دو شنبه 24آذر ماه 1393 ساعت 17:30 بعد از ظهر مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |