کدگذاری سیگنال صحبت تحت محیطهای نویزی مبتنی بر مدل سیستم شنوایی انسان
محورهای موضوعی : انرژی های تجدیدپذیرسید ایمان ابطحی 1 , محمد رضا عشوری 2 , رسول امیرفتاحی 3
1 - مربی/دانشگاه آزاد اسلامی واحد میمه
2 - استادیار/دانشگاه صنعتی اصفهان
3 - دانشیار/دانشگاه صنعتی اصفهان
کلید واژه: آزمونهای استاندارد کمی و کیفی, بانک فیلتر گاماتن مختلط, کدینگ بدون تلفات, مدل طبیعی حلزونی گوش, ویژگیهای درک شنوایی,
چکیده مقاله :
در این مقاله یک سیستم آنالیز/ سنتز، بر اساس مدل طبیعی حلزونی گوش و ویژگیهای درک شنوایی انسان ارائه شده که قادر به کد کردن سیگنال گفتار در شرایط دشوار آکوستیکی است. بدین منظور، سیگنال نویزی توسط یک بانک فیلترگاماتن مختلط به تعدادی زیرباند شنوایی تجزیه شده و سیگنالِ هر زیرباند به طور مستقل و وفقی، از جهت حذف نویز پردازش میشود. استخراج پارامترها و فشردهسازی نیز از طریق ماسک گذاری کوتاه مدت، یک روش کوانتیزاسیون غیریکنواخت جدید و الگوریتمهای کدینگ بدون تلفات صورت میگیرد. ارزیابی کیفیت از طریق آزمونهای استاندارد کمی و کیفی، نشان میدهد که علیرغم کاهش قابل توجه نرخ بیت تا حدودKbps 14.6، کیفیت سیگنالهای سنتزشده بهبود معناداری یافته، و عملکرد سیستم در برابر انواع نویزهای سفید، رنگی و پریودیک، باثبات و مؤثر است. همچنین کیفیت سیگنالهای خروجی در مقایسه با نتایج چند نمونه کدینگ استاندارد، قابل رقابت ارزیابی شده است.
In this paper, an analysis/synthesis system based on the natural Cochlear model and the human auditory perception properties is presented that is capable of coding the speech signal under harsh acoustic conditions. For this purpose, the corrupted signal is decomposed into a number of sub-bands using complex Gammatone filter bank, and the sub-band signals are individually and adaptively denoised. Temporal masking, a combination of a novel non-uniform quantization method and lossless coding algorithms are then applied to reduce the number of coefficients and compression. The proposed system is very robust and effective in dealing with different kinds of noises such as white, colored and periodic noises. Objective and Subjective quality measurements demonstrate significant improvement in the perceptual quality of synthesized speech while considerable reduction in bit-rate to approximately 14.6 Kbps is achieved.
_||_