ParsAirCall: تلفن گویای محاوره ای خودکار در مرکز تماس فرودگاهی با استفاده از یادگیری انتقالی عمیق
محورهای موضوعی : سامانه های پردازشی و ارتباطی چند رسانه ای هوشمند
محمد منثوری
1
(گروه کنترل، دانشکده فنی مهندسی، دانشگاه شاهد)
سهیل تهرانی پور
2
(هوش مصنوعی و رباتیکز، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران)
سمانه یزدانی
3
(گروه کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران)
کلید واژه: مرکز تماس, بازشناسی خودکار گفتار, یادگیری عمیق انتقالی, سامانههای هوشمند فرودگاهی,
چکیده مقاله :
در دنیای امروز با عنایت به پیشرفتهای هوش مصنوعی، سامانههای سنتی موجود در تعامل با مخاطبین در تماسهای تلفنی کارآمد نخواهند بود و این کارآمدی با اتوماسیون و خودکارسازی فعالیتهای تکراری بهبود خواهد یافت. در این مقاله، ابزار ParsAirCall معرفی شده است که یک ابزار برای تشخیص خودکار گفتار فارسی اعداد در سامانههای فرودگاهی است که از یادگیری انتقالی عمیق برای بهبود عملکرد در محیطهای واقعی و عملیاتی سامانههای هوشمند تلفنی گویا در فرودگاههای کشور میباشد. ParsAirCall با تعداد کمتر پارامترها و منابع محاسباتی بهینهتر و نیز دقت بالاتر از مدلهای رقیب عمل میکند. به دلیل محدودیت دادههای موجود برای تشخیص گفتار در زبان فارسی، یک مجموعه دادگان 30ساعته تلفنی جمعآوری و برچسبگذاری شده و برای آموزش مدل نهایی مورد استفاده قرار گرفته است. آزمایشها روی هر دو مجموعه داده تلفنی جمعآوری شده توسط ما و پروژه Common Voice انجام شدند، که کارایی ParsAirCall را در دستیابی به 2.7% میزان WER در تشخیص اعداد در تماسهای تلفنی فرودگاهی را نشان میدهد. ParsAirCall میتواند به راحتی به عنوان یک سرویس در هر سیستمهای تلفنی فرودگاهی فارسی زبان ادغام شود، که آن را به یک ابزار قابل اجرا برای تشخیص اعداد در مراکز تماس و سیستمهای تلفنی فرودگاهی تبدیل کند.
Introduction: In this paper, we introduce the ParsAirCall toolkit, which is a tool for automatic recognition of Persian numbers in airport systems. It leverages deep transfer learning to improve performance in real and operational scenarios of voice-controlled smart telephone systems at airports across the country. In today's world, with the advancements in artificial intelligence, traditional systems for interacting with callers in telephone calls are not efficient, and this efficiency will be enhanced through automation and the automation of repetitive tasks. Method: ParsAirCall distinguishes itself by surpassing competing models in the Persian language, achieving heightened accuracy with fewer parameters and optimized computing resources. Addressing the challenge posed by limited data for Persian speech recognition, we meticulously curated a 30-hour telephony dataset, serving as the cornerstone for training the final ParsAirCall model. Embracing the innovative QuartzNet architecture, our deep transfer learning strategy empowers ParsAirCall to capture nuanced features in Persian speech, ensuring superior performance in number recognition tasks associated with airport telephone calls. Results: Experiments were conducted on both our collected telephony dataset and the Common Voice project, demonstrating ParsAirCall’s efficiency in achieving a 2.7% WER (Word Error Rate) in number recognition in airport telephone calls. Discussion: ParsAirCall emerges as a versatile tool, poised for seamless integration as a service into any Persian-language airport telephone system. Its practical application extends to number recognition in airport call centers, exemplifying the transformative impact of advanced technologies in streamlining communication processes within critical operational environments. ParsAirCall can be easily integrated as a service into any Persian-language airport telephone system, making it a practical tool for number recognition in airport call centers and telephone systems. Our innovations in this article will be as follows: • Using transfer learning, we presented a monolingual Persian speech recognition system to recognize Iranian cities. • Compared to other architectures developed for the Persian language, it performs better. • Considering our goal for operational use in call centers, ParsAirCall is optimized in terms of hardware resource consumption and processing load. • The final ParsAirCall solution has been implemented and optimized in Farsi language for use in call centers and conversational artificial intelligence.