فناوری تشخیص گفتار

دستیارهای صوتی و دیگر فناوری های تشخیص گفتار همچنان به ارائه تجربیات فردی بیشتر ادامه می دهند و در تمایز بین صداها بهتر می شوند.

جمعه، 5 فروردين 1401

تخمین زمان مطالعه: 15 دقیقه

مترجم : حمید وثیق زاده انصاری

کامپیوتر و فناوری اطلاعات آینده اینجاست

موارد بیشتر برای شما

فناوری تشخیص گفتار امکان کنترل هندزفری گوشی‌های هوشمند، بلندگوها و حتی وسایل نقلیه را به زبان‌های مختلف فراهم می‌کند.

این پیشرفتی است که با هدف ساده‌تر و ایمن‌تر کردن زندگی‌مان برای دهه‌ها رؤیای ما بوده و روی آن کار شده است.

تاریخچه فناوری تشخیص گفتار

تشخیص گفتار ارزشمند است زیرا باعث صرفه جویی در وقت و هزینه مصرف کنندگان و شرکت ها می شود.

متوسط سرعت تایپ در رایانه رومیزی حدود 40 کلمه در دقیقه است. این میزان در هنگام تایپ در تلفن های هوشمند و دستگاه های تلفن همراه کمی کاهش می یابد.

با این حال، وقتی صحبت از گفتار به میان می آید، می توانیم بین 125 تا 150 کلمه در دقیقه جمع آوری کنیم. این یک افزایش شدید است.

بنابراین، تشخیص گفتار به ما کمک می‌کند تا همه چیز را سریع‌تر انجام دهیم - چه ایجاد یک سند یا صحبت با یک نماینده خدمات مشتری خودکار.

ماهیت فناوری تشخیص گفتار استفاده از زبان طبیعی برای شروع یک عمل است. فناوری گفتار مدرن در دهه 1950 آغاز شد و در طول دهه ها رشد کرد.

دهه 1950: آزمایشگاه‌های بل «آدری» را توسعه دادند، سیستمی که قادر بود اعداد 1 تا 9 را که با یک صدا صحبت می‌شوند تشخیص دهد.
دهه 1960: آی‌بی‌ام دستگاهی به نام «جعبه کفش» ابداع کرد که می‌توانست 16 کلمه انگلیسی گفتاری را تشخیص دهد و از هم متمایز کند.
دهه 1970: The It منجر به سیستم "هارپی" در کارنگی ملون شد که می توانست بیش از 1000 کلمه را بفهمد.
دهه 1990: ظهور محاسبات شخصی پردازنده‌های سریع‌تری را به ارمغان آورد و درها را برای فناوری دیکته باز کرد. بل دوباره با سیستم‌های تشخیص صدا تعاملی شماره‌گیری شد.
دهه 2000: تشخیص گفتار به نرخ دقت 80 درصدی رسید و سپس Google Voice وارد صحنه شد و این فناوری را در دسترس میلیون‌ها کاربر قرار داد و به Google اجازه داد داده‌های ارزشمندی را جمع‌آوری کند.
دهه 2010: اپل سیری را راه اندازی کرد و آمازون با الکسا در تلاش برای رقابت با گوگل عرضه شد. این سه بزرگ همچنان در رأس کار هستند.

سیستم‌های تشخیص گفتار پیشرو امروزی -دستیار گوگل، آمازون الکسا، و سیری اپل- که بدون پیشگامان اولیه ای هستند که راه را هموار کردند، در جایگاه امروزی قرار نخواهند داشت.

به لطف ادغام فناوری‌های جدید مانند پردازش مبتنی بر ابر و بهبود مستمر به لطف جمع‌آوری داده‌های گفتاری، این سیستم‌های گفتاری به طور مداوم توانایی خود را در «شنیدن» و درک انواع وسیع‌تری از کلمات، زبان‌ها و لهجه‌ها بهبود داده‌اند.

تشخیص صدا چگونه کار می کند؟

اکنون که ما توسط خودروهای هوشمند، لوازم خانگی هوشمند و دستیارهای صوتی احاطه شده‌ایم، به راحتی می‌توان نحوه عملکرد فناوری تشخیص گفتار را بدیهی دانست.

چرا؟

زیرا سادگی امکان صحبت با دستیارهای دیجیتال گمراه کننده است. تشخیص صدا حتی در حال حاضر بسیار پیچیده است.

به این فکر کنید که کودکان چگونه زبان یاد می گیرد.

از همان روز اول کلماتی را می شنوند که در اطرافشان استفاده می شود. والدین صحبت می کنند و فرزندانشان گوش می دهند. کودک انواع نشانه های کلامی را جذب می کند: لحن، عطف، نحو و تلفظ. مغز آنها وظیفه دارد الگوها و ارتباطات پیچیده را بر اساس نحوه استفاده والدین از زبان شناسایی کند.

اما در حالی که مغز انسان برای به دست آوردن گفتار، سخت سیم کشی شده است، توسعه دهندگان تشخیص گفتار باید خودشان سیم کشی سخت را بسازند.

چالش، ایجاد مکانیسم یادگیری زبان است. به هر حال هزاران زبان، لهجه و گویش وجود دارد که باید در نظر گرفت.

این بدان معنا نیست که ما در حال پیشرفت نیستیم. در اوایل سال 2020، محققان گوگل سرانجام توانستند بر عملکرد انسان در طیف وسیعی از وظایف درک زبان تفوق یابند.

مدل به روز شده گوگل اکنون در برچسب زدن جملات و یافتن پاسخ مناسب برای یک سؤال بهتر از انسان عمل می کند.

مراحل اساسی برای نحوه عملکرد فناوری تشخیص گفتار به شرح زیر است:

یک میکروفون ارتعاشات صدای یک فرد را به یک سیگنال الکتریکی موج مانند منتقل می کند.
این سیگنال به نوبه خود توسط سخت افزار سیستم - برای مثال کارت صدای کامپیوتر - به سیگنال دیجیتال تبدیل می شود.
نرم افزار تشخیص گفتار سیگنال دیجیتال را تجزیه و تحلیل می کند تا واج ها را ثبت کند، واحدهایی از صدا که یک کلمه را از کلمه دیگر در یک زبان خاص متمایز می کند.
پدیده ها در قالب کلمات بازسازی می شوند.

برای انتخاب کلمه صحیح، برنامه باید بر نشانه های زمینه تکیه کند، که از طریق تجزیه و تحلیل تریگرام انجام می شود.

این روش متکی به پایگاه داده ای از خوشه های سه کلمه ای مکرر است که در آن احتمالات تخصیص داده می شود که هر دو کلمه با یک کلمه سوم مشخص به دنبال آن قرار گیرند.

به متن پیشگویانه روی صفحه کلید گوشی خود فکر کنید. یک مثال ساده می تواند تایپ کردن "How are" باشد و تلفنتان "you?" را پیشنهاد می کند. با این حال، هرچه بیشتر از آن استفاده کنید، تمایلات شما را بیشتر می شناسد و عبارات پرکاربرد را پیشنهاد می کند.

نرم افزار تشخیص گفتار با تجزیه صدای ضبط شده گفتار به اصوات جداگانه، تجزیه و تحلیل هر صدا، استفاده از الگوریتم هایی برای یافتن محتمل ترین واژه مناسب در آن زبان، و رونویسی آن صداها به متن کار می کند.

چگونه شرکت ها فناوری تشخیص گفتار را ایجاد می کنند؟

بسیاری از این موارد بستگی به این دارد که شما برای رسیدن به چه چیزی تلاش می کنید و چقدر مایل به سرمایه گذاری هستید.

همان طور که مطرح می شود، نیازی به شروع از صفر در زمینه کدگذاری و به دست آوردن داده های گفتاری نیست، زیرا بسیاری از این زمینه ها فراهم شده است و می توان بر اساس آنها ساخت.

به عنوان مثال، می‌توانید به رابط‌های برنامه‌نویسی کاربردی تجاری (API) ضربه بزنید و به الگوریتم‌های تشخیص گفتار آنها دسترسی داشته باشید. اما مشکل این است که آنها قابل تنظیم نیستند.

در عوض ممکن است نیاز داشته باشید که به دنبال جمع‌آوری داده‌های گفتاری باشید که بتوان به سرعت و کارآمد از طریق یک API با استفاده آسان، به انها دسترسی داشت، مانند:

API گفتار به متن از Google Cloud
سیستم تشخیص خودکار گفتار (Automatic Speech Recognition (ASR)) از Nuance
API گفتار به متن IBM Watson

از آن جا، شما نرم افزاری را متناسب با نیازهای خود طراحی و توسعه می دهید. به عنوان مثال، می توانید الگوریتم ها و ماژول ها را با استفاده از پایتون کدنویسی کنید

لهجه‌های منطقه‌ای و اختلالات گفتاری می‌توانند پلتفرم‌های تشخیص کلمه را از بین ببرند، و نفوذ نویز پس‌زمینه ممکن است دشوار باشد، نه این که به ورودی چندصدایی اشاره کنیم. به عبارت دیگر، درک گفتار یک چالش بسیار بزرگتر از تشخیص ساده صداها است.

در این جا مدل های مختلف مورد استفاده برای ساخت یک سیستم تشخیص گفتار آورده شده است:

* آکوستیک: شکل موج گفتار را بگیرید و آن را به قطعات کوچک تقسیم کنید تا محتمل ترین واج ها را در گفتار پیش بینی کنید.
* تلفظ: صداها را بگیرید و به هم گره بزنید تا کلمات بسازید، یعنی کلمات را با نمایش آوایی آنها مرتبط کنید.
* زبان: کلمات را بردارید و آنها را به هم گره بزنید تا جمله بسازید، یعنی محتمل ترین دنباله کلمات (یا رشته های متن) را در میان چندین مجموعه از رشته های متنی پیش بینی کنید.

الگوریتم‌ها همچنین می‌توانند پیش‌بینی‌های مدل‌های آکوستیک و زبان را ترکیب کنند تا خروجی‌ها محتمل‌ترین رشته متن را برای ورودی فایل گفتاری داده شده ارائه دهند.

برای برجسته کردن بیشتر این چالش، سیستم‌های تشخیص گفتار باید بتوانند بین همفون‌ها (کلماتی با تلفظ یکسان اما معانی متفاوت) تمایز قائل شوند، تا تفاوت بین نام‌های خاص و کلمات جداگانه را بیاموزند.
به هر حال، دقت تشخیص گفتار چیزی است که تعیین می‌کند آیا دستیارهای صوتی تبدیل به یک وسیله جانبی می‌شوند یا خیر.

چگونه دستیارهای صوتی تشخیص گفتار را به زندگی روزمره وارد می کنند

فناوری تشخیص گفتار در اوایل قرن بیست و یکم رشد چشمگیری داشته است و به معنای واقعی کلمه به خانه بازگشته است.

بیایید به چند گزینه پیشرو نگاه کنیم.

سیری اپل

سیری اپل پس از اولین دستیار صوتی محبوب در سال 2011 به عنوان اولین دستیار صوتی محبوب ظاهر شد. از آن زمان، این دستیار در تمام آیفون ها، آی پدها، اپل واچ، هوم پاد، رایانه های مک و اپل تی وی یکپارچه شده است.

سیری حتی به عنوان رابط کاربری کلیدی در سیستم اطلاعات سرگرمی CarPlay اپل و همچنین هدفون های ایرپاد بی سیم و HomePod Mini استفاده می شود.

سیری هر جا که می روید با شماست. در جاده، در خانه، و برای برخی، به معنای واقعی کلمه روی بدن شان. این به اپل مزیت بزرگی را در زمینه پذیرش زودهنگام داد.

به طور طبیعی، زودترین بودن اغلب به معنای دریافت بیشتر مزیت تبلیغات برای عملکردی است که ممکن است آن طور که انتظار می رود کار نکند.

اگرچه اپل شروع بزرگی با سیری داشت، بسیاری از کاربران از ناتوانی ظاهری آن در درک و تفسیر صحیح دستورات صوتی ابراز ناراحتی کردند.

اگر از سیری بخواهید از طرف شما پیامک ارسال کند یا تماسی برقرار کند، به راحتی می تواند این کار را انجام دهد. با این حال، وقتی نوبت به تعامل با برنامه های شخص ثالث می رسید، سیری در مقایسه با رقبای خود کمی قوی تر بود.

اما امروز، یک کاربر آیفون می‌تواند بگوید: «هی سیری، من می‌خواهم به فرودگاه بروم» یا «هی سیری، یک ماشین به من سفارش بده» و سیری هر برنامه‌ای را که در تلفن خود دارید باز می‌کند و سفر را رزرو می‌کند.

تمرکز بر توانایی سیستم برای رسیدگی به سؤالات بعدی، ترجمه زبان، و تغییر صدای سیری به چیزی شبیه به انسان، به بهبود تجربه کاربری دستیار صوتی کمک می کند.

از سال 2021، اپل از نظر در دسترس بودن بر اساس کشور و در نتیجه درک سیری از لهجه های خارجی، بر فراز رقبای خود شناور است. سیری در بیش از 30 کشور و 21 زبان در دسترس است - و در برخی موارد، با چندین گویش مختلف.

آمازون-الکسا

آمازون در سال 2014 الکسا و اکو را به دنیا معرفی کرد و عصر اسپیکرهای هوشمند را آغاز کرد.

الکسا اکنون در داخل Echo، Echo Show (یک تبلت با کنترل صوتی)، Echo Spot (یک ساعت زنگ دار با کنترل صوتی) و هدفون Echo Buds (نسخه AirPods اپل آمازون) قرار دارد.

برخلاف اپل، آمازون همیشه بر این باور بوده است که دستیار صوتی با بیشترین "مهارت" (اصطلاح آن برای برنامه های صوتی در دستگاه های دستیار اکو) "حتی اگر گاهی اوقات مرتکب اشتباه شود و برای استفاده از آن اشتباه تلاش بیشتری کند، طرفداران وفادار به دست خواهد آورد. "

اگرچه برخی از کاربران میزان تشخیص کلمه الکسا را به‌عنوان سایه‌ای پشت دیگر پلت‌فرم‌های صوتی می‌دانند، خبر خوب این است که الکسا به مرور زمان با صدای شما سازگار می‌شود و مشکلاتی را که ممکن است با لهجه یا لهجه خاص شما داشته باشد برطرف می‌کند.

در مورد مهارت‌ها، کیت مهارت‌های الکسای آمازون (Alexa Skills Kit (ASK)) شاید چیزی باشد که الکسا را به عنوان یک پلتفرم مناسب پیش برده است. ASK به توسعه دهندگان شخص ثالث اجازه می دهد تا بدون نیاز به پشتیبانی بومی، برنامه ایجاد کنند و از قدرت الکسا بهره ببرند.

الکسا با ادغام خود با دستگاه‌های خانه هوشمند مانند دوربین‌ها، قفل درها، سیستم‌های سرگرمی، روشنایی و ترموستات‌ها جلوتر بود.

و در نهایت، به کاربران این امکان را می دهد که کنترل مطلق خانه خود را در دست داشته باشند، خواه روی مبل خود راحت باشند یا در حال حرکت. با Smart Home Skill API آمازون، می‌توانید مشتریان را قادر کنید دستگاه‌های متصل خود را از ده‌ها میلیون نقطه پایانی فعال الکسا کنترل کنند.

وقتی از سیری می‌خواهید چیزی را به لیست خرید شما اضافه کند، او آن را به لیست خرید شما اضافه می‌کند - بدون اینکه آن را برای شما بخرد. اما الکسا یک قدم فراتر می رود.

دستیار گوگل

چند نفر از ما گفته‌ایم یا شنیده‌ایم که «اجازه دهید آن را برای شما گوگل کنم»؟ به نظر می رسد تقریباً همه. در این صورت منطقی به نظر می رسد که دستیار گوگل در پاسخ به (و درک) همه سؤالاتی که ممکن است کاربرانش داشته باشند غالب باشد.

از درخواست ترجمه یک عبارت به زبان دیگر گرفته تا دیگر موارد، Google Assistant یا دستیار گوگل نه تنها به درستی پاسخ می دهد، بلکه زمینه اضافی‌ای را نیز ارائه می دهد و یک وب سایت منبع را برای اطلاعات ذکر می کند.

با توجه به اینکه توسط فناوری جستجوی قدرتمند گوگل پشتیبانی می‌شود، شاید این غالب بودن یک هشدار غیرقابل‌تعجب باشد.

اگرچه الکسای آمازون (از طریق معرفی اکو) دو سال زودتر از گوگل هوم منتشر شد، گوگل در مدت زمان بسیار کوتاهی گام های بلندی در رسیدن به الکسا برداشته است. Google Home در اواخر سال 2016 منتشر شد و در عرض یک سال، خود را به عنوان مهم‌ترین حریف الکسا معرفی کرد.

در سال 2017، گوگل از میزان دقت کلمات 95 درصدی برای انگلیسی ایالات متحده برخوردار بود که بالاترین میزان در میان تمام دستیارهای صوتی موجود در حال حاضر است. این به یک نرخ خطای کلمه 4.9٪ ترجمه می شود - که باعث می شود Google اولین در گروه زیر آستانه 5٪ باشد.

با این حال، نرخ خطای کلمه، محدودیت های خودش را دارد. داده ها تحت تأثیر عواملی هستند مانند:

* صدای زمینه
* بحث متقابل
* لهجه ها
* کلمات نادر
* متن نوشته

با این حال، آنها به 0٪ نزدیک می شوند و این قابل توجه است.

فناوری تشخیص گفتار در کجاهای دیگر رایج است؟

دستیارهای صوتی تنها مکانیسم هایی هستند که از طریق آنها پیشرفت در تشخیص گفتار در حال تبدیل شدن به جریان اصلی است. در اینجا تنها به یک مورد مهم در زیر اشاره می شود.

تشخیص گفتار داخل خودرو

دستگاه‌های فعال‌کننده صوتی و دستیارهای صوتی دیجیتال فقط برای آسان‌تر کردن کار نیستند. آنها همچنین در مورد ایمنی کاربرد دارند - حداقل زمانی که صحبت از تشخیص گفتار در خودرو می شود.

شرکت‌هایی مانند اپل، گوگل و Nuance تجربه راننده در وسیله نقلیه خود را کاملاً تغییر داده‌اند – با هدف از بین بردن حواس پرتی ناشی از نگاه کردن به تلفن همراه در حین رانندگی، به رانندگان این امکان را می‌دهند که چشمان خود را به جاده بدوزد.

به جای ارسال پیامک در حین رانندگی، اکنون می توانید به ماشین خود بگویید که با چه کسی تماس بگیرد یا به کدام رستوران بروید.
به جای پیمایش در Apple Music برای یافتن لیست پخش مورد علاقه خود، فقط می توانید از سیری بخواهید آن را پیدا کند و برای شما پخش کند.
اگر سوخت خودروی شما رو به اتمام است، سیستم گفتار داخل خودرو شما نه تنها می تواند به شما اطلاع دهد که باید سوخت گیری کنید، بلکه به نزدیک ترین جایگاه سوخت اشاره می کند و از شما می پرسد که آیا ترجیحی برای برند خاصی دارید یا خیر. یا شاید می تواند به شما هشدار دهد که پمپ بنزینی که ترجیح می دهید خیلی دورتر از آن است که با سوخت باقی مانده به آن برسید.

وقتی صحبت از ایمنی می شود، یک هشدار مهم وجود دارد که باید از آن آگاه بود. یک گزارش منتشر شده توسط آزمایشگاه تحقیقات حمل و نقل (Transport Research Laboratory (TRL)) بریتانیا نشان داد که سطوح حواس‌پرتی راننده هنگام استفاده از فناوری‌های سیستم فعال صوتی در مقایسه با سیستم‌های صفحه نمایش لمسی بسیار کمتر است.

منبع: summalinguae