فناوری تشخیص گفتار

دستیارهای صوتی و دیگر فناوری های تشخیص گفتار همچنان به ارائه تجربیات فردی بیشتر ادامه می دهند و در تمایز بین صداها بهتر می شوند.
جمعه، 5 فروردين 1401
تخمین زمان مطالعه:
موارد بیشتر برای شما
فناوری تشخیص گفتار

فناوری تشخیص گفتار امکان کنترل هندزفری گوشیهای هوشمند، بلندگوها و حتی وسایل نقلیه را به زبانهای مختلف فراهم میکند.
 
این پیشرفتی است که با هدف سادهتر و ایمنتر کردن زندگیمان برای دههها رؤیای ما بوده و روی آن کار شده است.
 

تاریخچه فناوری تشخیص گفتار

تشخیص گفتار ارزشمند است زیرا باعث صرفه جویی در وقت و هزینه مصرف کنندگان و شرکت ها می شود.
 
متوسط سرعت تایپ در رایانه رومیزی حدود 40 کلمه در دقیقه است. این میزان در هنگام تایپ در تلفن های هوشمند و دستگاه های تلفن همراه کمی کاهش می یابد.
 
با این حال، وقتی صحبت از گفتار به میان می آید، می توانیم بین 125 تا 150 کلمه در دقیقه جمع آوری کنیم. این یک افزایش شدید است.
 
بنابراین، تشخیص گفتار به ما کمک میکند تا همه چیز را سریعتر انجام دهیم - چه ایجاد یک سند یا صحبت با یک نماینده خدمات مشتری خودکار.
 
ماهیت فناوری تشخیص گفتار استفاده از زبان طبیعی برای شروع یک عمل است. فناوری گفتار مدرن در دهه 1950 آغاز شد و در طول دهه ها رشد کرد.
 
دهه 1950: آزمایشگاههای بل «آدری» را توسعه دادند، سیستمی که قادر بود اعداد 1 تا 9 را که با یک صدا صحبت میشوند تشخیص دهد.
دهه 1960: آیبیام دستگاهی به نام «جعبه کفش» ابداع کرد که میتوانست 16 کلمه انگلیسی گفتاری را تشخیص دهد و از هم متمایز کند.
دهه 1970: The It منجر به سیستم "هارپی" در کارنگی ملون شد که می توانست بیش از 1000 کلمه را بفهمد.
دهه 1990: ظهور محاسبات شخصی پردازندههای سریعتری را به ارمغان آورد و درها را برای فناوری دیکته باز کرد. بل دوباره با سیستمهای تشخیص صدا تعاملی شمارهگیری شد.
دهه 2000: تشخیص گفتار به نرخ دقت 80 درصدی رسید و سپس Google Voice وارد صحنه شد و این فناوری را در دسترس میلیونها کاربر قرار داد و به Google اجازه داد دادههای ارزشمندی را جمعآوری کند.
دهه 2010: اپل سیری را راه اندازی کرد و آمازون با الکسا در تلاش برای رقابت با گوگل عرضه شد. این سه بزرگ همچنان در رأس کار هستند.
 
سیستمهای تشخیص گفتار پیشرو امروزی -دستیار گوگل، آمازون الکسا، و سیری اپل- که بدون پیشگامان اولیه ای هستند که راه را هموار کردند، در جایگاه امروزی قرار نخواهند داشت.
 
به لطف ادغام فناوریهای جدید مانند پردازش مبتنی بر ابر و بهبود مستمر به لطف جمعآوری دادههای گفتاری، این سیستمهای گفتاری به طور مداوم توانایی خود را در «شنیدن» و درک انواع وسیعتری از کلمات، زبانها و لهجهها بهبود دادهاند.
 

تشخیص صدا چگونه کار می کند؟

اکنون که ما توسط خودروهای هوشمند، لوازم خانگی هوشمند و دستیارهای صوتی احاطه شدهایم، به راحتی میتوان نحوه عملکرد فناوری تشخیص گفتار را بدیهی دانست.
 
چرا؟
زیرا سادگی امکان صحبت با دستیارهای دیجیتال گمراه کننده است. تشخیص صدا حتی در حال حاضر بسیار پیچیده است.
 
به این فکر کنید که کودکان چگونه زبان یاد می گیرد.
 
از همان روز اول کلماتی را می شنوند که در اطرافشان استفاده می شود. والدین صحبت می کنند و فرزندانشان گوش می دهند. کودک انواع نشانه های کلامی را جذب می کند: لحن، عطف، نحو و تلفظ. مغز آنها وظیفه دارد الگوها و ارتباطات پیچیده را بر اساس نحوه استفاده والدین از زبان شناسایی کند.
 
اما در حالی که مغز انسان برای به دست آوردن گفتار، سخت سیم کشی شده است، توسعه دهندگان تشخیص گفتار باید خودشان سیم کشی سخت را بسازند.
 
چالش، ایجاد مکانیسم یادگیری زبان است. به هر حال هزاران زبان، لهجه و گویش وجود دارد که باید در نظر گرفت.
 
این بدان معنا نیست که ما در حال پیشرفت نیستیم. در اوایل سال 2020، محققان گوگل سرانجام توانستند بر عملکرد انسان در طیف وسیعی از وظایف درک زبان تفوق یابند.
 
مدل به روز شده گوگل اکنون در برچسب زدن جملات و یافتن پاسخ مناسب برای یک سؤال بهتر از انسان عمل می کند.
 
مراحل اساسی برای نحوه عملکرد فناوری تشخیص گفتار به شرح زیر است:
 
یک میکروفون ارتعاشات صدای یک فرد را به یک سیگنال الکتریکی موج مانند منتقل می کند.
این سیگنال به نوبه خود توسط سخت افزار سیستم - برای مثال کارت صدای کامپیوتر - به سیگنال دیجیتال تبدیل می شود.
نرم افزار تشخیص گفتار سیگنال دیجیتال را تجزیه و تحلیل می کند تا واج ها را ثبت کند، واحدهایی از صدا که یک کلمه را از کلمه دیگر در یک زبان خاص متمایز می کند.
پدیده ها در قالب کلمات بازسازی می شوند.
 
برای انتخاب کلمه صحیح، برنامه باید بر نشانه های زمینه تکیه کند، که از طریق تجزیه و تحلیل تریگرام انجام می شود.
 
این روش متکی به پایگاه داده ای از خوشه های سه کلمه ای مکرر است که در آن احتمالات تخصیص داده می شود که هر دو کلمه با یک کلمه سوم مشخص به دنبال آن قرار گیرند.
 
به متن پیشگویانه روی صفحه کلید گوشی خود فکر کنید. یک مثال ساده می تواند تایپ کردن "How are" باشد و تلفنتان "you?" را پیشنهاد می کند. با این حال، هرچه بیشتر از آن استفاده کنید، تمایلات شما را بیشتر می شناسد و عبارات پرکاربرد را پیشنهاد می کند.
 
نرم افزار تشخیص گفتار با تجزیه صدای ضبط شده گفتار به اصوات جداگانه، تجزیه و تحلیل هر صدا، استفاده از الگوریتم هایی برای یافتن محتمل ترین واژه مناسب در آن زبان، و رونویسی آن صداها به متن کار می کند.
 

چگونه شرکت ها فناوری تشخیص گفتار را ایجاد می کنند؟

بسیاری از این موارد بستگی به این دارد که شما برای رسیدن به چه چیزی تلاش می کنید و چقدر مایل به سرمایه گذاری هستید.
 
همان طور که مطرح می شود، نیازی به شروع از صفر در زمینه کدگذاری و به دست آوردن داده های گفتاری نیست، زیرا بسیاری از این زمینه ها فراهم شده است و می توان بر اساس آنها ساخت.
 
به عنوان مثال، میتوانید به رابطهای برنامهنویسی کاربردی تجاری (API) ضربه بزنید و به الگوریتمهای تشخیص گفتار آنها دسترسی داشته باشید. اما مشکل این است که آنها قابل تنظیم نیستند.
 
در عوض ممکن است نیاز داشته باشید که به دنبال جمعآوری دادههای گفتاری باشید که بتوان به سرعت و کارآمد از طریق یک API با استفاده آسان، به انها دسترسی داشت، مانند:
 
API گفتار به متن از Google Cloud
سیستم تشخیص خودکار گفتار (Automatic Speech Recognition (ASR)) از Nuance
API گفتار به متن IBM Watson
 
از آن جا، شما نرم افزاری را متناسب با نیازهای خود طراحی و توسعه می دهید. به عنوان مثال، می توانید الگوریتم ها و ماژول ها را با استفاده از پایتون کدنویسی کنید
 
لهجههای منطقهای و اختلالات گفتاری میتوانند پلتفرمهای تشخیص کلمه را از بین ببرند، و نفوذ نویز پسزمینه ممکن است دشوار باشد، نه این که به ورودی چندصدایی اشاره کنیم. به عبارت دیگر، درک گفتار یک چالش بسیار بزرگتر از تشخیص ساده صداها است.
 
در این جا مدل های مختلف مورد استفاده برای ساخت یک سیستم تشخیص گفتار آورده شده است:
 
* آکوستیک: شکل موج گفتار را بگیرید و آن را به قطعات کوچک تقسیم کنید تا محتمل ترین واج ها را در گفتار پیش بینی کنید.
* تلفظ: صداها را بگیرید و به هم گره بزنید تا کلمات بسازید، یعنی کلمات را با نمایش آوایی آنها مرتبط کنید.
* زبان: کلمات را بردارید و آنها را به هم گره بزنید تا جمله بسازید، یعنی محتمل ترین دنباله کلمات (یا رشته های متن) را در میان چندین مجموعه از رشته های متنی پیش بینی کنید.
 
الگوریتمها همچنین میتوانند پیشبینیهای مدلهای آکوستیک و زبان را ترکیب کنند تا خروجیها محتملترین رشته متن را برای ورودی فایل گفتاری داده شده ارائه دهند.
 
برای برجسته کردن بیشتر این چالش، سیستمهای تشخیص گفتار باید بتوانند بین همفونها (کلماتی با تلفظ یکسان اما معانی متفاوت) تمایز قائل شوند، تا تفاوت بین نامهای خاص و کلمات جداگانه را بیاموزند.
به هر حال، دقت تشخیص گفتار چیزی است که تعیین میکند آیا دستیارهای صوتی تبدیل به یک وسیله جانبی میشوند یا خیر.
 

چگونه دستیارهای صوتی تشخیص گفتار را به زندگی روزمره وارد می کنند

فناوری تشخیص گفتار در اوایل قرن بیست و یکم رشد چشمگیری داشته است و به معنای واقعی کلمه به خانه بازگشته است.
 
بیایید به چند گزینه پیشرو نگاه کنیم.
 
فناوری تشخیص گفتار
 
سیری اپل
سیری اپل پس از اولین دستیار صوتی محبوب در سال 2011 به عنوان اولین دستیار صوتی محبوب ظاهر شد. از آن زمان، این دستیار در تمام آیفون ها، آی پدها، اپل واچ، هوم پاد، رایانه های مک و اپل تی وی یکپارچه شده است.
 
سیری حتی به عنوان رابط کاربری کلیدی در سیستم اطلاعات سرگرمی CarPlay اپل و همچنین هدفون های ایرپاد بی سیم و HomePod Mini استفاده می شود.
 
سیری هر جا که می روید با شماست. در جاده، در خانه، و برای برخی، به معنای واقعی کلمه روی بدن شان. این به اپل مزیت بزرگی را در زمینه پذیرش زودهنگام داد.
 
به طور طبیعی، زودترین بودن اغلب به معنای دریافت بیشتر مزیت تبلیغات برای عملکردی است که ممکن است آن طور که انتظار می رود کار نکند.
 
اگرچه اپل شروع بزرگی با سیری داشت، بسیاری از کاربران از ناتوانی ظاهری آن در درک و تفسیر صحیح دستورات صوتی ابراز ناراحتی کردند.
 
اگر از سیری بخواهید از طرف شما پیامک ارسال کند یا تماسی برقرار کند، به راحتی می تواند این کار را انجام دهد. با این حال، وقتی نوبت به تعامل با برنامه های شخص ثالث می رسید، سیری در مقایسه با رقبای خود کمی قوی تر بود.
 
اما امروز، یک کاربر آیفون میتواند بگوید: «هی سیری، من میخواهم به فرودگاه بروم» یا «هی سیری، یک ماشین به من سفارش بده» و سیری هر برنامهای را که در تلفن خود دارید باز میکند و سفر را رزرو میکند.
 
تمرکز بر توانایی سیستم برای رسیدگی به سؤالات بعدی، ترجمه زبان، و تغییر صدای سیری به چیزی شبیه به انسان، به بهبود تجربه کاربری دستیار صوتی کمک می کند.
 
از سال 2021، اپل از نظر در دسترس بودن بر اساس کشور و در نتیجه درک سیری از لهجه های خارجی، بر فراز رقبای خود شناور است. سیری در بیش از 30 کشور و 21 زبان در دسترس است - و در برخی موارد، با چندین گویش مختلف.
 
آمازون-الکسا
آمازون در سال 2014 الکسا و اکو را به دنیا معرفی کرد و عصر اسپیکرهای هوشمند را آغاز کرد.
 
الکسا اکنون در داخل Echo، Echo Show (یک تبلت با کنترل صوتی)، Echo Spot (یک ساعت زنگ دار با کنترل صوتی) و هدفون Echo Buds (نسخه AirPods اپل آمازون) قرار دارد.
 
برخلاف اپل، آمازون همیشه بر این باور بوده است که دستیار صوتی با بیشترین "مهارت" (اصطلاح آن برای برنامه های صوتی در دستگاه های دستیار اکو) "حتی اگر گاهی اوقات مرتکب اشتباه شود و برای استفاده از آن اشتباه تلاش بیشتری کند، طرفداران وفادار به دست خواهد آورد. "
 
اگرچه برخی از کاربران میزان تشخیص کلمه الکسا را بهعنوان سایهای پشت دیگر پلتفرمهای صوتی میدانند، خبر خوب این است که الکسا به مرور زمان با صدای شما سازگار میشود و مشکلاتی را که ممکن است با لهجه یا لهجه خاص شما داشته باشد برطرف میکند.
 
در مورد مهارتها، کیت مهارتهای الکسای آمازون (Alexa Skills Kit (ASK)) شاید چیزی باشد که الکسا را به عنوان یک پلتفرم مناسب پیش برده است. ASK به توسعه دهندگان شخص ثالث اجازه می دهد تا بدون نیاز به پشتیبانی بومی، برنامه ایجاد کنند و از قدرت الکسا بهره ببرند.
 
الکسا با ادغام خود با دستگاههای خانه هوشمند مانند دوربینها، قفل درها، سیستمهای سرگرمی، روشنایی و ترموستاتها جلوتر بود.
 
و در نهایت، به کاربران این امکان را می دهد که کنترل مطلق خانه خود را در دست داشته باشند، خواه روی مبل خود راحت باشند یا در حال حرکت. با Smart Home Skill API آمازون، میتوانید مشتریان را قادر کنید دستگاههای متصل خود را از دهها میلیون نقطه پایانی فعال الکسا کنترل کنند.
 
وقتی از سیری میخواهید چیزی را به لیست خرید شما اضافه کند، او آن را به لیست خرید شما اضافه میکند - بدون اینکه آن را برای شما بخرد. اما الکسا یک قدم فراتر می رود.
 
دستیار گوگل
چند نفر از ما گفتهایم یا شنیدهایم که «اجازه دهید آن را برای شما گوگل کنم»؟  به نظر می رسد تقریباً همه. در این صورت منطقی به نظر می رسد که دستیار گوگل در پاسخ به (و درک) همه سؤالاتی که ممکن است کاربرانش داشته باشند غالب باشد.
 
از درخواست ترجمه یک عبارت به زبان دیگر گرفته تا دیگر موارد، Google Assistant یا دستیار گوگل نه تنها به درستی پاسخ می دهد، بلکه زمینه اضافی‌ای را نیز ارائه می دهد و یک وب سایت منبع را برای اطلاعات ذکر می کند.
 
با توجه به اینکه توسط فناوری جستجوی قدرتمند گوگل پشتیبانی میشود، شاید این غالب بودن یک هشدار غیرقابلتعجب باشد.
 
اگرچه الکسای آمازون (از طریق معرفی اکو) دو سال زودتر از گوگل هوم منتشر شد، گوگل در مدت زمان بسیار کوتاهی گام های بلندی در رسیدن به الکسا برداشته است. Google Home در اواخر سال 2016 منتشر شد و در عرض یک سال، خود را به عنوان مهمترین حریف الکسا معرفی کرد.
 
در سال 2017، گوگل از میزان دقت کلمات 95 درصدی برای انگلیسی ایالات متحده برخوردار بود که بالاترین میزان در میان تمام دستیارهای صوتی موجود در حال حاضر است. این به یک نرخ خطای کلمه 4.9٪ ترجمه می شود - که باعث می شود Google اولین در گروه زیر آستانه 5٪ باشد.
 
با این حال، نرخ خطای کلمه، محدودیت های خودش را دارد. داده ها تحت تأثیر عواملی هستند مانند:
 
* صدای زمینه
* بحث متقابل
* لهجه ها
* کلمات نادر
* متن نوشته
 
با این حال، آنها به 0٪ نزدیک می شوند و این قابل توجه است.
 

فناوری تشخیص گفتار در کجاهای دیگر رایج است؟

دستیارهای صوتی تنها مکانیسم هایی هستند که از طریق آنها پیشرفت در تشخیص گفتار در حال تبدیل شدن به جریان اصلی است. در اینجا تنها به یک مورد مهم در زیر اشاره می شود.
 
تشخیص گفتار داخل خودرو
دستگاههای فعالکننده صوتی و دستیارهای صوتی دیجیتال فقط برای آسانتر کردن کار نیستند. آنها همچنین در مورد ایمنی کاربرد دارند - حداقل زمانی که صحبت از تشخیص گفتار در خودرو می شود.
 
شرکتهایی مانند اپل، گوگل و Nuance تجربه راننده در وسیله نقلیه خود را کاملاً تغییر دادهاند – با هدف از بین بردن حواس پرتی ناشی از نگاه کردن به تلفن همراه در حین رانندگی، به رانندگان این امکان را میدهند که چشمان خود را به جاده بدوزد.
 
به جای ارسال پیامک در حین رانندگی، اکنون می توانید به ماشین خود بگویید که با چه کسی تماس بگیرد یا به کدام رستوران بروید.
به جای پیمایش در Apple Music برای یافتن لیست پخش مورد علاقه خود، فقط می توانید از سیری بخواهید آن را پیدا کند و برای شما پخش کند.
اگر سوخت خودروی شما رو به اتمام است، سیستم گفتار داخل خودرو شما نه تنها می تواند به شما اطلاع دهد که باید سوخت گیری کنید، بلکه به نزدیک ترین جایگاه سوخت اشاره می کند و از شما می پرسد که آیا ترجیحی برای برند خاصی دارید یا خیر. یا شاید می تواند به شما هشدار دهد که پمپ بنزینی که ترجیح می دهید خیلی دورتر از آن است که با سوخت باقی مانده به آن برسید.
 
وقتی صحبت از ایمنی می شود، یک هشدار مهم وجود دارد که باید از آن آگاه بود. یک گزارش منتشر شده توسط آزمایشگاه تحقیقات حمل و نقل (Transport Research Laboratory (TRL)) بریتانیا نشان داد که سطوح حواسپرتی راننده هنگام استفاده از فناوریهای سیستم فعال صوتی در مقایسه با سیستمهای صفحه نمایش لمسی بسیار کمتر است.
 
منبع: summalinguae


مقالات مرتبط
ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
موارد بیشتر برای شما