فناوري جديد ديجيتال، در قالب سيستم هاي تشخيص و تبديل صحبت به متن، مي تواند ابزار مناسبي در افزايش راحتي زندگي و بهره وري معلولان و اعطاي فرصت هاي برابر به ايشان باشد.در اين مقاله پس از بررسي انواع سيستم هاي هوشمند تبديل صحبت به متن، مروري بر تاريخچه اين سيستم ها خواهيم داشت.
گفتار براي بشر طبيعي ترين و کارآمدترين ابزار مبادله اطلاعات است؛ بنابراين ارتباط با ماشين به وسيله گفتار از آرزوهاي اوست.اولين طرح مسأله، مانند بسياري از موارد ديگر، در داستان ها و فيلمهاي تخيلي ديده مي شود که در واقع انعکاسي از آرزوهاي بشر است.تشخيص گفتار، هدف تحقيقاتي مراکز دانشگاهي و پژوهشي بسياري در نيم قرن اخير بوده است.هدف نهايي در بازشناسي گفتار،خلق ماشين هايي است که بتوانند مانند انسان بشنوند و عکس العمل مناسب نشان دهند.
فناوري تشخيص گفتار به رايانه اي که توانايي دريافت صدا را دارد و به امکانات چند رسانه اي مجهز است اين قابليت را مي دهد که صحبت کاربر را درک کند.اين فناوري در تبديل گفتار به متن ويا به عنوان جايگزيني براي صفحه کليد يا ماوس براي وارد کردن دستورات مورد استفاده قرار مي گيرد.سيستم هاي تشخيص دهنده گفتار انواع مختلفي دارند، بعضي قادرند گفتار پيوسته را شناسايي نمايند، بعضي ديگر فقط مي توانند گفتار گسسته (که بين کلمات سکوت وجود دارد)را تشخيص دهند.همچنين سيستم ها قادرند کلمات بيان شده توسط افراد مختلف و يا فقط توسط يک گوينده مشخص را تشخيص دهند.به هر حال ايده آل ترين سيستم آن است که بتواند گفتار پيوسته و غير وابسته به گوينده را در محيط عادي و داراي شلوغي و سر و صدا (محيط آغشته به نويز)شناسايي نمايد.اين سيستم ها با بکارگيري روش هاي مختلف طبقه بندي و شناسايي الگو قادر به تشخيص کلمات هستند که البته به افزايش دقت در شناسايي از يک فرهنگ لغات نيز در انتهاي سيستم معمولاً استفاده مي شود.اما به هر جهت عنصر اصلي سيستم يک مکانيزم تشخيص گفتار مبتني بر تکنيک هاي پردازش سيگنال و هوش مصنوعي است.
آيا کامپيوتر و هوش مصنوعي مي توانند به معلولان کمک کنند؟
معلول به کسي گفته مي شود که بر اثر نقص جسماني يا ذهني، اختلال قابل توجهي به طور مستمر بر سلامت و کارايي عمومي، او به وجود آيد.به طوري که اين اختلال، از استقلال فردي، اجتماعي و اقتصادي وي بکاهد.اين گروه، شامل ناشنوا، نابينا، و معلول جسمي و معلول ذهني است.سيستم تشخيص گفتار، ابزاري براي نوشتن است که براي افراد ناتوان راهي براي ارتباط با رايانه با کارآيي بالاتر ايجاد مي کند.تشخيص گفتار ادامه فناوري نوشتن از طريق ورود صدا به رايانه است.که مي توان به وسيله آن صداي خود را به رايانه آموزش داد و از آن براي نوشتن در ويرايشگر لغات (مثلاً ms- word)، يا ايجاد يک پيام پستي الکترونيکي استفاده کرد.همچنين مي توان از آن براي اجراي دستورات رايج سيستم عامل مثل ذخيره کردن، چاپ، يا کنترل مکان نما استفاده کرد.سيستم هاي تشخيص گفتار رشد خوبي داشته اند و در ساليان اخير به طور عمومي و با قيمت هاي مناسبي عرضه شده اند.
سيستم هاي تبديل صحبت به متن هوشمند هوش مصنوعي و سيستم هاي هوشمند
هوش مصنوعي، دانش ساختن ماشين ها يا برنامه هاي هوشمند است.تعريف ديگري که از هوش مصنوعي مي توان ارائه داد به قرار زير است:هوش مصنوعي، شاخه اي است از علم کامپيوتر که ملزومات محاسباتي اعمالي همچون ادراک،يادگيري،آموزش و استدلال را بررسي کرده و سيستمي جهت انجام چنين اعمالي ارائه مي دهد .يا مي توان گفت:هوش مصنوعي، مطالعه روش هايي است براي تبديل کامپيوتر به ماشيني که بتواند اعمال انجام شده توسط انسان را انجام دهد.پس منظور از موجود يا ماشين هوشمند، چيزي است شبيه انسان و ابزار يا ماشيني که قرار است به انسان تشبيه شود.
گرچه بعضي جنبه هاي ادراک انسان همچون ديدن و شنيدن کاملاً ضعيف تر از موجودات ديگر است.علاوه بر اين، کامپيوتر هاي امروزي با روش هايي کاملاً منطبق با منطق (Logic)توانسته اند در برخي جنبه ها مثل سرعت و دقت در محاسبات، فراتر از توانايي هاي انسان عمل کنند.
پردازش صحبت
پردازش صحبت (Speech Processing)عبارت است از فعاليت هايي که در زمينه بهبود، تشخيص، و توليد (ترکيب)صحبت توسط ماشين انجام مي شود.(Synthesize)صحبت عبارت است از فناوري توليد مصنوعي صحبت به وسيله ماشين و به طور عمده از متن تايپ شده يا فايل حاوي متن به عنوان ورودي آن استفاده مي گردد.بسياري از توليدات تجاري که صدايي شبيه به صحبت انسان ايجاد مي کنند، در واقع ترکيب صحبت انجام نمي دهند بلکه تنها يک بخش ضبط شده به صورت ديجيتال از صداي انسان را پخش مي کنند.اين روش کيفيت صداي بالايي ايجاد مي کند اما به واژه ها و عبارات از پيش ضبط شده محدود است.از کاربردهاي عمده ترکيب صحبت مي توان به ايجاد ابزارهايي براي افراد داراي ناتواني بينايي براي مطلع شدن از آنچه روي صفحه کامپيوتر مي گذرد اشاره کرد.
تشخيص صحبت پتانسيل جايگزيني نوشتن، تايپ روي صفحه کليد و کنترل توسط کليدها و دکمه ها را دارا است، اما بواسطه عدم قطعيت ناشي از ضعف سيستم هاي تشخيص فعلي، راه زيادي تا جانشيني کامل يا نسبي واسطه هاي امروزي با واسطه هاي متکي بر تشخيص صحبت باقي مانده است.ترکيب صحبت علاوه بر آن که همانند تشخيص صحبت مي تواند استفاده از کامپيوتر را براي کليه افراد ناتوان بدني که داراي توانايي هاي شنوايي و گفتاري مناسب هستند، آسانتر سازد، به عنوان يک وسيله ي خروجي کاربر پسند در محيط هاي مختلف مي تواند جايگزين بسياري از علائم بصري مانند چراغ ها و نشانگرها، يا شنيداري مانند زنگ هاي اخطار و امثالهم گردد و کارايي بالاتري نيز داشته باشد.
سيستم هاي تشخيص گفتار
سيستم هاي تشخيص گفتار همگي در يک ويژگي مشترک هستند و آن «لزوم درونداد به صورت صوتي».اين سيستم ها را براساس بروندادي که ارائه مي کنند مي توانيم به چند دسته تقسيم بندي کنيم:
الف.سيستم هاي گفتار به متن
ب.سيستم هاي گفتار به فرامين
ج.سيستم هاي گفتار به گفتار
کمک به افرادي که بر اثر بلاياي طبيعي يا مصنوعي معلول شده اند که ممکن بود (و ممکن است)ما هم يکي از آنها باشيم، بر همگان لازم است.امروزه پيشرفت سريع تکنولوژي هاي مختلف، در کنار بهبود سطح رفاه و آسايش عامه مردم، موجب برآورده شدن برخي از نيازهاي معلولين نيز شده است.رايانه ها به عنوان يکي از جلوه هاي تکنولوژي امروزي، در کاربردهاي زيادي مورد استفاده معلولين قرار گرفته و آنها را در انجام امور روزمره، آموزش، و اشتغال ياري مي نمايد.سيستم هاي بازشناسي و يا تشخيص گفتار به عنوان يکي از زمينه هاي دانش هوش مصنوعي بسياري از کارهاي غير ممکن را براي معلولين ممکن خواهد ساخت.سيستم هايي که گفتار انسان را به متون تايپ شده معادل و يا به فرامين متناسب تبديل مي کنند، علاوه بر استفاده توسط افراد عادي، افراد نابينا و ناتوان حرکتي را نيز قادر مي سازد تا درخواست هاي خود را به جاي استفاده از ماوس و يا صفحه کليد به صورت گفتاري و مثلاً از طريق ميکروفون به رايانه وارد کنند.نيز بتوانند وسايل منزل و خودرو را با فرامين صوتي کنترل نمايند.همچنين آموزش ناشنوايان را با تبديل گفتار معلم به حرکات زبان اشاره امکان پذير مي سازد، و افراد نابينا را قادر به استفاده از ماشين هايي که نياز به ورود اطلاعات و تعامل دارند (مانند خودپردازها)مي سازد.برخي از کاربردهاي اين تکنولوژي با رويکردي به معلولين در ادامه فهرست شده اند.
تايپ گفتاري و سيستم ديکتا فون
با تايپ گفتاري ديگر احتياجي به تايپ نمودن با صفحه کليد نيست بلکه مي توان اطلاعات را براي سيستم به صورت گفتاري بيان کرد و کار تايپ به صورت خودکار انجام مي گيرد.اين امر مي تواند باعث افزايش سرعت ورود اطلاعات و افزايش سرعت تايپ گردد و مي تواند در کاربردهايي مانند تايپ متن نامه و گزارش به کار گرفته شود.معلولين حرکتي و بينايي مي توانند به کمک اين سيستم به راحتي متون خود را تايپ کنند.اين تکنولوژي به ويژه زماني که افراد ملزم به تايپ مکرر هستند اهميت پيدا مي کند، زيرا براي مثال بيماري سندرم کانال مچي (Carpal Tunnel Syndrome)که يکي از انواع آسيبهاي ناشي از تکرار است در استفاده تکرار شونده از کيبورد براي تايپ پديد مي آيد.با استفاده از سيستم هاي تشخيص صدا و تايپ با کيبورد به طور همزمان مي توان از بروز اين گونه آسيب ها جلوگيري کرد.همچنين افراد توانجو (مثلاً معلولان قطع دست يا نابيانايان)، يا کساني که به هر نحو قادر به تايپ کردن نيستند، مي توانند خود را با آن سيستم ها تطبيق دهند و از آنها به طور مؤثري استفاده کنند .حتي گزارش شده است که استفاده از يک نرم افزار تشخيص صدا به يک مرد مبتلا به بيماري «زبان پريشي»کمک کرده است که بتواند عقايدش را در قالب زبان نوشتاري بيان نموده و با اطرافيان خود ارتباط برقرار کند.
سيستم هاي تلفني
قابليت هاي گفتاري هوشمند را مي توان به سيستم هاي تلفني خودکار که با مکانيزم تُن کار مي کنند ، اضافه کرد.امکان استفاده از گفتار با توجه به سريعتر نمودن و راحت تر نمودن ارتباط، مي تواند ارزش اين سيستم ها را دو چندان نمايد و افراد معلول را قادر به استفاده از اين سيستم ها نمايد.اين تکنولوژي مي تواند در همه کاربردهاي سيستم هاي تلفني، مانند منشي هاي تلفني (جهت متصل نمودن تماس گيرنده با يک فرد يا يک بخش با بيان گفتار نام فرد يا بخش به جاي زدن کلمه ها)، سيستم هاي ارتباط با مشتري، سيستم هاي تلفن بانک، سيستم هاي اطلاع رساني، قرآن تلفني، راهنماهاي (Directories)گوياي تلفني، فرمها و نظر سنجي هاي تلفني، رزرواسيون تلفني بليط با شبيه سازي مکالمه انساني (در پايانه هاي حمل و نقل، سينماها، تئاترها)، و مانند آنها به کار رود.
نمونه هاي عمليات موبايل ناشنوا
کارشناسان رايانه اي، نرم افزار جديد ويژه استفاده در تلفن همراه را براي ناشنوايان ابداع کرده اند که به صورت همزمان صحبت هاي طرف مقابل را به متن تبديل کرده و براي فرد ناشنوا نمايش مي دهد و از سوي ديگر، متن تايپ شده توسط ناشنوا را به صورت صوت براي فرد مقابل ارسال مي کند.انجمن ملي ناشنوايان انگليس اعلام کرده است که فن آوري جديد ابداعي اين انجمن با نام «تايپ تاک» (Type- talk)، هم اکنون براي مشتريان شرکت مخابراتي وودافون درانگليس قابل استفاده است و ساير ارائه دهندگان خدمات تلفن همراه نيز مي توانند با طي مراحل قانوني، فن آوري جديد را براي مشترکان خود به کار بگيرند.کارشناسان انجمن سلطنتي ناشنوايان، کم شنوايان و افراد عادي، کمک بزرگي به اين جمعيت از معلولين جامعه ارائه کرده و آنها را از نعمت برقراري تماس تلفني با ديگران، برخوردار مي کند.
تلفن ناشنوا
در کشور نيوزلند يک سرويس جديد تلفني براي افراد ناشنوا و يا کساني که دچار نقص شنوايي و گفتاري هستند مورد بهره برداري قرار گرفته است.اين سرويس تحت عنوان "NZRely"به اين افراد امکان مي دهد که با استفاده از تلفن هاي عادي و به وسيله ارسال پيام هاي متني بتوانند مکالمات خود را انجام دهند.
با صحبت گوينده، امکان نوشتن در تمام محيط هاي تايپي(مانند Word، سيستم هاي اتوماسيون و غيره)قابليت تايپ اعداد و علائم نگارشي (مانند نقطه، علامت سؤال و مانند آن)با گفتار شامل تمامي کلمات پرکاربرد زبان فارسي ، قابليت يادگيري لهجه و لحن بيان گوينده و ايجاد پروفايل شخصي براي هر گوينده، توانايي تطبيق با شرايط محيطي جديد و حفظ کارايي در شرايط نويزي، امکان افزودن کلمه جديد به واژگان نرم افزار توسط کاربر، قابليت تخصصي نمودن دايره کلمات براي کاربردهاي خاص، نصب نرم افزار به صورت تک نسخه يا تحت شبکه.نويسا از نظر کارايي به سيستم تشخيص بصري حروف (Optical Character recognition:OCR) مشهور و پرطرفدار readiris مخصوص زبان عربي که محصولي از شرکت Alssakhar مي باشد نزديک است.
پيشنهادهاي نکات فني
حرکت به سمت ايده برداري مستقيم تر از روال تشخيص صحبت توسط انسان و بنوعي فراهم آوردن مجموعه اي از تکنيک هاي توامان سطح پايين(پردازش و شکل دهي به سيگنال ها، استخراج مشخصه ها)، و سطح بالا (ريخت شناسي صحبت، شبکه هاي معنايي (Semantic web)و پديده هاي تشخيصي (congnitive)ممکن است بازدهي، انعطاف، و دقت سيستم هاي تبديل صحبت به متن را افزايش دهند.
همچنين جهت بهبود و نوآوري در اين سيستم ها مي توان بيش از پيش از شبکه عصبي مصنوعي استفاده نمود.يک شبکه عصبي مصنوعي (ANN :Artifical Neural Networks)ايده اي است براي پردازش اطلاعات مي پردازد.عنصر کليدي اين ايده، ساختاري جديد براي پردازش اطلاعات است.اين سيستم از شمار زيادي عناصر پردازشي فوق العاده بهم پيوسته تشکيل شده (همان نرون ها)که براي حل يک مسأله با هم هماهنگ عمل مي کند.ANN ها، نظير انسان ها، با مثال ياد
مي گيرند.يک ANN براي انجام وظيفه اي مشخص، مانند شناسايي الگوها و دسته بندي اطلاعات، در طول يک پروسه يادگيري، تنظيم مي شود.در سيستم هاي زيستي يادگيري با تنظيماتي در اتصالات سيناپسي که بين اعصاب قرار دارد همراه است.اين روش با تغيير وزن هاي اتصالات بين نرون ها در شبکه هاي عصبي مصنوعي شبيه سازي مي شود.
نکات اجرايي
از حدود دو دهه قبل تاکنون تحقيقات متعدد و وسيعي در دانشگاه هاي کشور در زمينه سيستم هاي هوشمند تشخيص صحبت صورت گرفته است که ضمن تقدير از نتايج علمي اين تحقيقات، بايستي اذعان نمود که تابحال محصول عملي شاخص و چنداني از آنها حاصل نگرديده است.براي بيش از پيش عملي نمودن نتايج اين تحقيقات، تعامل بيشتر ميان کاربران تحقيقات (وزارت بهداشت، دانشکده هاي علوم پزشکي، بنياد هاي مسئول در قبال جانبازان و معلولان)و مجريان تحقيق (عمدتاً دانشکده هاي فني)ضروري بنظر مي رسد.همچنين تشويق بخش خصوصي به سرمايه گذاري در زمينه توليد عملي محصولات تکنولوژي بالاي مفيد براي معلولان، حاصل از تحقيقات دانشگاهي، نيز مفيد خواهد بود.منشأ اين گونه شرکتها مي تواند شهرک ها و پارک هاي فناوري وابسته به دانشگاه ها باشد.در پژوهش ها نيز عنايت بيشتر به نکات و محدوديت هاي عملي و لحاظ نمودن امکان پياده سازي سخت افزاري ايده ها قابل پيشنهاد است.ضمن اينکه وجود يک بانک داده استاندارد الگوهاي تست و آزمون به مقايسه منصفانه تر نتايج تحقيقات مختلف با موضوع سيستم هاي هوشمند تبديل صحبت به متن فارسي منجر خواهد گرديد.
نتيجه گيري
استفاده از گفتار به عنوان درونداد اطلاعاتي علاوه بر سرعت، در نحوه تعامل انسان بر محيط تأثير بسزايي داشته است.باوجودي که در حال حاضر سيستم هاي زيادي براي تشخيص گفتار وجود دارد ولي همه اين دستاوردها به گونه اي، دسته اي از محدوديت هاي ساده کننده را يدک مي کشند که حذف اين محدوديت ها مي تواندبه صورت قابل ملاحظه اي بر پيچيدگي اين سيستم ها بيفزايد.هدف نهايي در سيستم هاي « تشخيص گفتار»ايجاد سيستم هايي است که بتوانند مانند انسان بشنوند و عکس العمل مناسب نشان دهند.تاکنون گروه ها و حوزه هاي مختلف، هر يک به فراخور نياز خود در انجام فعاليت هايشان از اين فناوري استفاده کرده اند.اما در ايران اين فن آوري عملاً کمتر گسترش يافته که اين مي تواند برآيندي از عدم شناخت کاربران و ضعف هاي احتمالي سيستم هاي داخلي در شرايط عملي باشد.
اين سيستم ها، در صورت نشان دادن کارايي مطلوب، مي توانند بر آسايش معلولان بيفزايند و به آنان در راستاي استفاده از موقعيت ها در جامعه کمک نمايند.سرمايه گذاري وسيع در راستاي توليد و همچنين اشاعه اين سيستم ها مابين معلولان، منطقاً قابل توصيه است، ضمن اينکه داراي توجيه اقتصادي نيز هست.
منبع: نشريه نوآور، شماره 65