نویسنده: مرضیه سادات کیایی
سیریاپل، باهوش، مفید و البته کمی شوخطبع است
در تاریخ چهارم اکتبر 2011 میلادی، اپلآیفون 4s را همراه با سیری (Siri) به جهان معرفی کرد. در این تاریخ، اپل به ثبت اختراع برخی فناوریهای به کار رفته در سیری بر اساس قوانین ایالات متحده اقدام کرد. دستیار شخصی قدرتمندی که سبک جدیدی از رقابت را در میان شرکتهای بزرگ فناوری به وجود آورد. تشخیص صدا کاری است که سیری انجام میدهد. اما واژههای شناسایی شده به تنهایی نمی توانند به یک سیستم اعلام کنند، کاربر واقعاً انتظار انجام چه کاری را دارد. اما زمانی که از عبارتی همچون «پیامی برای جیسون پرلو ارسال کن، او عاشق لینوکس است» استفاده می شود. این جمله برای سیری مفهوم پیدا می کند. هر زمان تعاملی با سیری انجام دهید، در اصل به گفت و گو با سروری پرداختهاید که در کلاود قرار دارد. سرور کلاود سعی می کند کلمات شما را تشخیص دهد و مفهوم آنها را درک کند.
ایدههای قدیمی زمینه ساز پیشرفتهای امروزی
برای چند دهه در انتظار کامپیوترهایی شبیه به HAL در یک اودیسه فضایی 2001 و کامپیوتر U.S.S Enterprise در فیلم Start Trek بودیم. سالهای متمادی در انتظار کامپیوترهایی بودیم که بتوانند با ما صحبت کنند و شبیه به انسانهایی که از ضریب هوشی فوقالعاده برخوردار هستند و دانش آنها در نوک انگشتانشان قرار دارد. حتی چشمنداز اولیه اپل از ویژگی صوتی چندان واضح نبود. در اواخر دهه 1980 میلادی، اپل مفهومی به نام هدایتگر دانش (knowledge Navigator) را مطرح کرد. این مفهوم نخستین بار توسط مدیرعامل آن روزگار اپل، جان اسکالی، معرفی شد. این مفهوم دستگاهی را توصیف می کند که توانایی دسترسی به شبکهای بزرگ از بانکهای اطلاعاتی حاوی اطلاعات ابرمتن را دارد و از عامل نرمافزاری (Software agent) برای جست و جوی این داراییها استفاده می کند. در این زمان، اپل مجموعهای از ویدیوها و کلیپها را آماده کرد و به مردم نشان داد که چگونه می توانند از طریق کامپیوتری که شبیه تبلتهای امروزی و به یک سری قابلیتهای پیشرفته مجهز بود، به تعامل بپردازند و گفتوگویی طبیعی را تجربه کنند. این آواتارهای صوتی و تصویری کاملاً انسانی بودند و توانایی انجام یک مکالمه بیعیب و نقص را با کاربر داشتند و به کاربر کمک می کردند کارهای خود را برنامهریزی کند، با دوستان و همکاران خود به تعامل بپردازد و به همه اطلاعات طبقهبندیشده در یک شبکه دسترسی داشته باشد. هرچند سیستمهای آن زمان نتوانستند به همان سطحی از تعامل و ارتباط که در ویدیوهای آن روزگار نشان داده شده بودند برسند، اما با ظهور صفحه نمایشهای لمسی، آیفون، آیپاد و سیری، امروزه اپل گامهای بزرگی را برای این چشمانداز برداشته است. البته فناوری تشخیص گفتار پدیده جدیدی نیست و این توانایی از سالهای دور در اختیار کامپیوترها قرار داشته است. در نتیجه، اپل را نمی توان نخستین شرکتی برشمرد که موفق شده است به چنین راهکاری دست پیدا کند. در دهه 1980میلادی، هرفردی با خرید یک سختافزار و نرمافزار ویژه این توانایی را در اختیار داشت تا با سیستم خود به تعامل بپردازد. برای این کار نیاز بود تا نرمافزار مورد نظر را آموزش دهد تا صحبتهای شما را درک کند و تنها توانایی انجام یک سری از وظایف کوچک را داشته باشد. این توانایی برای برخی افراد که کامپیوتر جزء یکی از بخشهای اصلی کارشان بود ضروری بود، اما برای عموم کاربران بهکارگیری چنین سیستمی چندان عملی نبود. در اوایل دهه 1990 میلادی، اپل کامپیوترهای صوتی و تصویری مکینتاش (Quadra AV) را عرضه کرد. این کامپیوترها همراه با سختافزار و نرمافزار تشخیص گفتار عرضه شدند. هرچند آنها محدودیتهایی داشتند، اما توانایی انجام مجموعه محدودی از وظایف را از طریق صوت داشتند.در سالهای بعد، در تبلیغات Mac OS X و همراه با آن ویندوز ویستا اعلام شد که این سیستمعاملها توانایی ادغام فناوری تشخیص گفتار را دارند، اما این ویژگی در آن روزگار بیشتر جنبه تبلیغی داشت. به طوری که ماوس و صفحه کلید نسبت به مکانیسم صوتی سریعترین راه ممکن برای ورود دستورات به کامپیوترهای خانگی بودند.
پسزمینه حق اختراع اپل
در گواهی ثبت اختراع اپل که در سال 2012 منتشر شد، این شرکت اعلام کرد دستگاههای الکترونیکی باید توانایی دسترسی به حجم گسترده و روبه رشدی از سرویسها، وظایف و اطلاعات را از طریق اینترنت یا منابع دیگر داشته باشند. بیشتر مصرفکنندگان از دستگاههایی همچون تبلتها و گوشیهای هوشمندی استفاده می کنند که با اجرای برنامههای کاربردی دسترسی به انواع مختلفی از وظایف و در دسترس قراردادن انواع مختلفی از اطلاعات را امکانپذیر می سازند. در اغلب موارد، برنامهها یا سایتها از ویژگیها و رابط کاربری مخصوص به خود و پارادایم عملیاتی خاص خود برای انجام وظایف سنگین یا یادگیری رفتار مصرفکننده استفاده می کنند. همچنین، بیشتر کاربران ممکن است به سختی توانایی شناسایی قابلیتها یا اطلاعاتی را داشته باشند که در دستگاههای الکترونیکی یا سایتهای مختلف قرار گرفته است. در نتیجه، این احتمال وجود دارد که کاربران توانایی به دستآوردن نتایج مورد نظر را نداشته باشند یا از منابعی که در اختیار دارند به درستی استفاده نکنند. در بیشتر موارد سیستمهای مدرن به سختی می توانند آنگونه که کاربر انتظار دارد به آن پاسخ دهند. در نتیجه، کاربران به واسطههایی نیاز دارند که امکان بهرهبرداری از فناوریها را به شکل مطلوبی در اختیار آنها قرار دهند.راه حل اپل سیری است
راه حل اپل اختراع یک دستیار خودکار هوشمند است که روی دستگاههای الکترونیکی پیادهسازی شود و با کاربر دستگاه به تعامل بپردازد و برای استفاده بهینه از سرویسهای راه دور و محلی به کاربر کمک کند. دستیار خودکار هوشمند این توانایی را دارد که گفتوگویی طبیعی با کاربر و فراخوانی سرویسهای خارجی را برای دریافت اطلاعات مناسب و عملیات مختلف داشته باشد. سیری دستیاری صوتی است که هوش و زبان طبیعی انسانی را تقلید می کند. او توانایی تفسیر دستورالعملهای صوتی و در صورت امکان اجرای آنها را دارد. سیری توانایی بازکردن برنامهها را دارد و درباره زمان پخش فیلمها، امتیازات ورزشی، رزرو میز در رستوران ارسال پیام یا برقراری تماس با مخاطبان از طریق فهرست مخاطبان و انجام وظایف دیگر به کاربر کمک می کند. سیری تنها محدودیت به دریافت دستورات و اجرای آنها در پسزمینه نیست. او نه تنها این توانایی را دارد تا به شما بگوید اکنون در حال چه کاری است، بلکه می تواند پرسشهایی را مطرح کند که با استفاده از پاسخهای شما تصمیمات دقیقتر و عملکرد بهتری ارائه کند. سیری در طی این سالها از یک سیستم تشخیص صوتی به ابزاری کارآمدتر تبدیل شده است. در برخی موارد، دستیاران شخصی هنوز توانایی انجام کارهایی همچون استخراج و تفسیر منظور کاربر، درخواست و دریافت روشن اطلاعات و انجام عملیاتی بر اساس نیت کاربر خود را ندارند. در مجموع، سیری این ویژگیها را دارد:- از رابط خوبی برای گفتوگو برخوردار است.
- قابل پیکربندی است.
- از حافظه کوتاه و بلندمدت بهره می برد.
- توانایی درک محتوای مکالمات را دارد.
- توانایی ارائه سرویسهای مسافرتی و کار در زمینه تجارت الکترونیک را دارد.
- به طور خودکار توانایی ارائه اطلاعات و خدمات را دارد.
- توانایی ارائه توصیههای شخصی را دارد.
- در نهایت، توانایی کنترل عملیاتی را که روی آیاواس انجام می شود، دارد.
معماری مفهومی سیری
نخستین حق اختراع اپل در ارتباط با سیری در سال 2012 منتشر شد. در شکل1، نمونهای از پیکربندی سیری را مشاهده می کنید. در شکل 2، تجسمی از معماری سیستمی سیری را برای چند مشتری مختلف در فرآیندهای مختلفی که شامل سیستمهای ناوبری ماشین، سیستمهای کنترل صوتی و سیستمهای سرگرمی ماشین است مشاهده می کنید.اپل سال گذشته میلادی حق اختراع جدیدی را برای سیری منتشر ساخت که در آن کاربران توانایی سفارشی سازی کلمات را برای سیری دارند (شکل 3). با توجه به این که هر کاربر از یک سری کلمات و لغات خاص استفاده می کند که ممکن است در بانک اطلاعاتی سیری وجود نداشته باشد، اپل تصمیم گرفت برای تعامل بیشتر کاربر با سیری این ویژگی منحصربه فرد را به سیری اضافه کند. این ویژگی جدید ماحصل تلاشهای لیک هری چن، آدامجان چهیر، دیدی یر رنه گزونی و توماس رابرت گروبر بوده است.
سیری چگونه کار می کند؟
زمانی که با سیری به صحبت می پردازید، گفتار شما به سرعت کدگذاری و در قالب دادههای دیجیتالی فشرده نگهداری می شود. سیگنال تلفن همراه شما از طریق نزدیکترین برج سلولی که در نزدیکی محل شما قرار دارد به صورت بیسیم مخابره و از طریق خطوطی مجدد به ISP بازگردانده می شود. جایی که در آن ارتباط با سرور ابری برقرار و در این مرحله مجموعهای از حالتها در قالب یک زبان قابل درک بارگذاری شده و مجدد ارسال می شود. به طور همزمان، گفتار شما به صورت محلی روی دستگاه تلفن همراه شما نیز مورد بررسی قرار می گیرد. تشخیصدهنده نصب شده روی تلفن همراه با سرور مستقر در کلاود ارتباط برقرار می کند تا مطمئن شود آیا دستور واردشده می تواند به صورت محلی مدیریت شود یا حتماً لازم است برای دریافت کمک بیشتر به شبکهای متصل شود. به طور مثال، از تلفن همراه خود درخواست کنید یک موسیقی برای شما پخش کند. اگر تشخیصدهنده محلی متوجه شود قدرت کافی برای پردازش گفتار شما را دارد، به سرور کلاود اعلام می کند به کمک او نیاز ندارد و پیغام "Thanks very much" و "wer're OK here" را برای سرور ارسال می کند.سرور گفتار شما را با مدل آماری برآورد شده بر اساس گفتار شما و صداهایی که در مجاورت شما بوده است مورد مقایسه قرار می دهد. به طور مثال، کلمات شما از چه حرفهایی تشکیل شده است؟ (در همان زمان، گفتار شما با یک نسخه استاندارد مقایسه می شود.) در هر دو حالت، ضریب موفقیت بالا است.
بر اساس این نظریه گفتار شما در قالب مجموعهای از حروف صدادار و صامت شناخته و سپس از طریق یک مدل زبانی کلمات موجود در گفتار شما تخمین زده می شود.
در ادامه، کامپیوتر فهرستی از کاندیداهای مفسر را برای تفسیر مجموعه لغاتی که در گفتار شما وجود داشته است، مورد استفاده قرار می دهد. اگر ترجمه لغات به طور دقیق انجام شده باشد، کامپیوتر تشخیص می دهد، شما در نظر دارید یک پیام کوتاه را به اریک اولسن که اطلاعات او در فهرست مخاطبان شما قرار دارد ارسال کنید و پیام شما به طور معجزهآسایی روی صفحه به نمایش درمی آید، بدون آنکه به استفاده از دست خود نیاز داشته باشید. اگر گفتار شما بیش از اندازه مبهم باشد و فرآیند پردازش طولانی و پیچیده شود، کامپیوتر تسلیم می شود و به شما اعلام می کند که معنای گفتار شما Eric Olssen بوده یا Eric Schmidt.
مکانیسمهای تشخیص صدا در طی این سالها پیشرفت قابل توجهی داشتهاند و زمانی که دکمه را فشار دهید و شروع به صحبت کنید، در بیشتر موارد قادر به تشخیص کلمات واردشده هستند.
مردم از سیری چگونه استفاده می کنند؟
بر اساس نظرسنجیهای به عمل آمده، بخش عمدهای از کاربران سیری از این دستیار شخصی برای انجام وظایف پایه شبیه به برقراری تماس، جست و جوی اطلاعات یا پیام کوتاه استفاده می کنند.تعداد کمی از کاربران برای تنظیم قرار ملاقات و انجام وظایف پیچیدهتر از آن استفاده می کنند. اما اگر از سیری برای انجام وظایف دیگر استفاده شود، آنگاه مشاهده خواهید کرد بهرهوری شما تا چه میزان افزایش پیدا می کند. هرچند دستیار شخصی برای انجام کارهای حرفهای طراحی شده است، اما می توانید از او پرسشهای عجیب و غریبی نیز بپرسید. به طور مثال، اگر از سیری بپرسید زندگی چه معنایی می دهد، پاسخهای زیر را دریافت خواهید کرد:
"I don't know. But I think there's an app for that ..."
"All evidence to date suggests it's chocolate. "
یا اگر به او بگویید عاشقش هستید، به شما خواهد گفت:
"That's nice. Can we get back to work now? "
"All you need is love. And yor iphone. "
"I hope you don't say that to all the other phones. "
منابع تحقیق:
- http://www.patentlyapple.com/patently-apple/2014/12/apple-granted-32-patents-today-covering-advanced-siri-capablities-iphone-free-fall-protection-idevice-design-wins.html
- http://en.wikipedia.org/wiki/knowlege_Navigator
- http://appledailyreport.com/apple-wins-patent-personalized-vocabulary-siri/
- http://appledailyreport.com/apple-wants-to-allow-you-to-add-a-personalized-vocabulary-to-siri
- http://www.patentlyapple.com/patently-apple/2012/01/apple-introduces-us-to-siri-the-killer-patent.html
- http://www.electronics.howstuffworks.com/gadgets/high-thech-gadgets/siri6.htm
- http://www.zdnet.com/article/how-apples-siri-realy-works
منبع مقاله : ماهنامه شبکه، شمارهی 173.
/ج