چالش ساخت دستیاران مجازی و صوتی هوش مصنوعی به صورت انسان

واداشتن این که دستیارهای مجازی به صورت انسان به نظر برسند چالشی برای طراحان محسوب می شود. آیا صحبت با دستیاران صوتی هوش مصنوعی مکالمات انسانی ما را دو باره مهندسی می کند؟

يکشنبه، 6 تير 1400

تخمین زمان مطالعه:

مترجم : علی رضایی میرقائد

موارد بیشتر برای شما

تصویر: چالش برانگیز است که دستیاران مجازی را واداریم که طبیعی و محاوره ای به نظر برسند؟ (Shutterstock)

صحنه ای در فیلم مرد آهنی در سال 2008 وجود دارد که نمایی از تعاملات آینده بین دستیاران هوش مصنوعی و انسانی را ارائه می دهد. در آنJ.A.R.V.I.S. ، دستیار مجازیِ تونی استارک، با طعنه و شوخ طبعی به دستورات استارک پاسخ می دهد.

دستیارهای صوتی معاصر مانند سیری و الکسا هنوز چنین گفتگوهای اجتماعی طبیعی و ظریفی را ارائه نمی دهند. به همین منظور، تیم محققان علوم کامپیوتر ما در دانشگاه بریتیش کلمبیا به بررسی مواردی پرداختند که ممکن است در حال از دست رفتن باشند.
بات چت ها، سافت بات ها و دستیارهای شخصی مجازی در حال تبدیل شدن به جزئی جدایی ناپذیر از زندگی روزمره ما هستند.ما دریافتیم که طراحان رابط صوتی با یک معضل جالب رو به رو هستند: تنش بین ارائه مکالمه اجتماعی و انجام کارها.

دوستانه یا کارآمد؟

زبان شناسان مکالمات انسانی را به دو دسته طبقه بندی می کنند: مکالمه اجتماعی مانند سلام و احوال پرسی و شوخ طبعی و گفتگوی کوچک برای بیان روابط اجتماعی و نگرش های شخصی، و "گفتگوی معامله ای" که اطلاعات واقعی یا گزاره ای را انتقال می دهد.

افراد انسانی می توانند بدون زحمت این دو نوع مکالمه را به روشی طبیعی با هم ترکیب کنند. با این حال، این ترکیب جادویی تا حدودی ناخودآگاه انجام می شود. طراحان صدا اغلب موفق به یافتن ترکیب ایده آل نمی شوند زیرا این دو نوع مکالمه مکمل یکدیگر هستند اما در تضاد نیز هستند.

این مشکل وقتی آشکار می شود که طراحان، دستیارانی صوتی ایجاد می کنند تا به کاربران در انجام وظایفی مانند بررسی آب و هوا یا رزرو رستوران کمک کنند. طراحان سعی می کنند گفتگوهای عوامل صوتی خود را با آداب اجتماعی مانند پاسخ های دلسوزانه یا چت - چت برای افزایش طبیعی بودن غنی سازی کنند.
آیا می توان روباتی را ساخت که بتوان آن را با انسان اشتباه گرفت؟مطالعه ما همچنین نشان داد که طراحان در یافتن یک مصالحه مناسب بین طراحی یک دستیار مؤثر در مقابل یک همراه خوش برخورد با چالش هایی رو به رو می شوند. یکی از شرکت کنندگان تأکید کرد که هر چه شخصیت اضافه شود، دیالوگ طولانی تر می شود و منجر به صدا پیشگی بیش از حد یا تعدد عوامل صدا و روباتیک می شود.

تصویر: یک خانم با تلفن هوشمند صحبت می کند. افزودن دوستی به دستیاران مجازی ممکن است بر روی تبادل صدای انسان و هوش مصنوعی تأثیر بگذارد (Shutterstock).

حمایت راهنمای ابزار و طرح برای طراحان صدا می تواند در حل این مشکل مفید باشد. یک ابزار مناسب اسکریپت نویسی برای طراحی گفتگوی دستیار صوتی باید به طراحان کمک کند تا تعادل را حفظ کنند. به عنوان مثال، یک ابزار نوشتن و گفتگوی پیشرفته ممکن است به طراحان پیشنهاد نماید که سخنان دوستانه ای را به متن اضافه کنند یا در صورت طولانی بودن گفتگوی اجتماعی، اخطار نیز بدهد.
تعامل با روبات ها "می تواند به معنای ضعف بنیه عضلات اجتماعی ما باشد".همچنین، دستور العمل های طراحی لازم است دستورالعمل هایی تجویزی در مورد چگونگی ترکیب این دو نوع مکالمه برای موقعیت های مختلف را ارائه دهند. به عنوان مثال، دستیارهای صوتی فقط باید زمانی از کنایه های شوخ طبعانه استفاده کنند که معلوم شود که تُن صدای کاربر خوب است.

جمع آوری احساساتمان

برای ارائه تجارب مکالمه طبیعی با عوامل صوتی، غول های فناوری مانند اپل، آمازون و گوگل باید اطلاعات زیادی در مورد زمینه مکالمه کاربران مانند مکان آنها، کارهایی که انجام می دهند، آن چه می خواهند و حتی احساسات آنها را جمع آوری کنند. در واقع، دانشمندان آمازون در تلاشند احساسات ما را بر اساس گفته های ما درک کنند.

با گوش دادن به مکالمات، شرکت ها می توانند چیزهای زیادی در مورد سلامتی، امور مالی و زندگی اجتماعی کاربران بیاموزند. آیا کاربران حاضرند اطلاعات گسترده ای را در اختیار این غول های فناوری در خدمت تجارب مکالمه طبیعی تر با عوامل صوتی قرار دهند؟ چه چیزی برای آینده ای اخلاقی و مطلوب تر با عوامل صدا نیاز است؟

از طریق مکالمه های طبیعی با دستیارهای صوتی، ما به راحتی قادر به باز کردن قفل فناوری های پیشرفته هوش مصنوعی هستیم بدون این که فرآیند یاد گیری خسته کننده ای، که معمولاً با رابط های کاربری گرافیکی تجربه می شود، وجود داشته باشد. پیشرفت های اخیر فناوری مانند توسعه مدل های تولید زبانی تقریباً در سطح انسانی و ترکیب گفتار، ظهور عوامل صوتی واقعاً طبیعی را نوید می دهد.
یک ماشین به سادگی اطلاعات لازم را برای ایجاد پاسخ مناسب استخراج می کند.ایجاد تعادل بین یک دستیار نیک اندیش و یک هم سخن دوستانه قابل حصول است، اما برای تولید پشتیبانی ابزاری برای طراحان رابط صوتی که به طور قابل ملاحظه ای بهتر باشد، به تحقیقات بیشتری نیاز خواهد بود و لازم است کاربران اطلاعات خود را به اشتراک گذارند.

تصویر: وقتی با چت بات صحبت می کنیم نیازی نیست که با همان تلاش سعی کنیم گفتگو را مؤدب یا جالب کنیم. اندی کلی / Unsplash

وقتی گم شوید، سیری می تواند بهترین دوست شما باشد. اما اگر او نتواند آدرس مناسب را از مخاطبین شما بازیابی کند، این می تواند شما را دیوانه کند.

و همین طور است وقتی که لژیون دستیارهای شخصی مجازی وارد زندگی ما می شوند. از الکسای آمازون تا هوم گوگل، مردم مشغول صحبت با ماشین های هوشمند هستند، چیزی که قبلاً سابقه نداشته است.

تخمین زده شده است که اکنون بیش از 60٪ از ترافیک اینترنت توسط ارتباطات ماشین با ماشین و شخص با ماشین ایجاد می شود. شرکت مشاور فناوری اطلاعات گارتنر پیش بینی کرده بود که تا سال 2020 افراد معمولی بیشتر از شریک زندگی خود با روبات مکالمه می کنند. (بعضی اوقات ما حتی نمی دانیم که این کار را انجام می دهیم.)
همان طور که پیام کوتاه ارتباط نوشتاری را تغییر می دهد، روبات های مکالمه نیز می توانند نحوه ارتباط ما با یکدیگر را تغییر دهند.و دقیقاً همان طور که پیام کوتاه ارتباط نوشتاری را تغییر می دهد، روبات های مکالمه نیز می توانند نحوه ارتباط ما با یکدیگر را تغییر دهند.

صحبت، امری اجتماعی است

Diedre Boden، جامعه شناس فقید نوشت که جامعه پذیری انسان از طریق "صحبت کردن، صحبت کردن، صحبت کردن و صحبت کردن بیشتر" ایجاد می شود.

گفتگوی شخص با شخص نه تنها نحوه ای از تبادل اطلاعات است، بلکه همچنین نحوه ای از انجام بسیاری از کارها مانند سفارش پیتزا، رزرو بلیط هواپیما و تأیید ملاقات هاست. و این وظایف است که ما به طور فزاینده ای برای آنها با روبات ها مقاطعه کاری می کنیم.

وقتی ارتباط رو در رو برقرار می کنیم، انتظار توجه متقابل وجود دارد، اما اگر بخواهیم بیشتر مکالمات خود را با غیر انسان داشته باشیم، این هنجارها کاملاً از بین می روند.

برخلاف گفتگوی رو در رو، چت بات ها نیازی به تلاش ما برای مؤدبانه یا جالب ماندن گفتگو ندارند. نیازی نیست که جذاب، سرگرم کننده یا مدعی باهوش بودن خود باشیم.

روبات ها نیازی به دوست داشتن ما ندارند، حتی اگر ما نیاز به پسندیده شدن داشته باشیم. در حقیقت، این امر به طرز وحشیانه ای مسائل را پیچیده می کند. یک ماشین به سادگی اطلاعات لازم را برای ایجاد پاسخ مناسب استخراج می کند.
بیش از 60٪ از ترافیک اینترنت توسط ارتباطات ماشین با ماشین و شخص با ماشین ایجاد می شود.این امکان وجود دارد که در تمام اوقات با ماشین ها صحبت کردن بتواند روش گفتگوهای ما را دو باره مهندسی کند. در آخر می توانیم به شکل معادل زبانی شکلک درآییم. همان طور که اخیراً مقاله ای در نیویورک تایمز بیان کرد، تعامل با روبات ها "می تواند به معنای ضعف بنیه عضلات اجتماعی ما باشد". اگر آنها فقط ماشین هستند، چرا در مورد دلپذیر بودن آنها به زحمت بیافتیم؟

تحقیقات علمی در این باره هنوز نامشخص است. برخی مطالعات نشان داده است که مردم واقعاً می توانند در برابر روبات ها صمیمی باشند، در حالی که تحقیقات دیگر نشان می دهد که ما می توانیم بی ادب و غیر اجتماعی باشیم وقتی بدانیم شریک گفتگوی ما انسان نیست. ما می توانیم به اربابی کردن بر چیزهای مختلف عادت کنیم و این رفتار می تواند در زندگی روزمره خون به پا کند.

یادآوری طرز رفتارمان

شرکت های فناوری در حال حاضر سعی در رفع این مشکل دارند. آمازون پس از ابراز نگرانی از سوی والدین، حالت ادب را برای دستگاه های Echo خود ایجاد کرد که به آرامی به کاربران خود یاد آوری می کند که "لطفا".

و برخی از روبات های چت در حال توسعه هستند که حتی از این نیز جلوترمی روند و احساسات انسانی را تقلید کنند. به عنوان مثال، آلیسون دارسی، روان شناس بالینی، برای کمک به افراد مبتلا به افسردگی و اضطراب، یک روبات سخنگو ساخت. Woebot با نام لذتبخشش در اولین هفته استقرار خود با 50،000 نفر صحبت کرد - بیش از آن چه یک روان شناس انسانی در طول زندگی خود می تواند با افراد صحبت کند.

در تحقیقی که روی 70 جوان انجام شد، دارسی دریافت که پس از دو هفته تعامل با روبات، افراد مورد آزمایش شیوع افسردگی و اضطراب کمتری داشتند. آنها از توجه نرم افزار تحت تأثیر قرار گرفته و حتی احساساتی شدند.

یکی از افراد به تیم دارسی گفت:

ووبوت احساسی شبیه یک فرد واقعی که نگرانی نشان می دهد داشت.
با گوش دادن به مکالمات، شرکت ها می توانند چیزهای زیادی در مورد سلامتی، امور مالی و زندگی اجتماعی کاربران بیاموزند.

اشکالات و سوء تفاهم ها

در سال 1950، دانشمند آلن تورینگ آزمایشی را طراحی کرد تا به یکی از ماندگارترین سؤالات علمی پاسخ دهد: آیا می توان روباتی را ساخت که بتوان آن را با انسان اشتباه گرفت؟

تا به امروز، پاسخ، بیشتر منفی بوده است.

دلیل این امر این است که دستگاه های هوش مصنوعی با استفاده از یک پایگاه داده عظیم کد، گفته های منثور و مکالمه شبکه به گفتار پاسخ می دهند. بنابراین آنها به ندرت می توانند به تغییرات غیر منتظره در گفتگوهای انسانی و پیچیدگی بی نظیر آنها پاسخ دهند، مگر صرفاً به روش های جزئی.

برایان کریستین، نویسنده دو کتاب در مورد هوش مصنوعی، در باره چنین صحبت های ماشینی چنین می گوید:

«آن چه به دست می آورید، همهمه شدن صدها هزار مکالمه قبلی، و نوعی پوره مکالمه است. ساخته شده از قطعات انسانی است، اما کمتر از یک مجموع انسانی است.»
یک ابزار نوشتن و گفتگوی پیشرفته ممکن است به طراحان پیشنهاد نماید که سخنان دوستانه ای را به متن اضافه کنند یا در صورت طولانی بودن گفتگوی اجتماعی، اخطار نیز بدهد.در این مرحله، هنگامی که مشکلی پیش می آید یا اشکالی فنی وجود دارد، می توانیم به بهترین وجه نگاهی به تفاوت بین گفتگوی روزمره و مکالمه اتوماتیک دستگاه بیندازیم.

به عنوان مثال گزارش یک خانواده در پورتلند اورگان را در نظر بگیرید که در آن آمازون الکسا گفتگوی انسانی پس زمینه را در خانه خانواده به عنوان پاسخ سؤالات خود تفسیر کرد. بعداً الکسا ضبط مکالمه را برای شخصی در لیست مخاطبین آنها ارسال کرد، درست آن گونه که (فکر می کرد) از او خواسته شده که چنین کند.

هوش مصنوعی در اطراف ماست

حتی اگر چه ممکن است کمتر مکالمه انسانی داشته باشیم، اما از اهمیت مکالمات انسانی به این زودی ها کاسته نخواهد شد.
زبان شناسان مکالمات انسانی را به دو دسته طبقه بندی می کنند.با این وجود، همه گیر بودن گوشی هوشمند اساساً دنیای اجتماعی ما را روان کرده است، که تقریباً همیشه شامل سطحی از تعامل دیجیتال با دیگران خارج از زمینه اجتماعی فوری است. این یک ترکیب پیچیده و متناقض از حضور در کنار دیگران است، حتی زمانی که آنها از نظر جسمی آنجا نیستند.

هوش مصنوعی مربوط به آینده نیست - زندگی ما تاکنون در آن اشباع شده است. بات چت ها، سافت بات ها و دستیارهای شخصی مجازی در حال تبدیل شدن به جزئی جدایی ناپذیر از زندگی روزمره ما هستند، حتی اگر همیشه از نقش آنها آگاهی نداشته باشیم.

اگر گفتگو با چت بات ها و دستیاران شخصی مجازی امری عادی شده است، باید از راه هایی که آنها می توانند نحوه گفتگوی ما انسان ها با یکدیگر را تغییر دهند و همچنین از نحوه ارتباط ما با خودمان آگاه باشیم.
طراحان سعی می کنند گفتگوهای عوامل صوتی خود را با آداب اجتماعی مانند پاسخ های دلسوزانه یا چت - چت برای افزایش طبیعی بودن غنی سازی کنند.یک چیز قطعی است و آن این که هوش مصنوعی تأثیر عمیقی بر معنای انسان بودن دارد.

کتاب جدید پروفسور الیوت، فرهنگ هوش مصنوعی: زندگی روزمره و انقلاب دیجیتالی (The Culture of AI: Everyday Life and the Digital Revolution) ، توسط انتشارات روتلج منتشر شده است.

منبع: دونگ ووک یون، جوانا مک گرینره، University of British Columbia، آنتونی الیوت، University of South Australia، جولی هِر، The University of Melbourne