یادگیری وسیله ای، روشی برای برآورد اثرات محرکهای محیطی بر رفتار فرد

در حالی که شرطی سازی کلاسیک با کشف قانونمندی های موجود در محیط سر و کار دارد، یادگیری وسیله ای به تأثیر پاسخ های حیوان بر روی محیط می پردازد.

نویسندگان: یان کریستنسن، هاگ واگنر و سباستین هالیدی
مترجمان: ابوالقاسم بشیری، جمشید مطهری و رحیم میردریکوندی

نکات کلیدی

یادگیری وسیله ای:

قانون اثر:

قانون اثر بیان می دارد آن پاسخ هایی که پیامدهای مثبتی به دنبال دارند، احتمال بروز آن ها در آینده بیشتر است. این قانون، ساز و کار ساده ای را برای یادگیری مبتنی بر کوشش و خطا فراهم می کند.

پاداش و تقویت:

تقویت مثبت، (1) مشتمل بر ارائه پاداش یا حذف یک محرک آزارنده است. تقویت منفی (2) شامل حذف یک پاداش یا ارائه محرکی آزارنده (3) می باشد. محرک هایی که به طور دایم با تقویت کننده ی اولیه همراهند، به صورت تقویت کننده های شرطی در می آیند و خودشان قادرند رفتار را تقویت کنند.

برنامه های تقویت:

رفتار وسیله ای، تنها در صورتی باقی می ماند که نسبتی (درصدی) از پاسخ ها تقویت شوند، و خاموشی به دنبال چنین آموزشی ممکن است دیرتر از آن جایی که به دنبال تقویت پیوسته است، اتفاق بیفتد. چهار نوع برنامه ی تقویت وجود دارد که مشهورترین آن ها برنامه چهارم است. این برنامه ها عبارتند از: 1. تقویت نسبی ثابت؛ 2. تقویت فاصله ای ثابت؛ 3. تقویت نسبی متغیر و 4. تقویت فاصله ای متغیر. رفتار وسیله ای را می توان به وسیله فرآیند تقویت گزینشی شکل داد؛ بدین صورت پاسخ های جدیدی را ایجاد کرد. همچنین حیوانات می توانند یاد بگیرند که به محرک های مختلف، پاسخ های وسیله ای متفاوتی ارائه دهند.

تنبیه، گریز، و اجتناب:

پاسخ ها ممکن است به وسیله ی یک تقویت کننده منفی مثل شوک الکتریکی که به دنبال آن ها می آید، تنبیه شوند. و یا این که می توان به حیوانات آموزش داد که از تقویت کننده های منفی فرار یا اجتناب کنند. رفتار اجتنابی نسبت به خاموشی بسیار مقاوم است؛ رفتار اجتنابی ممکن است الگویی برای هراس های انسانی فراهم کند.

یادگیری وسیله ای

یادگیری تداعی با این مسأله که چه چیزی در محیط منجر به چه چیزی می شود، سر و کار دارد. با وجود این، برای این که حیوان برخورد مؤثری با محیط داشته باشد، نیازمند تأثیرگذاری بر روی محیط است. شیوه ای که حیوان می آموزد که بر محیط تأثیر بگذارد «یادگیری وسیله ای» (4) نامیده می شود. وقتی سگی را به منظور درخواست غذا آموزش می دهند، چنین آموزشی، یادگیری وسیله ای را نشان می دهد. ویژگی اصلی چنین یادگیری ای، این است که نتیجه، به رفتار حیوان وابسته است. اگر حیوان درخواست غذا کند، به غذا خواهد رسید و سیر خواهد شد؛ ولی اگر درخواستی در کار نباشد، غذایی هم در کار نخواهد بود.
برخلاف آن، در شرطی سازی کلاسیک حیوان یاد می گیرد که بین محرک های شرطی و غیر شرطی (UCS و CS) یعنی دو رویداد محیطی، پیوند برقرار کند. در این جا، محرک غیر شرطی ارائه می شود، اعم از این که حیوان پاسخ شرطی بدهد یا نه.

قانون اثر

ثرندایک (5) یادگیری وسیله ای را در حدود صد سال پیش در امریکا، برای اولین بار به صورت منظم و سازمان یافته مورد مطالعه قرار داد. ثرندایک برای تبیین یادگیری وسیله ای، «قانون اثر» (6) را مطرح کرد. این قانون بیان می کند آن پاسخ هایی که به دنبال آن ها حالت های خوشایندی رخ دهد، احتمال وقوعشان بیشتر از پاسخ هایی است که این چنین نیستند. حیوان در یک موقعیت ناشناخته، در آغاز پاسخ های زیادی از خود بروز می دهد که برخی از این پاسخ ها مبتنی بر بازتاب های فطری و بعضی دیگر مبتنی بر یادگیری های قبلی هستند. سرانجام، اگر یکی از این پاسخ ها به حالت خوشایندی منجر شود، احتمال وقوع آن رفتار در آینده بیشتر خواهد بود. در این شیوه، تجربه تضمین می کند که این پاسخ مؤثر آن قدر تقویت شود تا این که در خزانه ی رفتاری حیوان به صورت پاسخی غالب درآید. این امر سبب می شود یک روند مکانیکی صرف در حیوان پدید آید که یادگیری وسیله ای را تبیین می کند. شباهت این نوع یادگیری با مسأله انتخاب طبیعی که داروین مطرح کرده، به وضوح روشن است.
ثرندایک رفتار گربه های گرسنه ای را که در حال بیرون پریدن از دستگاه نسبتاً پیچیده ای معروف به جعبه ی معما بودند، مورد مطالعه قرار داد. آزمایشگران بعدی با قرار دادن موش ها در مازها، موقعیت را راحت و ساده کردند و به مطالعه جنبه های گوناگون یادگیری وسیله ای پرداختند. ساده ترین نوع این ابزارها، جعبه ی اسکینر (7) (نام گذاری شده به نام مخترع آن بی. اف. اسکینر) است که اسکینر معمولاً در این جعبه موش یا کبوتری را قرار می داد تا با فشار آوردن به میله ای یا نوک زدن به دکمه ای غذا دریافت کند. اسکینر در این موقعیت کاملاً ساده توانست در مورد آنچه که او آن را رفتار عامل (8) (رفتار کنش گر) نامید، شماری از قانونمندی های قابل ملاحظه ای را تعیین کند.
یادگیری وسیله ای به پدیده های زیادی نظیر آنچه در شرطی سازی کلاسیک به دست آمد، منجر می شود. این یافته ها عبارتند از خاموشی، بهبود خود به خودی و تعمیم محرک.

پاداش و تقویت

غذا برای حیوان گرسنه و آب برای حیوان تشنه، نمونه هایی از محرک های رغبت زا و خوشایند (9) به شمار می روند. چنین محرک هایی، عموماً همان چیزهایی هستند که حیوان برای دستیابی به آن ها می کوشد. محرک هایی مانند شوک الکتریکی یا دیگر رویدادهای دردآور، محرک های آزارنده (10) می باشند که حیوان تلاش می کند از آن ها بپرهیزد. یک پاسخ، زمانی نقش تقویت مثبت (11) را پیدا می کند که به دنبال آن، محرکی خوشایند به حیوان ارائه شود یا محرک آزارنده ای حذف گردد و تقویت منفی (12) عبارت است از ارائه یک محرک آزارنده (ناخوشایند) یا حذف یک محرک خوشایند.
در شرطی سازی کلاسیک، وجود چنین تمایزاتی در انواع تقویت لازم نیست؛ زیرا محرک غیر شرطی (UCS) همواره وجود دارد؛ خواه حیوان پاسخ دهد خواه پاسخ ندهد. در واقع حیوان قانونمندی های موجود در محیط را فرا می گیرد، نه چگونگی تأثیر محیط را.
آب و غذا تقویت کننده های مثبت اولیه به حساب می آیند؛ ولی محرک هایی که به طور مرتب با این تقویت کننده های اولیه همراهند، خودشان به صورت تقویت کننده در می آیند، و به تقویت کننده های شرطی یا ثانویه (13) معروفند. در آزمایش های بسیار زیادی که با گونه های مختلف انجام گرفته، وجود تقویت کننده های شرطی به اثبات رسیده است، و در این آزمایش ها مشخص شده که تقویت کننده های شرطی به وسیله شرطی سازی کلاسیک پدید می آیند. پول و تأیید اجتماعی، نمونه هایی رایج از تقویت کننده های شرطی در زندگی انسان به شمار می روند.

برنامه های تقویت

اگر هر پاسخی (مثلاً هر بار فشار دادن اهرم در جعبه ی اسکینر) پاداش داده شود، حیوان در یک برنامه ی «تقویت پیوسته» (14) قرار دارد (CRF)؛ در حالی که اگر فقط بعضی از پاسخ ها پاداش داده شوند، تأثیر بیشتری دارد و رفتار بهتر تداوم پیدا می کند. به طور کلی معلوم شده است پاسخ های وسیله ای که به صورت نسبی پاداش دریافت می کنند، از پاسخ هایی که به طور پیوسته پاداش دریافت می کنند، در مقابل خاموشی مقاومترند. این در واقع همان اثر تقویت سهمی (15) است (PRE). شرطی سازی وسیله ای با شرطی سازی کلاسیک، کاملاً فرق می کند؛ زیرا در شرطی سازی کلاسیک ارائه متناوب محرک غیر شرطی (UCS) به تضعیف یادگیری و خاموشی سریع منجر می شود.
اسکینر چهار برنامه های عمده ی تقویت (16) را مورد مطالعه قرار داد:

• برنامه نسبی ثابت (17) (FR):

در این برنامه تنها پس از تعداد ثابتی از پاسخ ها، به حیوان پاداش داده می شود. هنگامی که حیوان کاملاً پاسخ دادن را متوقف می کند، این برنامه سبب به وجود آمدن مقدار بالایی از پاسخ دادن در زمان درنگ های پس تقویتی می شود. در این برنامه خاموشی نسبتاً سریع صورت می گیرد؛

• برنامه فاصله ای ثابت (18) (FI):

در این برنامه به اولین پاسخ پس از یک دوره ی ثابت زمانی، پاداش داده می شود. سرانجام، حیوان مدت زمان این فاصله را یاد می گیرد و فقط در پایان آن مدت پاسخ می دهد. در این برنامه نیز، خاموشی نسبتاً سریع اتفاق می افتد؛

• برنامه ی نسبی متغیر (19) (VR):

در این برنامه به طور متوسط پس از تعداد معینی از پاسخ ها (مثلاً 40 پاسخ (VR40)) به حیوان پاداش داده می شود؛ در هر صورت، پاسخ ویژه ای که تقویت خواهد شد، قابل پیش بینی نیست. این برنامه سبب افزایش مقدار پاسخ و مقاومت زیاد نسبت به خاموشی می شود؛

• برنامه ی فاصله ای متغیر (20) (VI):

در این برنامه (مثلاً هر 30 ثانیه یک بار (VI30)) تقویت صورت می گیرد: ولی احتمال دارد که این فاصله از چند ثانیه تا بیش از یک دقیقه تغییر کند. در این برنامه پاسخ ها تقریباً سریع بوده و از مقدار بالایی به صورت پایدار برخوردارند و نسبت به خاموشی نیز خیلی مقاومند.
دیگر پاسخ ها غیر از فشار دادن اهرم (کنش ها) نیز، تابع قوانین یادگیری مشابه هستند. برای مثال، ماشین های قمار بازی سکّه ای، بر اساس برنامه نسبی متغیر برنامه ریزی شده اند، و همین برنامه است که سبب افزایش و استمرار پاسخ در قمار بازان می شود. اسکینر ادعا کرد که هر پاسخی - هر چند پیچیده - بر اساس همین اصول اساسی شرطی سازی عامل قابل توجیه و تبیین است. این ادعای اسکینر - به ویژه در مورد رفتار پیچیده انسان مثل یادگیری زبان - بعید به نظر می رسد.

فرآیند شکل دهی (21)

شکل دهی، عبارت است از تقویت گزینشی آن دسته از رفتارهای موجود در خزانه حیوان که به پاسخ مطلوب نزدیک هستند؛ بنابراین اگر بخواهیم حرکت چرخشی را به کبوتری آموزش دهیم، اول باید همین که مقدار کمی (مثلاً ده درجه) به سمت راست چرخید. به او پاداش دهیم؛ به محض این که به طور منظم چرخش به این مقدار را یاد گرفت، معیار پاداش به بیست درجه افزایش پیدا می کند و این کار را آن قدر ادامه می دهیم تا زمانی که کبوتر دایره وار بچرخد. با این شیوه کبوتران یاد می گیرند پینگ پونگ بازی کنند یا موشک های هدایت شونده را هدایت کنند. فرآیند شکل دهی رفتار نشان می دهد که یادگیری وسیله ای، امکان بروز پاسخ های «جدید» را فراهم می سازد.
پاسخ های وسیله ای (نظیر پاسخ شرطی CR که به وسیله محرک شرطی CS ایجاد می شود) را محرک خارجی به طور مستقیم ایجاد نمی کند؛ بلکه حیوان پاسخ وسیله ای را به طور خود به خودی انجام می دهد؛ زیرا فرض بر آن است که محرک شرطی سبب فراخوانی پاسخ شرطی می شود؛ ولی پاسخ وسیله ای را خود حیوان صادر می کند. البته شرایط محیطی حیوان در ایجاد پاسخ ها نقش مؤثری دارد. رفتار گربه در جعبه ی معما یا رفتار موش در ماز با رفتار آن ها در خانه ها و قفس های طبیعی خودشان، کاملاً متفاوت است.
با استفاده از برنامه های شرطی سازی وسیله ای می توان به حیوان آموزش داد تا متناسب با موقعیت محرک، پاسخ های متفاوتی را از خودش بروز دهد. کبوتر در جعبه اسکینر، ممکن است به گونه ای تقویت شود که با روشن شدن نور سبز، به کلیدی نوک بزند؛ ولی با روشن شدن نور قرمز، چنین کاری را انجام ندهد. پس از این آموزش، کبوتر تنها در حضور کلید سبز پاسخ خواهد داد. این پاسخ تحت کنترل محرک (22) (23) قرار می گیرد.
طبق این شیوه، بسیاری از پاسخ های روزمره ما به همین صورت تحت کنترل محرک قرار می گیرند. رفتار خودتان را در تقاطع خیابان مدّ نظر قرار دهید. این رویکرد نسبت به یادگیری وسیله ای، به نظریه S-R (محرک - پاسخ) معروف شده است؛ زیرا این نظریه آن چیزی که یاد گرفته می شود را پیوندی مکانیکی و خودکار بین محرک و پاسخ فرض می کند.

تنبیه، گریز و اجتناب

اگر به دنبال یک پاسخ، محرکی آزارنده ارائه شود، احتمال وقوع آن پاسخ در آینده کمتر می شود. آموزش تنبیهی مشخص می کند که حیوان چه پاسخی را نباید انجام دهد؛ ولی تعیین نمی کند که چه پاسخی را باید محقق سازد. تنبیه (24) ممکن است در حذف رفتارهای نامطلوب مؤثر باشد؛ اما در آموزش رفتارهای مطلوب، جایگزین روش مفیدی نیست. کاربردهای تنبیه در زندگی روزمره، امری واضح و روشن است.
اگر به دنبال پاسخی که آزمودنی می دهد محرک آزارنده حذف شود، آن پاسخ به صورت مثبت تقویت می شود؛ این یادگیری «گریز» (25) نام دارد. برای مثال، به راحتی می توان به یک سگ آموزش داد برای فرار از شوک الکتریکی که به پای او وارد می شود، از روی یک مانع بپرد.
اگر پیامی هشدار دهنده (مثلاً صدای زنگ) را بر ارائه شوک مقدم کنند، سگ یاد می گیرد که در وقت به صدا درآمدن زنگ پاسخ دهد و از شوک اجتناب کند (شکل 1). در طول دوره ی آموزش گریز، صدای زنگ به طور مرتب با شوک همراه می شود و بنابراین به صورت یک محرک آزارنده ی شرطی درمی آید. این پاسخ اجتنابی سبب حذف صدای زنگ (و در نتیجه جلوگیری از شوک) می شود؛ حذف یک محرک آزارنده، بدون تردید تقویت کننده است، و به همین دلیل پاسخ اجتنابی به تدریج نیرومند می شود؛ حتی در غیاب شوک؛ ولی در صورتی که سگ به طور منظم از شوک اجتناب کند و صدای زنگ با شوک همراه نشود، صدای زنگ ویژگی آزارنده شرطی خودش را از دست می دهد و دیگر یک محرک شرطی آزارنده نیست. و بدین ترتیب صدای زنگ، دیگر موجب ادامه پاسخ اجتنابی نمی شود و به دلیل فقدان تقویت، رو به خاموشی می گذارد (موضوع یادگیری، شکل ص 19/110).

نمودار 1. یادگیری اجتنابی: شوک، ده ثانیه پس از پیام اخطار ایجاد می شود. پاسخ های با تأخیر بیشتر از ده ثانیه، پاسخ های گریزی هستند؛ پاسخ های با تأخیر کمتر از ده ثانیه، پاسخ های اجتنابی به شمار می آیند.
در واقع، پاسخ اجتنابی در برابر خاموشی زیاد مقاومت نشان می دهد؛ بنابراین سگ در مقابل بیش از صدها بار کوشش شوک، به رفتار اجتنابی ادامه خواهد داد. یادگیری اجتنابی را بر اساس «انتظارات» بهتر می توان تبیین کرد تا یادگیری محرک - پاسخ پس از پیام هشدار دهنده چنانچه سگ پاسخ اجتنابی ندهد، انتظار دارد که به او شوک وارد شود. مادامی که حیوان به این اجتناب ادامه دهد، انتظار او تضعیف نخواهد شد، و به همین دلیل رفتار اجتنابی برای مدت نامعلومی باقی می ماند؛ ولی اگر از پاسخ اجتنابی سگ جلوگیری شود و شوکی هم داده نشود، امکان دارد که پاسخ اجتنابی سریعاً خاموش گردد.
به نظر می رسد که هراس های انسانی، احتمالاً ناشی از یادگیری اجتنابی غیر انطباقی باشد؛ یعنی به محض این که فرد رفتار اجتنابی غیر انطباقی را یاد گرفت، چنین رفتارهایی برای همیشه باقی می مانند؛ زیرا فرد حاضر نیست هرگز خودش را در معرض موقعیت هولناک و ترس آور قرار دهد، و بنابراین هیچ گاه مجال خاموش کردن (زدودن) ترس را ندارد. برای درمان چنین هراس هایی، از دو نوع رفتار درمانی استفاده شده است: غرقه سازی (26) و حساسیت زدایی منظم. (27) در غرقه سازی بیمار را وادار می کنند تا در حضور یک محرک ترس آور بماند و این کا را آن قدر ادامه دهد تا جایی که ترس خاموش شود و از بین برود؛ روشن است که این شیوه ی بالقوه خطرناک است. نوع دیگر درمان، حساسیت زدایی منظم است که در آن محرک ترس آور به تدریج و به صورت بسیار آرام و ملایم به بیمار ارائه می شود تا زمانی که احساس کند که هیچ ترسی از آن محرک ندارد؛ این شیوه درمان با نمونه هایی از محرک های ترس آور که به تدریج شدیدتر می شود، تکرار می گردد و این روند آن قدر ادامه پیدا می کند تا جایی که بیمار با وجود محرک های ترس آور، هیچ ترسی تجربه نکند.

پی نوشت ها :

1. ارائه محرک مثبت (محرکی که چون در پی یک پاسخ بیاید، بر احتمال رویداد آن پاسخ بیفزاید) را تقویت مثبت (پاداش) گویند (به نقل از هلیگارد).
2. حذف محرک آزارنده (محرکی که چون به دنبال یک پاسخ حذف شود، بر احتمال رویداد آن پاسخ بیفزاید) را تقویت منفی گویند (همان منبع).
3. تنبیه، روشی است برای کاهش نیرومندی پاسخ از طریق ارائه نوعی محرک آزارنده به هنگام ظهور آن پاسخ. باید توجه داشت که چنین محرکی هر وقت ارائه شود، نقش تنبیه کننده را دارد و هر وقت حذف شود، در نقش تقویت کننده ی منفی عمل می کند؛ به این معنا که با همان رفتاری که تقویت می کند، خود حذف می شود (همان منبع). مؤلف در متن،‌تقویت منفی و تنبیه را به یک معنا گرفته؛ حال آن که تقویت منفی یعنی حذف محرک آزارنده و تنبیه، یعنی ارائه محرک آزارنده (مترجم).
4. instrumental learning.
5. Thorndike.
6. The law of Effect.
7. Skinner box.
8. operant behavior.
9. appetitive Stimuli.
10. aversive stimuli.
11. positive reinforcement.
12. negative reinforcement.
13. Secondary reinforcers.
14. continuous reinforcement.
15. Partial reinforcement effect.
16. schedules of reinforcement.
17. fixed ratio.
18. Fixed interval.
19. Varialde ratio.
20. Variable interval.
21. shaping.
22. کنترل محرک: اصطلاحی که به میزان تحت کنترل بودن رفتار به وسیله ی شرایط محرک محیطی اطلاق می شود (به نقل از پورافکاری).
23. stimulus control.
24. Punishment
25. escape.
26. flooding.
27. systematic desensitization.

منبع مقاله :
کریستنسن، یان و هاگ واگنر و سباستین هالیدی؛ (1385)، روان شناسی عمومی، گروه مترجمان، قم، مرکز انتشارات مؤسسه آموزشی و پژوهشی امام خمینی (رحمه الله)، چاپ اول

تازه های مقالات

ارسال نظر

نظرات کاربران