مصرف توان زیاد برای یادگیری ماشین های هوش مصنوعی

برای یاد گیری ماشین ها انرژی زیادی لازم است - در این جا دلیل این که چرا هوش مصنوعی این قدر توان مصرف می کند ارائه می شود.

شنبه، 6 دی 1399

تخمین زمان مطالعه: 9 دقیقه

مترجم : علی رضایی میرقائد

موارد بیشتر برای شما

تصوبر: مراکز داده ای مانند این مرکز Google در آیووا از مقدار زیادی برق استفاده می کنند. چاد دیویس / فلیکر ، CC BY-SA

در این ماه، گوگل یک محقق برجسته اخلاق هوش مصنوعی را به این دلیل اخراج کرد که او از این که شرکت او را مجبور به صرف نظر کردن از یک مقاله تحقیقاتی‌اش کرد ابراز نا امیدی کرد. این مقاله به خطرات هوش مصنوعی پردازش زبان، نوع استفاده شده در جستجوی Google و سایر محصولات تجزیه و تحلیل متن، اشاره می کرد.

از جمله خطرات، وجود رد پای بزرگ کربن در توسعه این نوع فناوری هوش مصنوعی است. طبق برخی از تخمین ها، آموزش یک مدل هوش مصنوعی به اندازه تولید و رانندگی پنج اتومبیل در طول عمر آنها تولید کربن می کند.
با ابداع روش های کار آمدتر آموزش، هزینه آموزش ممکن است کاهش یابد.من محققی هستم که مدل های هوش مصنوعی را مطالعه کرده و توسعه می دهم و کاملاً با هزینه های سرسام آور مصرف انرژی و مالی تحقیقات هوش مصنوعی آشنا هستم. چرا مدل های هوش مصنوعی این قدر گرسنه شده اند و تفاوت آنها با محاسبات سنتی مرکز داده چیست؟

آموزش امروز ناکارآمد است

کارهای سنتی پردازش داده که در مراکز داده انجام می شوند شامل پخش ویدئو، و کار با ایمیل و رسانه های اجتماعی است. هوش مصنوعی از نظر محاسباتی فشرده تر است زیرا باید اطلاعات زیادی را بخواند تا زمانی که یاد بگیرد آن را درک کند - یعنی آموزش ببیند.

این آموزش در مقایسه با نحوه یاد گیری افراد بسیار ناکارآمد است. هوش مصنوعی مدرن از شبکه های عصبی مصنوعی استفاده می کند، که محاسباتی ریاضی است که از سلول های عصبی در مغز انسان تقلید می کند. قدرت اتصال هر نورون به همسایه اش پارامتری از شبکه است که وزنه نام دارد. برای یاد گیری نحوه درک زبان، شبکه با وزنه های تصادفی شروع می کند و آنها را تنظیم می نماید تا زمانی که خروجی با جواب صحیح موافقت کند.

یک روش معمول برای آموزش شبکه زبان این است که متون زیادی را از وب سایت هایی مانند ویکی پدیا و خبرگزاری ها با برخی از کلمات نقاب دار به آن تغذیه کنید و از او بخواهید آن کلمات نقاب دار را حدس بزند. به عنوان مثال "گربه من ناز است" ، با کلمه "ناز" در حالی که پوشانده شده یا نقاب دار است. در ابتدا، مدل همه آنها را اشتباه می گیرد، اما پس از چندین بار تنظیم، وزنه اتصال شروع به تغییر می کند و الگوهای داده را می گیرد. شبکه در نهایت دقیق می شود.
تا زمانی که به منابع انرژی تجدید پذیر 100٪ نرسیم، پیشرفت هوش مصنوعی ممکن است با اهداف کاهش انتشارهای گلخانه ای و کاهش تغییرات آب و هوایی مغایرت داشته باشد.یک مدل اخیر به نام نمایندگی های رمز گذار دو طرفه از ترانسفورمرها یا Bidirectional Encoder Representations from Transformers (BERT) از 3.3 میلیارد کلمه از کتاب های انگلیسی و مقالات ویکی پدیا استفاده کرده است. به علاوه، در حین آموزش، BERT ، این مجموعه داده را نه یک بار، بلکه 40 بار خوانده است. برای مقایسه باید بگوییم یک کودک متوسط که یاد می گیرد صحبت کند ممکن است 45 میلیون کلمه را یک بار تا پنج سالگی بشنود ، 3000 برابر کمتر ازBERT.

جستجو برای پیدا کردن ساختار مناسب

آن چه ساخت مدل های زبانی را حتی بیشتر هزینه بر می کند این است که این فرایند آموزش در طول دوره توسعه بارها اتفاق می افتد. این بدان دلیل است که محققان می خواهند بهترین ساختار را برای شبکه پیدا کنند - چندین نورون، چندین ارتباط بین سلول های عصبی، سرعت تغییر پارامترها هنگام یاد گیری و غیره. هرچه ترکیبات بیشتری را امتحان کنند، احتمال دستیابی به دقت بالاتر در شبکه بیشتر خواهد بود. در مقابل، مغز انسان نیازی به یافتن یک ساختار بهینه ندارد - مغز دارای ساختاری از پیش ساخته شده است که توسط تکامل اصلاح شده است.

با رقابت شرکت ها و دانشگاهیان در فضای هوش مصنوعی، فشارها برای بهبود مطابق با آخرین پیشرفت های علمی در حال افزایش است. حتی دستیابی به 1٪ بهبود برای دقت در کارهای دشواری مانند ترجمه ماشینی قابل توجه تلقی می شود و منجر به تبلیغات خوب و محصولات بهتر می شود. اما برای دستیابی به این پیشرفتِ 1٪ ، یک محقق ممکن است هزاران بار یک مدل را آموزش دهد، هر بار با ساختاری متفاوت ، تا زمانی که بهترین مدل پیدا شود.

محققان دانشگاه ماساچوست آمهرست با اندازه گیری میزان مصرف انرژی سخت افزارهای رایج مورد استفاده در طول آموزش، هزینه مصرف انرژی تولید مدل های زبان هوش مصنوعی را تخمین زدند. آنها دریافتند که آموزش BERT یک بار دارای رد پای کربن مسافری بود که در یک سفر رفت و برگشت بین نیویورک و سانفرانسیسکو پرواز می کرد. با این حال، با جستجو با استفاده از ساختارهای مختلف - یعنی با آموزش چندین بار الگوریتم بر روی داده ها با تعداد کمی متفاوت از سلول های عصبی، اتصالات و سایر پارامترها - هزینه معادل سفر 315 مسافر یا کل جت 747 شد.

بزرگتر و گرمتر

مدل های هوش مصنوعی همچنین بسیار بزرگتر از نیاز هستند و هر ساله بزرگتر می شوند. مدل زبان جدیدتر شبیه BERT، GPT-2 نام دارد، و 1.5 میلیارد وزنه در شبکه دارد. GPT-3 که به دلیل دقت بالا امسال سر و صدایی ایجاد کرد، 175 میلیارد وزنه دارد.
داشتن شبکه های بزرگ تر به دقت بهتری منجر می شود، حتی اگر فقط قسمت کوچکی از شبکه در پایان مفید واقع شود.محققان کشف کردند که داشتن شبکه های بزرگ تر به دقت بهتری منجر می شود، حتی اگر فقط قسمت کوچکی از شبکه در پایان مفید واقع شود. چیزی مشابه این در مغز کودکان نیز اتفاق می افتد، اما مصرف انرژی در مغز بیولوژیکی بسیار کارآمدتر از مصرف انرژی در رایانه است.

مدل های هوش مصنوعی روی سخت افزارهای تخصصی مانند واحدهای پردازنده گرافیکی آموزش می بینند که انرژی بیشتری نسبت به پردازنده های مرکزی می گیرند. اگر شما یک لپ تاپ مخصوص بازی دارید، احتمالاً یکی از این واحدهای پردازنده گرافیکی را دارد که می تواند گرافیک پیشرفته ای برای مثال Minecraft RTX را ایجاد کند. همچنین ممکن است متوجه شوید که آنها گرمای بسیار بیشتری نسبت به لپ تاپ های معمولی تولید می کنند.
یک محقق ممکن است هزاران بار یک مدل را آموزش دهد، هر بار با ساختاری متفاوت ، تا زمانی که بهترین مدل پیدا شود.همه این ها بدان معنی است که با توسعه مدل های پیشرفته هوش مصنوعی یک رد پای کربن بزرگ اضافه می شود. تا زمانی که به منابع انرژی تجدید پذیر 100٪ نرسیم، پیشرفت هوش مصنوعی ممکن است با اهداف کاهش انتشارهای گلخانه ای و کاهش تغییرات آب و هوایی مغایرت داشته باشد. هزینه های مالی توسعه نیز به قدری بالا می رود که فقط چند آزمایشگاه منتخب توانایی انجام این کار را دارند و آنها کسانی هستند که دستور کار انواع مدل های هوش مصنوعی را تعیین می کنند.

کار بیشتر با مصرف کمتر

این برای آینده تحقیقات هوش مصنوعی به چه معناست؟ ممکن است اوضاع آن طور که به نظر می رسد تاریک نباشد. با ابداع روش های کار آمدتر آموزش، هزینه آموزش ممکن است کاهش یابد. به همین ترتیب، در حالی که پیش بینی می شد در سال های اخیر استفاده از انرژی مراکز داده انفجاری شود، این امر به دلیل بهبود کارآیی مراکز داده، و وجود سخت افزارهای کارآمدتر و خنک کننده ها اتفاق نیفتاده است.

همچنین بین هزینه آموزش مدل ها و هزینه استفاده از آنها معامله ای وجود دارد، و بنابراین صرف انرژی بیشتر در زمان آموزش برای ارائه مدل کوچکتر ممکن است استفاده از آنها را ارزان تر کند. از آن جا که یک مدل در طول عمر خود بارها مورد استفاده قرار خواهد گرفت، این می تواند صرفه جویی زیادی در انرژی داشته باشد.

در تحقیقات آزمایشگاهی من، ما در حال بررسی روش هایی برای کوچک کردن مدل های هوش مصنوعی با تقسیم وزنه ها یا استفاده از همان وزنه ها در چندین قسمت شبکه بوده ایم. ما به این روش ها، شبکه های تغیر دهنده شکل یا shapeshifter می گوییم زیرا مجموعه کوچکی از وزنه ها را می توان در یک شبکه بزرگتر از هر شکل و ساختاری پیکر بندی کرد. محققان دیگر نشان داده اند که تقسیم وزنه ها در همان زمان تمرین، عملکرد بهتری دارد.
آموزش یک مدل هوش مصنوعی به اندازه تولید و رانندگی پنج اتومبیل در طول عمر آنها تولید کربن می کند.با نگاه رو به جلو، جامعه هوش مصنوعی باید سرمایه گذاری بیشتری در توسعه برنامه های آموزشی با مصرف انرژی بالا داشته باشد. در غیر این صورت، هوش مصنوعی تحت سلطه تعداد معدودی که قادر به تعیین دستور کار، از جمله در مورد انواع مدل های توسعه یافته، انواع داده ها برای آموزش آنها و مدل های مورد استفاده، هستند قرار می گیرد.

منبع: کِیت سائنکو، Boston University