با این حال به همان اندازه که به نظر میرسد بسیار عجیب است، بسیاری از این سیستمهای هوش مصنوعی صرفاً گزینههای ما را با یک بانک اطلاعاتی ساختار یافته از گزینههای مشابه مقایسه میکنند. به عنوان مثال، Netflix AI میتواند با ارجاع متقابل به فیلمهایی با برچسب مشابه، ترجیح ما را برای حالت فیلم به دست آورد. اما بدون آن برچسبها، به الگوریتمهای یاد گیری عمیق و کتابخانهای از تصاویر مربوطه نیاز دارد تا این حالت را تشخیص دهد.
عموماً تعریف شده به عنوان زیر مجموعه یادگیری ماشین (که خود زیر مجموعهای از هوش مصنوعی است)، یادگیری عمیق از شبکههای عصبی و الگوریتمهایی استفاده میکند که ماشینها را قادر میسازد تا بدون برنامه ریزی صریح برای انجام یک کار خاص، یاد بگیرند. علاوه بر تصاویر، چنین دادههایی میتوانند شامل فایلهای صوتی، اسناد تجاری یا مدلهای هوا شناسی باشند.
در قلمرو مصرف کننده، اکثر برنامههای یادگیری عمیق تا تصویر سازی مربوطند به شناخت و طبقه بندی، و دامنهای از برنامههای هوشمند سبکسرانه (به عنوان مثال Not Hotdog)، تا سیستمهای قدرتمندی را شامل میشوند که به فیس بوک امکان میدهد به طور خودکار تصاویر خزهای روی مبل شما را شناسایی کند، برای جستجو، ارجاع، و احتمالاً مکان یابی آگهی هدفمند آینده.
یادگیری عمیق همچنین به Vision AI API گوگل، توان میدهد که از کاتالوگ بومی این شرکت حاوی حدود 10،000 شیء قابل تشخیص بصری، برای انجام معادل یک جستجوی تصویر معکوس در سرتاسر وب، استفاده کند. علاوه بر لیست موضوعات موجود برای توصیف یک تصویر خاص در هر کجا که ظاهر شود، پلتفرم یادگیری عمیق گوگل میتواند برچسبهای تصویری جدید ایجاد کند، و به عنوان مثال، رویدادهای تصادفی در اخبار روزانه آشکار میشوند.
انقلاب هوش مصنوعی از اینجا آغاز می شود
در حالی که اکثر مصرف کنندگان تا زمانی که کار کند علاقهای به آنچه در جعبه سیاه یادگیری عمیق وجود دارد، ندارند، قابلیتهای نشان داده شده توسط Vision AI API گوگل پیامدهای روشنی برای صنعت دید ماشین دارد، که برای چندین دهه به رویکردهای ثابت مبتنی بر قاعده و تفسیر دادههای تصویری به عنوان قبول / رد اعتماد کرده است.در حالی که برنامه نویسی مبتنی بر قاعده در اندازه گیری و هم ترازی برتری دارد، ابزارهای یادگیری عمیق طبقه بندی دادههای تصویری را قادر می سازند تا معاینات پیچیده زیبایی را انجام دهند، مواد مختلف را تشخیص دهند، مونتاژ را تأیید کنند و به طور کلی با دادههای تصویر بدون ساختار سازگار شوند. این بدان معنا نیست که یادگیری عمیق روزی جایگزین بینایی ماشین سنتی خواهد شد بلکه تواناییهای آن را گسترش میدهد.
یادگیری عمیق یک راه حل آسان و قدرتمند در برنامههای کاربردی است که تشخیص آن با چشم انسان بسیار آسان است اما هنگام استفاده از رویکرد مبتنی بر قاعده دشوار است.
به عنوان مثال، راه حلهای یادگیری عمیق میتواند به سیستمهای بینایی کمک کند تا علفهای هرز را از محصولات موجود در تصویر تشخیص دهند و به کشاورزان کمک کنند تا اقدامات متقابل مناسب را تشخیص دهند. در حقیقت، تقریباً هرگونه کاربرد صنایع غذایی که شامل بازرسی از مواد طبیعی است می تواند از ابزارهای یاد گیری عمیق بهرهمند شود. مثلاً رویکرد مبتنی بر قاعده که برای اندازه گیری یا تجزیه و تحلیل لکه طراحی شده است، این مسئله را بسیار دشوار مییابد، اما چنین چالشهایی را میتوان با یاد گیری عمیق بسیار آسان حل کرد.
به عنوان زیر مجموعه یادگیری ماشین، فناوری یادگیری عمیق صرفاً دادههای تصویری را تفسیر نمیکند، بلکه به گسترش آن کمک میکند تا سیستمهای پردازش تصویر دقیقتر شوند. بر خلاف راه حلهای بینایی ماشین معمولی که برای تعریف و تأیید ویژگیهای هدف به یک توسعه دهنده متکی است، نرم افزار یادگیری عمیق، شبکههای عصبی را که مانند هوش انسانی است، آموزش میدهد تا بتوانند ویژگیها را در یک تصویر تشخیص دهند اما تغییرات را تحمل کنند. با گرفتن سیستم تصاویر جدید، این نرم افزار، اشیاء و ناهنجاریها را شناسایی کرده و دادههای جدید تصویر را به کلاسهای مناسب اختصاص میدهد.
اگر میخواهید یک شبکه عصبی را آموزش دهید و فقط 100 تصویر دارید در حالی که به 1000 تصویر نیاز دارید، میتوانید این موارد را به صورت مصنوعی تولید کنید. این نوعی افزایش داده است.
بلند کردن درب
یادگیری عمیق بدون چالشهای آن وجود ندارد. تدوین کتابخانههای تصویر و آموزش شبکههای عصبی میتواند به اندازه برنامه نویسی یک سیستم بینایی ماشین برای برنامههای کاربردی مانند تشخیص شیء یا تقسیم بندی، بسیار کارآمد باشد. در پاسخ، ارائه دهندگان بینایی ماشین مانند MVTec و Cognex در حال ایجاد رابطهای آسانتر و ابزارهای خواندن از پیش آماده شده هستند که به ساده سازی کتابخانه تصویر مورد نیاز برای استقرار ابزارهای یادگیری عمیق کمک میکنند.چالش دیگر این است که مهندسین بینایی ماشین و کاربران نهایی معمولاً نسبت به مصرف کنندگان نادیده گرفتن آنچه که در جعبه سیاه وجود دارد را راحت نمیگیرند: اگر سیستم را آموزش دهید و به نتایج خوبی برسید، اشکالی ندارد و همه چیز خوب است. در حالی که برنامه نویسی مبتنی بر قاعده در اندازه گیری و هم ترازی برتری دارد، ابزارهای یادگیری عمیق طبقه بندی دادههای تصویری را قادر می سازند تا معاینات پیچیده زیبایی را انجام دهند، مواد مختلف را تشخیص دهند، مونتاژ را تأیید کنند و به طور کلی با دادههای تصویر بدون ساختار سازگار شوند. اما اگر نتایج آن اشتباه باشد، توضیح دادن دلیل دشوار است، و پذیرفتن این در بعضی از صنایع بسیار سخت است. بنابراین، ما باید یک جعبه خاکستری از جعبه سیاه درست کنیم تا بازخورد بهتری به این مشتریان داده شود و سعی کنیم آنچه را که در داخل اتفاق افتاده است توضیح دهیم.
همچنین در این جا، تحقیقات گوگل ممکن است بینشی ارائه دهد. این شرکت به تازگی با OpenAI همکاری کرده است تا ببیند AI چگونه – یا در واقع چه – میبیند هنگامی که جهان را از طریق سیستم بینایی ماشین مشاهده میکند. با بیشترین استفاده از آنچه آنها "اطلس فعال سازی" مینامند، چگونگی فعال سازی الگوریتمهای فردی با هم را تغییر میدهند تا اشکال، رنگها و الگوهای انتزاعی را به تصاویر قابل تشخیص تبدیل کنند. با بلند کردن کارآمد درب جعبه سیاه که در آن الگوریتمهای دادههای بصری نتیجه گیری میکنند، هدف از این تحقیق، حمایت از توسعه الگوریتمهای قویتر است. چنین بینشی میتواند در برنامههای بینایی ماشین برای یاد گیری عمیق مفید باشد، که یک استاندارد بسیار بالاتر برای اعتبار سنجی تصاویر است.
منبع: دن مک کارتی - AIA