فقط در عرض 10 سال، هوش مصنوعی (AI) از یک کنجکاوی آزمایشگاهی به بخشی فزاینده - اگر نه همیشه قابل مشاهده - در زندگی روزمره ما تبدیل شده است. گر چه ممکن است بسیاری از ما سیستم‌های هوش مصنوعی که قدرت تعامل روزانه ما با تلفن‌های هوشمند، دستیاران صوتی، سایت‌های تجارت الکترونیکی یا سرویس‌های رسانه‌ای را افزایش می‌دهند، تشخیص ندهیم، اما این سیستم‌ها مطمئناً ما را تشخیص می‌دهند و با افزایش دقت می‌توانند ترجیحات ما را پیش بینی کنند.
 
با این حال به همان اندازه که به نظر می‌رسد بسیار عجیب است، بسیاری از این سیستم‌های هوش مصنوعی صرفاً گزینه‌های ما را با یک بانک اطلاعاتی ساختار یافته از گزینه‌های مشابه مقایسه می‌کنند. به عنوان مثال، Netflix AI  می‌تواند با ارجاع متقابل به فیلم‌هایی با برچسب مشابه، ترجیح ما را برای حالت فیلم به دست آورد. اما بدون آن برچسب‌ها، به الگوریتم‌های یاد گیری عمیق و کتابخانه‌ای از تصاویر مربوطه نیاز دارد تا این حالت را تشخیص دهد.
 
عموماً تعریف شده به عنوان زیر مجموعه یادگیری ماشین (که خود زیر مجموعه‌ای از هوش مصنوعی است)، یادگیری عمیق از شبکه‌های عصبی و الگوریتم‌هایی استفاده می‌کند که ماشین‌ها را قادر می‌سازد تا بدون برنامه ریزی صریح برای انجام یک کار خاص، یاد بگیرند. علاوه بر تصاویر، چنین داده‌هایی می‌توانند شامل فایل‌های صوتی، اسناد تجاری یا مدل‌های هوا شناسی باشند.
 
در قلمرو مصرف کننده، اکثر برنامه‌های یادگیری عمیق تا تصویر سازی مربوطند به شناخت و طبقه بندی، و دامنه‌ای از برنامه‌های هوشمند سبکسرانه (به عنوان مثال Not Hotdog)، تا سیستم‌های قدرتمندی را شامل می‌شوند که به فیس بوک امکان می‌دهد به طور خودکار تصاویر خزهای روی مبل شما را شناسایی کند، برای جستجو، ارجاع، و احتمالاً مکان یابی آگهی هدفمند آینده.
 
یادگیری عمیق همچنین به Vision AI API گوگل، توان می‌دهد که از کاتالوگ بومی این شرکت حاوی حدود 10،000 شیء قابل تشخیص بصری، برای انجام معادل یک جستجوی تصویر معکوس در سرتاسر وب، استفاده کند. علاوه بر لیست موضوعات موجود برای توصیف یک تصویر خاص در هر کجا که ظاهر شود، پلتفرم یادگیری عمیق گوگل می‌تواند برچسب‌های تصویری جدید ایجاد کند، و به عنوان مثال، رویدادهای تصادفی در اخبار روزانه آشکار می‌شوند.
 

انقلاب هوش مصنوعی از اینجا آغاز می شود

در حالی که اکثر مصرف کنندگان تا زمانی که کار کند علاقه‌ای به آنچه در جعبه سیاه یادگیری عمیق وجود دارد، ندارند، قابلیت‌های نشان داده شده توسط Vision AI API گوگل پیامدهای روشنی برای صنعت دید ماشین دارد، که برای چندین دهه به رویکردهای ثابت مبتنی بر قاعده و تفسیر داده‌های تصویری به عنوان قبول / رد اعتماد کرده است.
 
در حالی که برنامه نویسی مبتنی بر قاعده در اندازه گیری و هم ترازی برتری دارد، ابزارهای یادگیری عمیق طبقه بندی داده‌های تصویری را قادر می سازند تا معاینات پیچیده زیبایی را انجام دهند، مواد مختلف را تشخیص دهند، مونتاژ را تأیید کنند و به طور کلی با داده‌های تصویر بدون ساختار سازگار شوند. این بدان معنا نیست که یادگیری عمیق روزی جایگزین بینایی ماشین سنتی خواهد شد بلکه توانایی‌های آن را گسترش می‌دهد.
 
یادگیری عمیق یک راه حل آسان و قدرتمند در برنامه‌های کاربردی است که تشخیص آن با چشم انسان بسیار آسان است اما هنگام استفاده از رویکرد مبتنی بر قاعده دشوار است.
 
به عنوان مثال، راه حلهای یادگیری عمیق می‌تواند به سیستمهای بینایی کمک کند تا علفهای هرز را از محصولات موجود در تصویر تشخیص دهند و به کشاورزان کمک کنند تا اقدامات متقابل مناسب را تشخیص دهند. در حقیقت، تقریباً هرگونه کاربرد صنایع غذایی که شامل بازرسی از مواد طبیعی است می تواند از ابزارهای یاد گیری عمیق بهره‌مند شود. مثلاً رویکرد مبتنی بر قاعده که برای اندازه گیری یا تجزیه و تحلیل لکه طراحی شده است، این مسئله را بسیار دشوار می‌یابد، اما چنین چالش‌هایی را می‌توان با یاد گیری عمیق بسیار آسان حل کرد.
 
به عنوان زیر مجموعه یادگیری ماشین، فناوری یادگیری عمیق صرفاً داده‌های تصویری را تفسیر نمی‌کند، بلکه به گسترش آن کمک می‌کند تا سیستم‌های پردازش تصویر دقیق‌تر شوند. بر خلاف راه حل‌های بینایی ماشین معمولی که برای تعریف و تأیید ویژگی‌های هدف به یک توسعه دهنده متکی است، نرم افزار یادگیری عمیق، شبکه‌های عصبی را که مانند هوش انسانی است، آموزش می‌دهد تا بتوانند ویژگی‌ها را در یک تصویر تشخیص دهند اما تغییرات را تحمل کنند. با گرفتن سیستم تصاویر جدید، این نرم افزار، اشیاء و ناهنجاری‌ها را شناسایی کرده و داده‌های جدید تصویر را به کلاس‌های مناسب اختصاص می‌دهد.
 
اگر می‌خواهید یک شبکه عصبی را آموزش دهید و فقط 100 تصویر دارید در حالی که به 1000 تصویر نیاز دارید، می‌توانید این موارد را به صورت مصنوعی تولید کنید. این نوعی افزایش داده است.
 

بلند کردن درب

یادگیری عمیق بدون چالش‌های آن وجود ندارد. تدوین کتابخانه‌های تصویر و آموزش شبکه‌های عصبی می‌تواند به اندازه برنامه نویسی یک سیستم بینایی ماشین برای برنامه‌های کاربردی مانند تشخیص شیء یا تقسیم بندی، بسیار کارآمد باشد. در پاسخ، ارائه دهندگان بینایی ماشین مانند MVTec و Cognex در حال ایجاد رابط‌های آسان‌تر و ابزارهای خواندن از پیش آماده شده هستند که به ساده سازی کتابخانه تصویر مورد نیاز برای استقرار ابزارهای یادگیری عمیق کمک می‌کنند.
 
چالش دیگر این است که مهندسین بینایی ماشین و کاربران نهایی معمولاً نسبت به مصرف کنندگان نادیده گرفتن آنچه که در جعبه سیاه وجود دارد را راحت نمی‌گیرند: اگر سیستم را آموزش دهید و به نتایج خوبی برسید، اشکالی ندارد و همه چیز خوب است. در حالی که برنامه نویسی مبتنی بر قاعده در اندازه گیری و هم ترازی برتری دارد، ابزارهای یادگیری عمیق طبقه بندی داده‌های تصویری را قادر می سازند تا معاینات پیچیده زیبایی را انجام دهند، مواد مختلف را تشخیص دهند، مونتاژ را تأیید کنند و به طور کلی با داده‌های تصویر بدون ساختار سازگار شوند. اما اگر نتایج آن اشتباه باشد، توضیح دادن دلیل دشوار است، و پذیرفتن این در بعضی از صنایع بسیار سخت است. بنابراین، ما باید یک جعبه خاکستری از جعبه سیاه درست کنیم تا بازخورد بهتری به این مشتریان داده شود و سعی کنیم آنچه را که در داخل اتفاق افتاده است توضیح دهیم.
 
همچنین در این جا، تحقیقات گوگل ممکن است بینشی ارائه دهد. این شرکت به تازگی با OpenAI همکاری کرده است تا ببیند AI  چگونه – یا در واقع چه – می‌بیند هنگامی که جهان را از طریق سیستم بینایی ماشین مشاهده می‌کند. با بیشترین استفاده از آنچه آنها "اطلس فعال سازی" می‌نامند، چگونگی فعال سازی الگوریتم‌های فردی با هم را تغییر می‌دهند تا اشکال، رنگ‌ها و الگوهای انتزاعی را به تصاویر قابل تشخیص تبدیل کنند. با بلند کردن کارآمد درب جعبه سیاه که در آن الگوریتم‌های داده‌های بصری نتیجه گیری می‌کنند، هدف از این تحقیق، حمایت از توسعه الگوریتمهای قوی‌تر است. چنین بینشی می‌تواند در برنامه‌های بینایی ماشین برای یاد گیری عمیق مفید باشد، که یک استاندارد بسیار بالاتر برای اعتبار سنجی تصاویر است.
 
منبع: دن مک کارتی - AIA