تشخیص چهره: انسان يا کامپیوتر (قسمت دوم)

تحقیق در زمینه تشخیص چهره فرصت‌های مطالعاتی را فراهم می‌آورد که دانشمندان و مهندسان را برای چند سال آینده به چالش خواهد کشید. به عنوان نمونه، ایجاد یک سیستم تشخیص چهره قدرتمند می‌تواند در پروژه‌های مرتبط با امنیت ملی، تعامل انسان و کامپیوتر و بسیاری از موارد دیگر به کار برده شود. اين مطلب يكي از مقالات بخش ويژه نشريه ماهنامه شبكه در شماره 116 با عنوان امنيت بيومتريك مي‌باشد. جهت دريافت اين بخش ويژه به بخش پرونده‌هاي ويژه سايت مراجعه نمائيد.

شنبه، 19 شهريور 1390

تخمین زمان مطالعه:

موارد بیشتر برای شما

تشخیص چهره: انسان يا کامپیوتر (قسمت دوم)

آیا کامپیوترها بهتر از انسان‌ها هستند؟

مطالعات اخیر نشان داده، کامپیوترها در زمینه تشخیص چهره از روی تصاویر ثابت چهره گرفته شده است از رو‌به‌رو و با نورپردازی‌های متفاوت می‌توانند انسان را مغلوب کنند‌1. این نتیجه تا چه حد عمومیت دارد؟ انسان در زمینه شناختن چهره‌های آشنا بسیار موفق‌تر است، اما ما در مورد توانایی‌هایمان در شناخت چهره‌های نا آشنا کمی زیاده‌روی کرده‌ایم. در عین حال حتی زمانی که با تشخیص چهره افراد نا ‌آشنا مواجه باشیم، انسان‌ها قوی‌ترین سیستم تشخیص چهره ممکن را در اختیار دارند. سیستم تشخیص چهره انسان بسیار بهتر از نمونه‌های کامپیوتری می‌تواند با ترکیبات مختلف ژست، نورپردازی، تار شدن و کاهش کیفیت تصویر هماهنگ شود.
در یک ویدیو با کیفیت پایین، انسان‌ها به طور ذاتي الگوهای زمانی و بدنی را با هم ترکیب می‌کنند. کاری که محققان پیش‌رو فعلی تازه متوجه آن شده‌اند. یکی از کارهای اخیر نشان داده که ترکیب انسان و کامپیوتر می‌تواند به تولید یک سیستم تشخیص چهره تقریباً کامل منجر شود (مقاله «ترکیب انسان و الگوریتم‌های مقایسه چهره»، نوشته اِي. جي. اُتول و ديگران، مجله IEEE Trans ويژه‌نامه سيستم‌ها، انسان و سايبرنتيك سال 2007.

شكل 3 - حالت‌هاي متنوع چهره يك شخص واحد

بررسی جديدترين فناوري‌ها

گام نخست در هر سیستم تشخیص چهره خودکار، کشف صورت در یک تصویر است.

کشف صورت

هنگامی که صورت تشخیص داده شد، بخش استخراج الگو اطلاعاتی را به دست می‌دهد که می‌تواند به یک سیستم طبقه‌بندی چهره منتقل شود. با توجه به نوع سیستم طبقه‌بندی، این خصوصیات و الگوها می‌توانند شامل مشخصات موضعی مانند بافت و نقاط ثابت یا از اجزای چهره مانند چشم و بینی و دهان باشند5.
یکی از پرکاربردترین و قوی‌ترین الگوریتم‌های تشخیص چهره توسط بل‌ویولا و مایکل جونز6 طراحی شده است. آن‌ها برای تشخیص اشیا، شیوه‌ای مبتنی بر یادگیری ماشینی را معرفی‌کردند که در آن از طریق ترکیب تعداد زیادی یادگیرنده ضعیف، یک سیستم طبقه‌بندی‌کننده قوی آموزش داده می‌شود. برای مسئله‌ای که تنها نیازمند دو دسته است و با نمونه‌های تمرینی برچسب‌دار، یک الگوریتم یادگیری آدابوست (Adaboost يا Adaptive Boosting)، می‌تواند تعداد اندکی از مشخصه‌های بصری را انتخاب كند تا بیشترین دقت طبقه‌بندی فراهم شود.شكل 4 نمونه‌ای از عملکرد الگوریتم معمول کشف چهره و خصوصیت را نشان می‌دهد.

شكل 4- نمونه‌ای از سیستم کشف چهره و استخراج خصوصیات (شكل از هانکیو مون و همکاران؛ مقاله پردازش شكل، مجله IEEE Trans.، ويژه‌نامه پردازش تصوير شماره نوامبر 2002).

سال‌های نخست

در اواخر دهه هشتاد و اوایل دهه نود میلادی، استفاده از شیوه‌های متعلق به زیرشاخه تشخیص چهره ساکن (Still-Face) نظیر تحلیل اجزاي اصلی يا PCA (سرنامPrincipal Component Analysis)، تحلیل جداکننده‌های خطی يا LDA (سرنام Linear Discriminant Analysis) و روندی ساختار‌گرا به نام انطباق گراف الاستیک يا EGM (سرنامElastic Graph Matching) به تحقیقات در زمینه تشخیص چهره رونق بخشید. از آن زمان تحقیقات زیادی در زمینه توسعه و بهبود این الگوریتم‌ها صورت گرفته است. در آزمون فناوري تشخیص چهره FRET (سرنام Facial Recognition Technology) که در اواخر سال 1996 و اوایل 1997 روی الگوریتم‌های تشخیص چهره انجام شد7، بهترین کارایی مربوط به روش‌های LDA و EGM بود، یعنی الگوریتم‌هایی که از تحلیل‌های شبه فضای احتمالات مشتق شده بودند. مشکل‌ترین آزمون FRET تشخیص چهره فرد بر‌‌اساس تصاویری بود که با فاصله زمانی حداقل هجده ماهه گرفته‌شده‌بودند. جدول‌1 خلاصه نتایج سری آزمون‌های FRVT (سرنام Face Recognition Vendor Test) را نشان می‌دهد که از اوایل سال 2000 توسط انستیتوی ملی استاندارد و فناوري NIST (سرنام National Institute of Standard and Technology) آغاز شده است.

ژست، نورپردازی و حالت چهره

محققان توانسته‌اند مشکل تشخیص چهره در وضعیت‌های مختلف ژست، نورپردازی و حالت‌های مختلف PIE (سرنام Pose ,Illumination ,Expression) چهره را حل کنند. تلاش‌های قبلی شامل استفاده از روش بسط چهره آیگن [‌نسخه‌ای از تصویر چهره که معادلات ریاضی Eigenvector و Eigenspace بر آن اعمال شده است] می‌شد که در این روش فضاهای آیگن متفاوتی ایجاد شده و هریک از این فضاها اطلاعات متفاوتی از چهره را در زاویه‌های دید مختلف ثبت می‌کرد و برای حل مشکل تفاوت ژست‌ها، از ساخت یک مدل سه بعدی و استخراج نماهای دو بعدی برای هر ژست استفاده می‌شد. برای کنترل حالت‌های متفاوت ژست و نورپردازی، محققان مدل سه‌بعدی قابل تغییری8 را پیشنهاد کردند که در آن ترکیب خطی مجموعه‌ای از نمونه‌های چهره پارامترهای لازم را برای بافت و فرم چهره فراهم می‌کند. این پارامترها از طریق جفت کردن مدل سه‌بعدی روی تصویر ورودی تخمین زده می‌شوند.
به این ترتیب، شیوه مبتنی بر مدل سه‌بعدی قابل تغییر توانست در تشخیص تصاویر چهره‌ای که از روبه‌رو گرفته نشده بودند، نرخ تشخیص بالایی را از خود نشان دهد. حالت‌های فرعی زیادی از این شیوه با درجه‌های گوناگون موفقیت عرضه شده‌اند. اغلب این شیوه‌های مبتنی بر مدل سه‌بعدی، به محاسبات سنگین نیاز دارند و به طور معمول باید تعداد کمی از مشخصات و الگوها به صورت دستی انتخاب شوند. در کنار توسعه شیوه‌های مبتنی بر مدل سه‌بعدی قابل تغییر، روش‌هایی برای نرمال‌سازی نورپردازی باعث جلب توجه محققان عرصه بینایی کامپیوتری شد. تلاش‌های اولیه برای کاهش اثر نورپردازی شامل حذف تعداد کمی از نخستين مقادیر آیگن مربوط به بسط اجزاي اصلی صورت مي‌شده که این کار با استفاده ازسمت و جهت تغییر طیف رنگی به عنوان یک مشخصه یا ساخت یک زیر فضای نمونه با نام مخروط نورپردازی (Illumination Cone) برای ثبت تصویر شیء لامبرتی محدب انجام می‌شد. مدل‌های همسازهای کروی ابعاد پایین(Low-Dimensional Spherical Harmonics Representations) نیز برای تشخیص چهره در شرایط نوری متفاوت مؤثر شناخته شده‌اند. همچنین از طریق توسعه روش مبتنی بر مدل سه‌بعدی قابل تغییر، روش‌هايي پیشنهاد شده‌اند که می‌توانند الگویی از چهره را تولید کنند که نسبت به تغییرات نور ثابت باشد. پیشنهاد دیگر عبارت است از استفاده از محاسبه و ساخت یک تصویر خود تقسیمی که از طریق تقسیم تصویر اصلی بر کپی ملایم شده آن (کپی که در آن شدت تیره و روشن‌ها کاهش یافته است) به دست می‌آید و در نتیجه نسبت به تغییرات نورپردازی حساس نخواهد بود. این روش نوعی الگوریتم استریو فتومتریک عمومی است که امکان تغییر شکل‌های درون گروهی را فراهم می‌آورد. در تحقیقات جدیدتر، محققان الگوریتم فیلتر اتفاقی (Stochatic) و غیر‌ایستایی را توسعه داده‌اند که برای تخمین نقشه‌های بازتابی (Albedo) تشخیص چهره غیر حساس به نورپردازی استفاده مي‌شود. شكل 5 نمونه تخمین این نقشه‌ها و مدل‌های سه‌بعدی را از یک تصویر واحد نشان می‌دهد. اما بيشتر محققان بر این نکته توافق دارند که این روش‌ها نسبت به روش‌های زیر فضای آیگن و... در تشخیص چهره با نورپردازی‌های متفاوت، موفق‌تر عمل می‌کنند، اما همه آن‌ها روی مجموعه داده‌های کنترل شده نظیر مجموعه B در دانشگاه ییل یا مجموعه PIE جمع‌آوری شده در دانشگاه کارنگی ملون آزمایش شده‌اند. طراحی روش‌هایی که در برابر تغییرات نورپردازی در محیط‌های کنترل نشده مقاوم و قدرتمند باشند، هنوز مسئله‌ای حل نشده به شمار می‌رود. تحلیل و تشخیص حالت‌های چهره در تحقیقات مربوط به تعامل انسان و کامپیوتر بسیار مورد مطالعه قرار گرفته است9. هویت و حالت چهره ممکن است با سیستم‌های جداگانه‌ای پردازش شوند. برای تشخیص خودكار حالت‌های چهره روش‌های بسیاری موجود است كه اغلب آن‌ها برای حالت‌های کلی و مقیاس بالای چهره مانند شادی، عصبانیت، تعجب و ترس مؤثر هستند3. یکی از زمینه‌هایی که فعالیت تحقیقاتی در آن دنبال می‌شود و توسط برنامه تلویزیونی «به من دروغ بگو» (Lie to Me) به فرهنگ عامه مردم هم نفوذ کرده، تحلیل و تشخیص حالت‌های مقیاس کوچک چهره است.

شكل 5- نمونه‌های استخراج نقشه‌های بازتابی غیر حساس به نورپردازی و مدل‌های سه بعدی از روی تصاویری که از اینترنت دانلود شده‌اند. در هر ردیف، تصویر سمت چپ از اینترنت دانلود شده است. دو تصویر بعدی مدل سه بعدی بازسازی شده را از دو زاویه دید مختلف نشان می‌دهند. آخرین مجموعه تصاویر از طریق ترکیب تصاویر جدید حاصل از مدل سه بعدی بر اساس ژست‌های مختلف به دست آمده‌اند (از مجموعه تصاویر سوما بیسواز و سایرین (Soma Biswas et al) – مقاله هوش ماشینی و تحلیل الگو - مجله IEEE Trans. می‌2009)