یک رویکرد جدید برای تطبیق تصاویر و متن

اعتبار: لیو و همکاران.

محققان دانشگاه لیدن و دانشگاه ملی فناوری دفاعی (NUDT) در چین اخیراً یک رویکرد جدید برای تطبیق متن - تصویر به نام تطبیق سیکلی ارائه کرده اند. رویکرد آنها، ارائه شده در یک مقاله منتشر شده در مجله شناسایی الگوی اِلسِویر، مبتنی بر یادگیری سازگار با چرخه است، که روشی است که گاهی اوقات برای آموزش شبکه های عصبی مصنوعی در وظایف ترجمه تصویر به تصویر از آن استفاده می شود. ایده کلی پشت سازگاری با چرخه این است که هنگام تبدیل داده های منبع به داده های هدف و سپس برعکس، فرد باید نهایتاً نمونه های منبع اصلی را به دست آورد.

هنگامی که زمان توسعه ابزارهای هوش مصنوعی (AI) می رسد که به خوبی در امور چند کیفیتی یا چند رسانه ای عمل کنند، پیدا کردن راه هایی برای پل زدن بین تصاویر و نمایش های متن از اهمیت حیاتی برخوردار است. مطالعات گذشته تلاش کرده اند تا این را با کشف معانی یا ویژگی هایی که مربوط به هر دوِ دید و زبان است، به دست آورند.

با این حال، در هنگام آموزش الگوریتم های مربوط به همبستگی بین کیفیت های مختلف، از این مطالعات غالباً غفلت می شود یا در اشاره به سازگاری معنایی درون کیفیتی، که سازگاری معنا شناسی برای کیفیت های منفرد (یعنی بینایی و زبان) است، قصور ورزیده می شود. برای رفع این نقص، تیم محققان دانشگاه لیدن و NUDT یک رویکرد را پیشنهاد دادند که جادادن های سازگار چرخه ای به درون یک شبکه عصبی عمیق برای تطبیق ارائه های تصویری و متنی را به کار می گیرد.

محققان در مقاله خود نوشتند: "رویکرد ما، به نام تطبیق سیکلی، می تواند هر دوِ همبستگی بین کیفیتی و هماهنگی درون کیفیتی را با آبشاری کردن نقشه کشی های دوگانه و نقشه کشی های نوسازی شده در یک سبک دوره ای حفظ کند." "علاوه بر این، برای دستیابی به یک استنتاج قوی، ما پیشنهاد می کنیم که دو رویکرد همجوشی اخیر به کار گرفته شود: همجوشی متوسط و همجوشی سازوار پذیر."

رویکردی که توسط محققان طراحی شده است، سه جا دادن مشخصه (دوگانه، بازسازی شده و نهفته) را با یک شبکه عصبی برای تطبیق متن و تصویر ترکیب می کند. این روش دارای دو شاخه چرخه ای است که یکی از ویژگی های تصویر در فضای بصری است و یکی از ویژگی های متنی در فضای متنی است.

برای هر یک از این چرخه ها، رویکرد آنها یک نقشه برداری دوگانه را به دست می آورد و یک ویژگی ورودی را در فضای منبع به یک جادادن دوگانه در فضای هدف ترجمه می کند. سپس محققان نقشه برداری بازسازی را به کار می گیرند و تلاش می کنند که این جادادن دوگانه را مجدداً به فضای منبع ترجمه کنند.

رویکرد آنها همچنین به محققان اجازه می دهد تا در خلال هر دو نقشه کشی دوگانه و بازسازی، یک "فضای نهفته" را به دست آورند، و متعاقباً جادادن های نهفته را به هم مرتبط کنند. بنابراین برخلاف روش های دیگر برای تطبیق تصویر - متن، روش آنها می تواند هر دو نقشه کشی تطبیق بین کیفیتی (یعنی تصویر به متن و متن به تصویر) و درون کیفیتی (تصویر به تصویر و متن به متن) را یاد بگیرد.

برای ارزیابی رویکرد آنها، محققان یک سری آزمایش ها با استفاده از دو مجموعه داده های چند کیفیتی معروف، Flickr30K و MSCOCO انجام دادند. روش آنها پیشرفته ترین نتایج را به دست آورد، و بهتر از روش های سنتی عمل کرد و منجر به بهبودهای قابل توجهی در بازیابی کیفیت متقاطع شد.

این یافته ها نشان می دهد که جادادن های سازگار سیکلی می تواند عملکرد شبکه‌های عصبی را در وظایف چند کیفیتی مانند تطبیق تصویر - متن افزایش دهد و به آنها اجازه می دهد تا هر دو نقشه کشی های بین کیفیتی و درون کیفیتی را به دست آورند. در کار شاخصشان محققان در تلاشند تا در آینده رویکرد خود را با توجه به روابط موضعی در تطبیق تصاویر و متن (مثلا همبستگی معنایی بین نواحی بصری و عبارات) توسعه دهند.

یک رویکرد جدید برای ترجمه ماشینی کم منبع با استفاده از RNN ها

معماری مدل مبتنی بر RNN محققان با LSTM دو طرفه رمزگذار و رمزگشا و ارائه الگوریتم روی توالی های ورودی. آنها از ، ، و نشانگرهایی استفاده می کنند تا دنباله های گرافیمی / فونیمی را تا یک طول ثابت پد بزنند. اعتبار: Ngoc Tan Le و همکاران.

گروهی از محققان دانشگاه د کِبِک ا مونترال و دانشگاه ملی ویتنام هوشی مین (VNU-HCM) اخیرا یک رویکرد برای ترجمه ماشینی بر اساس شبکه های عصبی بازگشت کننده (RNNs) توسعه داده اند. نویسه گردانی مستلزم ترجمه آوایی کلمات در یک زبان منبع داده شده (به عنوان مثال فرانسوی) به کلمات معادل در یک زبان مقصد (به عنوان مثال ویتنامی) است.

از طریق ترجمه، یک کلمه منفرد به یک کلمه معادل آوایی در سیستم نوشتاری دیگر تبدیل می شود. این تحول معمولا به مجموعه ای از قوانینی که توسط زبان شناسان تعریف شده است، متکی است، که تعیین نحوه هماهنگی فونم ها، با توجه به مبدأ یک کلمه و نظام واجی زبان مقصد است.

در سال های اخیر، محققان چندین شیوه یادگیری عمیق برای ترجمه ماشینی را توسعه داده اند، که جایگزین ارزشمندی برای رویکردهای آماری موجود است. مدل های گرافیم به فونیم اجزای کلیدی در تشخیص خودکار گفتار و سیستم های متن به گفتار هستند. این نتایج امیدبخش، تیم تحقیقاتی در Universite du Quebec a Montreal و VNU-HCM را برای ایجاد یک روش یادگیری عمیق برای ترجمه تحریک کرد.

رویکرد آنها از شبکه های عصبی بازگشت کننده (RNN ها) استفاده می کند، زیرا فهمیده شده که اینها مخصوصا برای مقابله با مشکلات مشابه مفید هستند. محققان مشاهده کردند که بیشتر روشهای گرافیم به فونیم پیشرفته اساسا مبتنی بر استفاده از نقشه برداری گرافیم به فونیم بودند، در حالی که RNN ها نیازی به اطلاعات همترازی ندارند.

محققان در مقاله خود، که در کتابخانه دیجیتال ACM منتشر شده است، توضیح دادند: "مدل های گرافیم به فونیم اجزای کلیدی در تشخیص خودکار گفتار و سیستم های متن به گفتار هستند." با جفتهای زبانی کم منبع که لغت نامه تلفظی در دسترس و خوب توسعه یافته ندارند، مدل های گرافیم به فونیم به ویژه مفید هستند. این مدلها بر اساس همترازی اولیه بین منبع گرافیم و توالی های هدف فونیم هستند."

منبع: Tech Xplore