تصویر: نگاره‌ مار پیچ ها و خوشه ها در ساختار پروتئینی. بازسازی cryoDRGN پروتئین سنبله.SARS-CoV-2. با مجوز از محققان، با استفاده از تصاویر Cryo-EM تهیه شده توسط نویسندگان Walls و همکاران. 2020.

تعیین ساختارهای پروتئینی به کمک مدل یادگیری ماشین

تکنیک جدید، بسیاری از ترکیبات احتمالی پروتئین را نشان می دهد.

استفاده از میکروسکوپ الکترونی برودتی (cryo-EM) به دانشمندان امکان تولید تصاویر سه بعدی با وضوح بالا از مولکول های ریزی مانند پروتئین ها را می دهد. این تکنیک برای تصویر برداری از پروتئین هایی که فقط در یک ساختار وجود دارند، بهترین نتیجه را می دهد، اما محققان MIT اکنون الگوریتمی برای یادگیری ماشین ایجاد کرده اند که به آنها کمک می کند که ساختارهای مختلفی را که پروتئین می تواند به خود بگیرد، شناسایی کنند.
تکنیک جدید، بسیاری از ترکیبات احتمالی پروتئین را نشان می دهد.بر خلاف تکنیک های هوش مصنوعی که هدف آن پیش بینی ساختار پروتئین از طریق داده های توالی به تنهایی است، ساختار پروتئین همچنین می تواند از طریق آزمایش، با استفاده ازCryo-EM ، که صدها هزار یا حتی میلیون ها تصویر دو بعدی از نمونه های پروتئینی منجمد شده در یک لایه نازک یخ تولید می کند، تعیین شود. سپس الگوریتم های رایانه، این تصاویر را که از زوایای مختلف گرفته شده است، در یک نمایش سه بعدی از پروتئین در یک فرآیند با عنوان بازسازی با هم جور می کند.

در مقاله ای در نشریه "روش های طبیعت" (Nature Methods)، محققان MIT یک نرم افزار جدید مبتنی بر هوش مصنوعی را برای بازسازی ساختارها و حرکات متعدد پروتئینِ تصویر شده گزارش می کنند – که هدفی اصلی در جامعه علوم پروتئین است. محققان به جای استفاده از نمایش سنتی ساختار پروتئین به صورت نمایش شدت پراکندگی الکترون بر روی شبکه سه بعدی، که برای مدل سازی چندین ساختار، غیر عملی است، معماری شبکه عصبی جدیدی را ارائه دادند که می تواند به طور مؤثر مجموعه کامل ساختارها را در یک مدل واحد تولید نماید.

الن ژونگ، دانشجوی تحصیلات تکمیلی MIT و نویسنده اصلی مقاله، می گوید: "با قدرت نمایش گسترده شبکه های عصبی، می توانیم اطلاعات ساختاری را از تصاویر پر از نویز استخراج کنیم و حرکات دقیق ماشین های ماکرومولکولی را تجسم نماییم. "

دانشجوی تحصیلات تکمیلی الن زونگ نشان داد که چگونه تیم وی استفاده از میکروسکوپ الکترونی برودتی و یادگیری ماشین را برای تجسم مولکول ها به صورت سه بعدی ترکیب می کند.
مدل ما به ما امکان می دهد اطلاعات را از ساختارهای شناخته شده پروتئین به توالی هایی با ساختار ناشناخته منتقل کنیم.آنها با استفاده از نرم افزار خود، حرکات پروتئینی را از مجموعه داده های تصویر برداری کشف کردند در حالی که در ابتدا فقط یک ساختار سه بعدی ایستا شناسایی شده بود. آنها همچنین حرکات انعطاف پذیر بزرگ مقیاس اسپلیسوزوم را تجسم کردند – که یک مجتمع پروتئینی است که اتصال توالی های کد گذارنده پروتئینی RNA رونویسی شده را هماهنگ می کند.

جوزف دیویس، استادیار توسعه حرفه ای وایتهد در گروه زیست شناسی MITمی گوید: " ایده ما این بود که سعی کنیم از تکنیک های یادگیری ماشین برای به دست آوردن بهتر ناهمگنی ساختاری اساسی استفاده کنیم، و به این منظور که به ما اجازه دهد انواع حالت های ساختاری موجود در یک نمونه را بررسی کنیم."

دیویس و بونی برگر، استاد ریاضیات سیمونز در MIT و رئیس گروه محاسبات و زیست شناسی در آزمایشگاه علوم رایانه و هوش مصنوعی، نویسندگان ارشد این مطالعه هستند که در Nature Methods منتشر شد.

تجسم یک فرآیند چند مرحله ای

محققان با استفاده از تجزیه و تحلیل ساختارهای تشکیل شده در طی فرآیند مونتاژ ریبوزوم ها - که اندامک های سلولی مسئول خواندن RNA پیام رسان و ترجمه آن به پروتئین ها هستند - سودمندی روش جدید خود را نشان دادند. دیویس تحصیل در مورد ساختار ریبوزوم ها را در حالی که فوق دکترا در انستیتوی تحقیقاتی Scripps بود آغاز کرد. ریبوزوم ها دارای دو زیر واحد اصلی هستند که هر کدام حاوی پروتئین های منفرد زیادی هستند که در یک فرآیند چند مرحله ای جمع می شوند.

برای مطالعه دقیق مراحل مونتاژ ریبوزوم، دیویس این روند را در نقاط مختلف متوقف کرد و سپس از ساختارهای حاصل، توسط میکروسکوپ الکترونی تصویر گرفت. در بعضی از نقاط، مونتاژ مسدود کننده منجر به جمع شدن تنها یک ساختار واحد شد، که نشان می دهد تنها یک راه برای آن مرحله وجود دارد. با این حال، مسدود کردن نقاط دیگر منجر به ساختارهای مختلفی شد، و این نشان می دهد که مونتاژ می تواند به روش های مختلفی رخ دهد.

از آن جا که برخی از این آزمایشات، منجر به ایجاد ساختارهای بسیار مختلف پروتئینی شده است، ابزارهای سنتی باز سازی Cryo-EM برای تعیین این که این ساختارها چه هستند، به خوبی به کار نیامد.

دیویس می گوید: "به طور کلی، تلاش برای فهمیدن این که، وقتی مخلوطی از ذرات دارید، چند حالت دارید، یک مسئله بسیار چالش برانگیز است. "

وی پس از راه اندازی آزمایشگاه خود در MIT در سال 2017، با برگر همکاری کرد تا از یادگیری ماشین برای تولید مدلی استفاده کند که بتواند از تصاویر دو بعدی تولید شده توسط cryo-EM برای تولید تمام ساختارهای سه بعدی موجود در نمونه اصلی استفاده نماید.

در مطالعه جدید ژورنال «روش های طبیعت»، محققان قدرت این روش را با استفاده از آن برای شناسایی حالت جدید ریبوزومی که قبلاً دیده نشده بود، نشان دادند. مطالعات قبلی حاکی از آن بود که در هنگام مونتاژ یک ریبوزوم، ابتدا عناصر ساختاری بزرگی که شبیه پایه های ساختمان هستند تشکیل می شوند. فقط پس از تشکیل این پایه است که "مکان های فعال" ریبوزوم، که RNA پیام رسان را می خوانند و پروتئین ها را سنتز می کنند، به ساختار اضافه می شوند.

لکن در مطالعه جدید، محققان دریافتند که در یک زیر مجموعه بسیار کوچک از ریبوزوم ها، که حدود یک درصد از آنها را تشکیل می دهد، ساختاری، که به طور معمول در پایان اضافه می شود، در واقع قبل از مونتاژ فونداسیون ظاهر می شود. برای پاسخ گویی به این موضوع، دیویس فرض می کند که ممکن است برای سلول ها از نظر انرژی بسیار گران باشد که تضمین دهند که تک تک ریبوزوم ها به ترتیب صحیح مونتاژ می شوند.
تلاش برای فهمیدن این که، وقتی مخلوطی از ذرات دارید، چند حالت دارید، یک مسئله بسیار چالش برانگیز است.وی می گوید: "سلول ها به احتمال زیاد برای یافتن تعادل بین میزان تحمل خود، که شاید درصد کمی از این نوع ساختارهای بالقوه زیان آور باشد، و هزینه حذف کاملشان از مسیر مونتاژ، تکامل یافته اند. "

پروتئین های ویروسی

محققان اکنون از این روش برای بررسی پروتئین سنبله ویروس کرونا استفاده می کنند، که پروتئینی ویروسی است که به گیرنده های سلول های انسانی متصل می شود و به آنها اجازه ورود به سلول ها را می دهد. دامنه اتصال گیرنده (receptor binding domain) (RBD) پروتئین سنبله دارای سه زیر واحد است که هر یک می توانند به سمت بالا یا پایین قرار بگیرند.
این کار در سلامت انسان و فارماکوژنومیک کاربرد نهایی دارد، زیرا تشخیص جهش های مضر را که ساختار پروتئین را مختل می کنند، تسهیل می کند.دیویس می گوید: "برای من، مشاهده روند همه گیری در طی سال گذشته تأکید کرده است که داروهای ضد ویروسی خط مقدم در مبارزه با ویروس های مشابه، که احتمالاً در آینده ظاهر می شوند، بسیار مهم خواهند بود. همان طور که شروع به فکر کردن در مورد چگونگی ایجاد ترکیبات مولکولی کوچک برای واداشتن تمامRBD ها به حالت "رو به پایین"، به گونه ای قادر به تعامل با سلول های انسانی نباشند، می کنیم، درک دقیق این که حالت "بالا" چگونه به نظر می رسد و چقدر انعطاف پذیری ساختاری وجود دارد برای طراحی دارو آموزنده است. ما امیدواریم که تکنیک جدید ما بتواند این نوع جزئیات ساختاری را فاش کند.”

یادگیری نقش آمینو اسیدها در پروتئین توسط مدل

مدل یاد می گیرد که چگونه آمینو اسیدهای منفرد عملکرد پروتئین را تعیین می کنند. این تکنیک می تواند وظایف یادگیری ماشین را در طراحی پروتئین، آزمایش دارو و سایر کاربردها بهبود بخشد.

این مدل یادگیری ماشین، محاسبه می کند که چگونه بخش هایی از زنجیره های اسید آمینه عملکرد پروتئین را تعیین می کنند، که این می تواند به محققان در طراحی و آزمایش پروتئین های جدید برای توسعه دارو یا تحقیقات بیولوژیکی کمک کند.

پروتئین ها زنجیره های خطی از آمینو اسیدها هستند که با پیوندهای پپتیدی به هم متصل می شوند و بسته به توالی و فعل و انفعالات فیزیکی درون زنجیره به ساختارهای سه بعدی بسیار پیچیده ای تبدیل می شوند. این ساختارها، به نوبه خود، عملکرد بیولوژیکی پروتئین را تعیین می کنند. بنابراین، دانستن ساختار سه بعدی پروتئین برای پیش بینی چگونگی واکنش پروتئین ها به داروهای خاص بسیار ارزشمند است.

با این حال، با وجود دهه ها تحقیق و توسعه روش های تصویر برداری متعدد، ما فقط بخش کوچکی از ساختارهای احتمالی پروتئین را می شناسیم - ده ها هزار از میلیون ها. محققان شروع به استفاده از مدل های یادگیری ماشین برای پیش بینی ساختارهای پروتئینی بر اساس توالی اسیدهای آمینه آنها کرده اند که می تواند کشف ساختارهای جدید پروتئینی را امکان پذیر سازد. اما این، چالش برانگیز است، زیرا توالی های مختلف اسیدهای آمینه می توانند ساختارهای بسیار مشابهی ایجاد کنند. و ساختارهای زیادی وجود ندارد که بر مبنای آنها بتوان مدل ها را آموزش داد.

در مقاله ای ارائه شده در کنفرانس بین المللی نمایش های یادگیری، محققان روشی را برای "یادگیری" نمایش های قابل محاسبه آسان از هر موقعیت اسید آمینه در یک توالی پروتئین، در ابتدا با استفاده از ساختار سه بعدی پروتئین به عنوان یک راهنمای آموزش، توسعه دادند. محققان می توانند از این بازنمایی ها به عنوان ورودی هایی استفاده کنند که به مدل های یادگیری ماشین کمک می کند تا عملکردهای جداگانه اسیدهای آمینه را پیش بینی کنند - بدون این که دیگر نیازی به داده ای در مورد ساختار پروتئین داشته باشند.

تصویر: دانشجوی تحصیلات تکمیلی الن زونگ نویسنده اصلی مطالعه جدید از گروه همکاری CryoDRGN است. با مجوز از الن زونگ.

در آینده، این مدل می تواند برای مهندسی پروتئین بهبود یافته مورد استفاده قرار گیرد، که این کار با دادن این فرصت به محققین محقق می شود که تمرکز و توجه بهتری روی موضوع داشته باشند و بخش های خاص اسید آمینه را اصلاح کنند.
ما می خواهیم بدانیم پروتئین ها چه کاری انجام می دهند و برای این موضوع، شناخت ساختار مهم است.نویسنده اول، تریستان بپلر، دانشجوی تحصیلات تکمیلی گروه محاسبات و زیست شناسی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) ، می گوید: "من می خواهم ساختار را به حاشیه ببرم." "ما می خواهیم بدانیم پروتئین ها چه کاری انجام می دهند و برای این موضوع، شناخت ساختار مهم است. اما آیا می توان عملکرد پروتئین را فقط با توالی اسید آمینه آن پیش بینی کرد؟ انگیزه این است که از ساختارهای پیش بینی کننده خاص دور شویم و به سمت [یافتن] نحوه ارتباط توالی اسیدهای آمینه با عملکرد برویم. "

یادگیری از ساختار

محققان به جای پیش بینی مستقیم ساختار – آن چنان که مدل های سنتی در این راه تلاش می کنند - اطلاعات ساختاری پروتئین را مستقیماً در بازنمایی رمز گذاری می کنند. برای انجام این کار، آنها از شباهت های ساختاری شناخته شده پروتئین ها برای نظارت بر مدل خود استفاده می کنند، زیرا این مدل عملکرد آمینو اسیدهای خاص را می آموزد.

آنها مدل خود را روی حدود 22000 پروتئین از پایگاه داده طبقه بندی ساختاری پروتئین ها (Structural Classification of Proteins) (SCOP) ، که حاوی هزاران پروتئین است که با شباهت ساختارها و توالی اسیدهای آمینه در گروه ها سازمان یافته اند، آموزش دادند. برای هر جفت پروتئین، آنها بر اساس کلاس SCOP یک نمره شباهت واقعی را محاسبه کردند، به این معنی که ساختار آنها چقدر نزدیک است.

محققان سپس جفت های پروتئینی و توالی اسیدهای آمینه آنها را به جفت های تصادفی مدل خود تغذیه کردند، که توسط یک رمز گذار به نمایش های عددی موسوم به جا سازی تبدیل شدند. در پردازش زبان طبیعی، تعبیه ها اساساً جداول چند صد عددی هستند که به گونه ای ترکیب می شوند که با یک حرف یا کلمه در یک جمله مطابقت داشته باشند. هرچه دو تعبیه مشابه تر باشند، به احتمال زیاد حروف یا کلمات با هم در یک جمله ظاهر می شوند.

در کار محققان، هر جاسازی شده ای در جفت، حاوی اطلاعاتی در مورد چگونگی شباهت هر توالی اسید آمینه به دیگری است. این مدل، دو تعبیه شده را تراز می کند و یک امتیاز شباهت را محاسبه می کند تا سپس پیش بینی کند که ساختارهای سه بعدی آنها چقدر شبیه خواهند بود. سپس، مدل، نمره شباهت پیش بینی شده خود را با نمره شباهت واقعی SCOP برای ساختار آنها مقایسه می کند و یک سیگنال باز خورد به رمز گذار ارسال می نماید.

به طور همزمان، مدل برای هر جاسازی یک "نقشه تماس" پیش بینی می کند، که اساساً می گوید هر اسید آمینه تا چه اندازه از سایر اسیدهای موجود در ساختار سه بعدی پیش بینی شده پروتئین فاصله دارد - و اساساً، آیا آنها تماس برقرار می کنند یا خیر؟ این مدل همچنین نقشه تماس پیش بینی شده خود را با نقشه مخاطب شناخته شده از SCOP مقایسه می کند و یک سیگنال بازخورد به رمز گذار ارسال می کند. این به مدل کمک می کند بهتر بفهمد که اسیدهای آمینه دقیقاً در ساختمان پروتئین کجا قرار می گیرند، که این، عملکرد هر اسید آمینه را بیشتر به روز می کند.
دانستن ساختار سه بعدی پروتئین برای پیش بینی چگونگی واکنش پروتئین ها به داروهای خاص بسیار ارزشمند است.اساساً، محققان مدل خود را با درخواست از آن برای پیش بینی این که آیا جاسازی های توالی زوجی، یک ساختار پروتئین SCOP مشابه دارند یا نه، آموزش می دهند. اگر امتیاز پیش بینی شده مدل نزدیک به امتیاز واقعی باشد، مدل می داند که در مسیر درست قرار دارد. در غیر این صورت، تنظیم می شود.

تصویر: این مدل جدید که توسط محققان MIT تهیه شده است، نمایش های غنی تر و قابل محاسبه تری از این که چگونه آمینو اسیدهای فردی عملکرد پروتئین را تعیین می کنند ایجاد می کند، که می تواند برای طراحی و آزمایش پروتئین های جدید مورد استفاده قرار گیرد.

طراحی پروتئین

در پایان، برای یک زنجیره اسید آمینه ورودی، مدل برای هر موقعیت اسید آمینه در یک ساختار سه بعدی، یک نمایش عددی یا تعبیه را تولید می کند. سپس مدل های یادگیری ماشین می توانند از آن تعبیه های توالی برای پیش بینی دقیق عملکرد هر اسید آمینه بر اساس "بافت" ساختاری سه بعدی پیش بینی شده آن – یعنی موقعیت و تماس آن با سایر اسیدهای آمینه - استفاده کنند.

به عنوان مثال، محققان از این مدل برای پیش بینی این که کدام بخش ها، در صورت وجود، از غشای سلول عبور می کنند استفاده کردند. با دادن تنها یک توالی اسید آمینه، مدل محققان با دقت بیشتری در مقایسه با مدل های پیشرفته روز، تمام بخش های غشایی و غیر غشایی را پیش بینی کرد.
این می تواند به محققان در طراحی و آزمایش پروتئین های جدید برای توسعه دارو یا تحقیقات بیولوژیکی کمک کند.Serafim Batzoglou ، استاد علوم کامپیوتر در دانشگاه استنفورد می گوید: "کار Bepler و Berger پیشرفت چشمگیری در نمایش خصوصیات ساختاری محلی یک توالی پروتئین است." "این نمایش، با استفاده از پیشرفته ترین روش های یادگیری عمیق یاد گرفته می شود، که پیشرفت عمده ای در پیش بینی ساختار پروتئین در سیستم هایی مانند RaptorX و AlphaFold داشته است. این کار در سلامت انسان و فارماکوژنومیک کاربرد نهایی دارد، زیرا تشخیص جهش های مضر را که ساختار پروتئین را مختل می کنند، تسهیل می کند. "

در مرحله بعدی، محققان قصد دارند از این مدل برای انجام کارهای بیشتری در پیش بینی استفاده کنند، از جمله این که بفهمند کدام قسمت های توالی به مولکول های کوچک متصل می شوند، که این امر برای تولید دارو بسیار مهم است. آنها همچنین در حال استفاده از مدل برای طراحی پروتئین هستند. با استفاده از تعبیه های توالیشان، آنها می توانند پیش بینی کنند، مثلاً، پروتئین در چه طول موج های رنگی‌ای فلورسان می شود.

"مدل ما به ما امکان می دهد اطلاعات را از ساختارهای شناخته شده پروتئین به توالی هایی با ساختار ناشناخته منتقل کنیم. با استفاده از تعبیه شده هایمان به عنوان خصوصیات، می توان عملکرد را بهتر پیش بینی کرد و طراحی پروتئین مبتنی بر داده را با کارایی بیشتر امکان پذیر ساخت. " "در یک سطح بالا، هدف، آن نوع مهندسی پروتئین است. "
محققان اکنون از این روش برای بررسی پروتئین سنبله ویروس کرونا استفاده می کنند، که پروتئینی ویروسی است که به گیرنده های سلول های انسانی متصل می شود و به آنها اجازه ورود به سلول ها را می دهد.برگر می افزاید: "بنابراین مدل های یادگیری ماشینمان، ما را قادر می سازد تا "زبان" تا کردن پروتئین – که یکی از اصلی ترین مشکلات حل نشدنی بوده است - را از تعداد نسبتاً کمی ساختار شناخته شده یاد بگیریم. "

منبع: آن ترافتون، راب ماتسون، دفتر خبری MIT