ایده بزرگ
ما یک الگوریتم یاد گیری ماشین را با دانش جمع آوری شده از صدها آزمایش بیولوژیکی ترکیب کردیم تا تکنیکی را توسعه دهیم که به محققان پزشکی اجازه می دهد تا عملکرد پروتئین هایی را که ژن ها را در سلول ها روشن و خاموش می کنند، که عوامل رونویسی نامیده می شوند، کشف کنند. این دانش می تواند ایجاد دارو برای طیف وسیعی از بیماری ها را آسان کند.در اوایل بیماری همه گیر COVID-19، دانشمندانی که کد ژنتیکی مولکول های RNA سلول های ریه و روده را بررسی می کردند، دریافتند که تنها گروه کوچکی از سلول های این اندام ها بیشتر در معرض ابتلا به ویروس SARS-CoV-2 هستند. این به محققان اجازه داد تا بر مسدود کردن توانایی ویروس برای ورود به این سلول ها تمرکز کنند. تکنیک ما می تواند یافتن این نوع اطلاعات را برای محققان آسان تر کند.
هنگامی که محققان بتوانند نحوه تا خوردن پروتئین ها را بهتر پیش بینی کنند، می توانند نحوه عملکرد سلول ها و نحوه ایجاد بیماری ها توسط پروتئین های تا نشده را درک کنند. دانش بیولوژیکی که ما با آن کار می کنیم از این نوع توالی RNA ناشی می شود، که به محققان تصویری از صدها هزار مولکول RNA در حال ترجمه شدن به پروتئین در یک سلول می دهد. پلت فرم تجزیه و تحلیل Seurat، یک ابزار یاد گیری ماشین که به طور گسترده مورد ستایش قرار گرفته است، به محققان سراسر جهان کمک کرده است تا جمعیت های سلولی جدیدی را در اندام های سالم و بیمار کشف کنند. این ابزار یاد گیری ماشین داده های توالی RNA تک سلولی را بدون هیچ گونه اطلاعاتی در مورد نحوه عملکرد و ارتباط این ژن ها با یک دیگر پردازش می کند.
تکنیک ما با افزودن دانش در مورد ژن ها و انواع مختلف سلول ها، رویکرد متفاوتی را برای یافتن سرنخ هایی در مورد نقش های متمایز سلول ها در پیش می گیرد. بیش از یک دهه تحقیق در زمینه شناسایی تمام اهداف بالقوه عوامل رونویسی انجام شده است.
مسلح به این دانش، ما از یک روش ریاضی به نام استنتاج بیزی (Bayesian inference) استفاده کردیم. (قضیه بیز (Bayes' theorem): قضیه ای که توصیف می کند چگونه می توان احتمال مشروط هر یک از مجموعه علل احتمالی برای یک نتیجه مشاهده شده معین را از دانش احتمال هر علت و احتمال مشروط نتیجه هر علت محاسبه کرد.) در این تکنیک، دانش قبلی به احتمالاتی که در رایانه قابل محاسبه است تبدیل می شود. در مورد ما این احتمال وجود دارد که یک ژن توسط یک فاکتور رونویسی مشخص تنظیم شود. سپس از الگوریتم یاد گیری ماشین برای تعیین عملکرد عوامل رونویسی در هر یک از هزاران سلول مورد تجزیه و تحلیل استفاده کردیم.
ما تکنیک خود را به نام مدل فعالیتی ضریب استنباط بیزی در ژورنال Genome Research منتشر کردیم و همچنین نرم افزار را به صورت رایگان در دسترس قرار دادیم تا سایر محققان بتوانند آن را آزمایش و از آن استفاده کنند.
چرا مهم است
رویکرد ما در طیف وسیعی از انواع سلول ها و اندام ها کار می کند و می تواند برای توسعه درمان بیماری هایی مانند COVID-19 یا آلزایمر مورد استفاده قرار گیرد. داروهای این بیماری هایی که درمان آنها دشوار است، بهترین عملکرد را دارند اگر سلول هایی را که باعث بیماری می شوند هدف قرار دهند و از آسیب های جانبی به دیگر سلول ها جلوگیری کنند. تکنیک ما این امکان را برای محققان فراهم می کند که بتوانند از این اهداف استفاده کنند.تصویر: یک توده با کُره های کوچک پوشیده شده است. در این تصویر میکروسکوپی رنگی، یک سلول انسانی (توده سبز رنگ)، به شدت آلوده بهSARS-CoV-2 ، (نقاط نارنجی) است، ویروسی که باعث COVID-19 می شود. مؤسسه ملی آلرژی و بیماری های عفونی
ابزارهایی مانند AlphaFold2 به دانشمندان در طراحی انواع جدیدی از پروتئین ها کمک می کنند، پروتئین هایی که به عنوان مثال ممکن است به تجزیه پلاستیک ها و مبارزه با همه گیری ها و بیماری های ویروسی آینده کمک کنند.
چه تحقیقات دیگری در حال انجام است
توالی یابی RNA تک سلولی نشان داد که چگونه هر اندام می تواند 10، 20 یا حتی بیشتر زیر گروه های تخصصی داشته باشد که هرکدام دارای عملکردهای متمایز هستند. یک پیشرفت جدید بسیار هیجان انگیز ظهور رونویسی فضایی است، که در آن توالی یابی RNA در یک شبکه فضایی انجام می شود که به محققان اجازه می دهد RNA سلول ها را در مکان های خاص یک اندام مطالعه کنند.یک مقاله اخیر از رویکرد آمار بیزی مشابه ما استفاده کرده است تا نقش های متمایز سلول ها را در نظر بگیرد در حالی که مجاورت آنها را با یک دیگر در نظر می گیرد. یک گروه تحقیقاتی دیگر داده های مکانی را با داده های توالی RNA تک سلولی ترکیب کرده و عملکردهای متمایز سلول های مجاور را مورد مطالعه قرار دادند.
بعد از آن چه؟
ما قصد داریم با همکاران خود از تکنیک جدید خود برای مطالعه بیماری های پیچیده مانند بیماری آلزایمر و COVID-19 استفاده کنیم، کارهایی که می تواند منجر به ساخت داروهای جدیدی برای این بیماری ها شود. ما همچنین می خواهیم برای درک بهتر پیچیدگی فعل و انفعالات بین سلول ها با همکاران خود کار مشترک انجام دهیم.تا شدن پروتئین ها
تصویر: یک زنجیره ساده از آمینو اسیدها در یک ساختار پیچیده سه بعدی جمع می شود.
دانشمندان می توانند با پیش بینی بهتر نحوه ساختار گرفتن یا "تا شدن" پروتئین ها، سریع تر داروهایی تولید کنند که به عنوان مثال عملکرد پروتئین های مهم ویروسی را مسدود کند.حال به نکات زیر توجه کنید:
* یک برنامه نرم افزاری "یادگیری عمیق" از آزمایشگاه DeepMind متعلق به Google پیشرفت بزرگی را در حل یکی از بزرگ ترین چالش های زیست شناسی - درک تا شوندگی پروتئین - نشان داد.
* تا شدن پروتئین فرآیندی است که طی آن پروتئین از رشته ای از اجزای سازنده به ساختار سه بعدی نهایی خود شکل می گیرد که عملکرد آن را تعیین می کند.
* دانشمندان می توانند با پیش بینی بهتر نحوه ساختار گرفتن یا "تا شدن" پروتئین ها، سریع تر داروهایی تولید کنند که به عنوان مثال عملکرد پروتئین های مهم ویروسی را مسدود کند.
حل آن چه زیست شناسان آن را "مسأله تا شدن پروتئین" می نامند، مسئله بزرگی است. پروتئین ها اسب بارکش سلول ها هستند و در همه موجودات زنده وجود دارند. آنها از زنجیره های طولانی اسیدهای آمینه تشکیل شده اند و برای ساختار سلول ها و ارتباط بین آنها و همچنین تنظیم همه مواد شیمیایی بدن بسیار مهم هستند.
شرکت هوش مصنوعی DeepMind متعلق به Google یک برنامه آموزشی عمیق به نام AlphaFold2 را نشان داد، که کار شناسان آن را دستیابی به موفقیت برای حل چالش بزرگ پروتئین تا شونده می نامند.
پروتئین ها زنجیره های طولانی آمینو اسیدها هستند که مانند مهره های روی یک رشته به هم متصل شده اند. اما برای این که یک پروتئین کار خود را در سلول انجام دهد، باید "تا شود" - یک فرایند چرخش و خم شدن که مولکول را به یک ساختار پیچیده سه بعدی تبدیل می کند که می تواند با هدف خود در سلول تعامل داشته باشد. اگر تا شدگی مختل شود، پروتئین شکل درستی نمی گیرد - و نمی تواند کار خود را در داخل بدن انجام دهد. این می تواند منجر به بیماری شود – همان طور که در بیماری های شایعی مانند آلزایمر و بیماری های نادری مانند فیبروز کیستیک اتفاق می افتد.
یاد گیری عمیق یک تکنیک محاسباتی است که از اطلاعات اغلب پنهان موجود در مجموعه داده های گسترده برای حل سؤالات مورد علاقه استفاده می کند. از آن به طور گسترده ای در زمینه هایی مانند بازی، تشخیص گفتار و صدا، اتومبیل های خود ران، علم و پزشکی استفاده می شود.
تا شدن پروتئین فرآیندی است که طی آن پروتئین از رشته ای از اجزای سازنده به ساختار سه بعدی نهایی خود شکل می گیرد که عملکرد آن را تعیین می کند.من معتقدم که ابزارهایی مانند AlphaFold2 به دانشمندان در طراحی انواع جدیدی از پروتئین ها کمک می کنند، پروتئین هایی که به عنوان مثال ممکن است به تجزیه پلاستیک ها و مبارزه با همه گیری ها و بیماری های ویروسی آینده کمک کنند.
من یک شیمی دان محاسباتی و نویسنده کتاب وضعیت علم هستم. من و دانش آموزانم ساختار و خواص پروتئین های تابان را با استفاده از برنامه های کامپیوتری تا شوندگی پروتئین که بر اساس فیزیک کلاسیک هستند مطالعه می کنیم.
پس از چندین دهه مطالعه توسط هزاران گروه تحقیقاتی، این برنامه های پیش بینی تا شوندگی پروتئین در محاسبه تغییرات ساختاری که هنگام ایجاد تغییرات کوچک در مولکول های شناخته شده رخ می دهد بسیار خوب است.
اما آنها به اندازه کافی موفق به پیش بینی نحوه تا شدن پروتئین ها از ابتدا نشده اند. قبل از ورود یاد گیری عمیق، حل مشکل تا شدن پروتئین در حد غیر ممکن سخت به نظر می رسید، و به نظر می رسید که برای ده ها سال آینده شیمی دانان محاسباتی را ناامید می کند.
تصویر: زنجیره ای از اسیدهای آمینه چندین مرحله تا شوندگی را طی می کند که قبل از رسیدن به ساختار نهایی از طریق پیوندهای هیدروژنی بین اسیدهای آمینه در مناطق مختلف پروتئین ایجاد می شود. نمونه ای که در این جا نشان داده شده است هموگلوبین، پروتئینی در گلبول های قرمز خون، است که اکسیژن را به بافت های بدن منتقل می کند. آناتومی و فیزیولوژی، وب سایت Connexions ، CC BY
تا شدن پروتئین
توالی اسیدهای آمینه - که در DNA رمزگذاری شده است - شکل سه بعدی پروتئین را مشخص می کند. و این شکل، عملکرد آن را تعیین می کند. اگر ساختار پروتئین تغییر کند، نمی تواند عملکرد خود را انجام دهد. پیش بینی صحیح تاهای پروتئین ها بر اساس توالی اسید آمینه می تواند طراحی دارو را متحول کند و علل بیماری های جدید و قدیمی را توضیح دهد.همه پروتئین ها که توالی یکسانی از بلوک های سازنده اسید آمینه دارند به شکل سه بعدی یکسانی تا می شوند، که تعامل بین اسیدهای آمینه را بهینه می کند. آنها این کار را در عرض چند میلی ثانیه انجام می دهند، اگر چه تعدادی نجومی- حدود 10 به توان 300 - از پیکر بندی های ممکن در دسترس آنها است. این عدد عظیم چیزی است که پیش بینی چگونگی تا شدن پروتئین را دشوار می کند حتی وقتی دانشمندان دنباله کامل آمینو اسیدهایی که در ساخت آن نقش دارند را می دانند. پیش از این، پیش بینی ساختار پروتئین از توالی اسید آمینه غیر ممکن بود. ساختارهای پروتئینی به صورت تجربی تعیین می شد، که یک تلاش وقت گیر و گران بود.
ما قصد داریم با همکاران خود از تکنیک جدید خود برای مطالعه بیماری های پیچیده مانند بیماری آلزایمر و COVID-19 استفاده کنیم، کارهایی که می تواند منجر به ساخت داروهای جدیدی برای این بیماری ها شود.هنگامی که محققان بتوانند نحوه تا خوردن پروتئین ها را بهتر پیش بینی کنند، می توانند نحوه عملکرد سلول ها و نحوه ایجاد بیماری ها توسط پروتئین های تا نشده را درک کنند. ابزارهای پیش بینی بهتر پروتئین همچنین به ما در طراحی داروهایی کمک می کند که می توانند یک ناحیه توپولوژیکی خاص از پروتئین را که واکنش های شیمیایی در آن انجام می شود، هدف قرار دهند.
تصویر: حرکت شما چیست؟ style-photography/Getty Images
AlphaFold از بازی های شطرنج، Go و کارت که دارای یاد گیری عمیق هستند، متولد شده است
موفقیت برنامه پیش بینی تا شوندگی پروتئین ازDeepMind ، به نامAlphaFold ، دور از انتظار نیست. سایر برنامه های یاد گیری عمیق که توسط DeepMind نوشته شده است بهترین بازی کنان شطرنج، Go و کارت جهان را منکوب کرده است.در سال 2016، Stockfish-8، یک موتور شطرنج منبع باز، قهرمان شطرنج رایانه ای جهان شد. 70 میلیون موقعیت شطرنج در ثانیه را مورد ارزیابی قرار می داد و دارای قرن ها استراتژی انباشته شطرنج بشر و چندین دهه تجربه رایانه ای بود تا رو کند. کار آمد و بی رحمانه بازی می کرد و بدون هیچ ذره ای ظرافت، بی رحمانه بر همه رقبای انسانی خود غلبه می کرد. وارد یاد گیری عمیق شوید.
در 7 دسامبر 2017، برنامه شطرنج یاد گیری عمیق گوگل، به نام AlphaZero ، Stockfish-8 را شکست داد. موتورهای شطرنج 100 بازی انجام دادند که AlphaZero 28 برد و 72 مساوی داشت و حتی یک بازی را نباخت. بر خلاف 70 میلیون محاسبه Stockfish-8، AlphaZero تنها 80،000 محاسبه در ثانیه انجام می داد. برای AlphaZero یاد گیریِ شطرنج از ابتدا با چند میلیون بار بازی برابر خودش و بهینه سازی شبکه های عصبی اش با یاد گیری از تجربه اش، تنها چهار ساعت طول کشید.
AlphaZero چیزی از انسان ها یا بازی های شطرنج که توسط انسان انجام می شود یاد نمی گرفت. به خودش می آموخت و در این روند، استراتژی هایی به دست می آورد که هرگز قبلاً مشاهده نشده بود. در تفسیری در مجله Science ، گری کاسپاروف، قهرمان سابق شطرنج جهان، نوشت که AlphaZero با آموختن از بازی خود، استراتژی هایی را توسعه داد که "حقیقت شطرنج" را منعکس می کند تا این که" اولویت ها و تعصبات" برنامه نویسان را. "این تجسم کلیشه «هوشمندانه کار کنید، نه سخت تر» است. "
CASP - المپیک مدل سازان مولکولی
هر دو سال یک بار، شیمی دانان محاسباتی برتر جهان توانایی برنامه های خود را برای پیش بینی تا خوردگی پروتئین ها تست می کنند و در مسابقه ارزیابی بحرانی پیش بینی ساختار (Assessment of Structure Prediction) (CASP)به رقابت می پردازند.در این مسابقه، توالی خطی آمینو اسیدها برای حدود 100 پروتئین که شکل سه بعدی آنها مشخص است اما هنوز منتشر نشده است، به تیم ها داده می شود. سپس آنها باید محاسبه کنند که چگونه این دنباله ها تا می شوند. در سال 2018 AlphaFold ، تازه کارِ یاد گیری عمیق در مسابقات، تمام برنامه های سنتی را شکست داد-اما به سختی.
دو سال بعد، در روز دوشنبه، اعلام شد که Alphafold2 با یک حاشیه خوب در مسابقات 2020 پیروز شده است. رقبای خود را برد و پیش بینی هایش با نتایج تجربی موجود تعیین شده از طریق تکنیک های استاندارد طلایی مانند کریستالوگرافی پراش اشعه ایکس و میکروسکوپ الکترونی کرایو الکترونی، قابل مقایسه بود. من انتظار دارم که به زودی AlphaFold2 و فرزندان آن روش های انتخابی برای تعیین ساختار پروتئین قبل از توسل به تکنیک های تجربی ای باشند که نیاز به کار سخت و زحمت کشانه روی ابزارهای گران قیمت دارند.
یکی از دلایل موفقیت AlphaFold2 این است که می تواند از پایگاه داده پروتئین، که دارای بیش از 170،000 ساختار سه بعدی است، برای آموزش به خود برای محاسبه ساختارهای تا شده صحیح پروتئین ها استفاده کند.
اگر تعداد ساختارهای پروتئینی منتشر شده - تقریباً 170،000 - را با 180 میلیون توالی DNA و پروتئین ذخیره شده در پایگاه داده جهانی پروتئین مقایسه کنید، می توانید تأثیر بالقوه AlphaFold را درک کنید. AlphaFold به ما کمک می کند تا در گنجینه ای از توالی های DNA مرتب سازی کنیم و به دنبال پروتئین های جدید با ساختار و عملکردهای منحصر به فرد باشیم.
آیا AlphaFold من را به یک مدل ساز مولکولیِ زائد تبدیل کرده است؟
در مورد برنامه های شطرنج و Go - AlphaZero و AlphaGo - ما دقیقاً نمی دانیم که الگوریتم AlphaFold2 چه می کند و چرا از همبستگی های خاصی استفاده می کند، اما می دانیم که کار می کند.علاوه بر کمک به پیش بینی ساختار پروتئین های مهم، درک "تفکر" AlphaFold همچنین به ما کمک می کند تا بینش جدیدی در مورد مکانیسم تا شدن پروتئین به دست آوریم.
یکی از شایع ترین ترس هایی که در مورد هوش مصنوعی ابراز می شود این است که منجر به بیکاری در مقیاس بزرگ می شود. AlphaFold هنوز راه قابل ملاحظه ای را پیش رو دارد تا بتواند به طور مداوم و موفقیت آمیز تا شدن پروتئین را پیش بینی کند.
با این حال، پس از بالغ شدن و این که برنامه توانست پروتئین تا شونده را شبیه سازی کند، شیمی دانان محاسباتی به صورت یکپارچه در بهبود برنامه ها در گیر خواهند بود، سعی می کنند ارتباطات زیر بنایی مورد استفاده را بفهمند و از برنامه برای حل مشکلات مهمی مانند تا خوردگی نادرست پروتئین در ارتباط با بسیاری از بیماری ها مانند آلزایمر، پارکینسون، فیبروز کیستیک و بیماری هانتینگتون، استفاده کنند.
ما یک الگوریتم یاد گیری ماشین را با دانش جمع آوری شده از صدها آزمایش بیولوژیکی ترکیب کردیم تا تکنیکی را توسعه دهیم که به محققان پزشکی اجازه می دهد تا عملکرد پروتئین هایی را که ژن ها را در سلول ها روشن و خاموش می کنند، که عوامل رونویسی نامیده می شوند، کشف کنندAlphaFold و فرزندان آن مطمئناً روش کار شیمی دانان محاسباتی را تغییر می دهند، اما این روش را چیزی زائد نخواهند ساخت. سایر حوزه ها به این اندازه خوش شانس نخواهند بود. در گذشته روبات ها قادر بودند جایگزین انسان هایی شوند که کارِ دستی انجام می دادند. با هوش مصنوعی، مهارت های شناختی ما نیز به چالش کشیده می شود.
منبع: شانگ گائو، جالیس رحمان، University of Illinois at Chicago، مارک زیمر، Connecticut College