DNA: جایگزینی مناسب برای ذخیره سازی داده ها

مارپیچ دوگانه می‌تواند حجم حیرت‌آوری از اطلاعات را در حجمی تقریباً غیرقابل تصور کمی بایگانی کند. در دنیای پر از داده ها، فهمیدن اینکه کجا و چگونه آن را به طور موثر و ارزان ذخیره کنیم، به یک مشکل بزرگ تبدیل شده است. یکی از عجیب ترین ولی بهترین راه حل ممکن، آرشیو اطلاعات در مولکول های DNA است. روش رایج نگهداری طولانی مدت در سردخانه، که به دهه 1950 باز می گردد، داده ها را روی قرقره های نوار مغناطیسی به اندازه پیتزا می نویسد. در مقایسه، ذخیره سازی DNA به طور بالقوه ارزان تر، انرژی کارآمدتر و ماندگارتر است. مطالعات نشان می‌دهد که DNA به‌طور مناسب محصور شده با نمک برای دهه‌ها در دمای اتاق پایدار می‌ماند و باید در محیط‌های کنترل‌شده یک مرکز داده بسیار طولانی‌تر باقی بماند. DNA نیازی به نگهداری ندارد و فایل های ذخیره شده در DNA به راحتی با هزینه ناچیز کپی می شوند. حتی بهتر از آن، DNA می‌تواند حجم حیرت‌آوری از اطلاعات را در حجمی تقریباً غیرقابل تصور کم بایگانی کند. این را در نظر بگیرید: بشریت تا سال 2025 حدود 33 زتابایت داده تولید خواهد کرد که این عدد در واقع 3/3 و به دنبال آن 22 صفر است. ذخیره‌سازی DNA می‌تواند همه آن اطلاعات را در یک توپ پینگ پنگ فشرده کند. 74 میلیون بایت اطلاعات موجود در کتابخانه کنگره را می توان در آرشیو DNA به اندازه یک دانه خشخاش جمع نمود. فناوری ذخیره‌سازی DNA امروزه وجود دارد، اما برای دوام‌پذیر ساختن آن، محققان باید چند مانع فن‌آوری دلهره‌آور در مورد ادغام فناوری‌های مختلف را برطرف کنند. به عنوان بخشی از یک همکاری بزرگ برای انجام این کار، تیم تحقیقاتی در آزمایشگاه ملی لوس آلاموس یک فناوری کلیدی را برای ذخیره‌سازی مولکولی توسعه داده اند. نرم افزار آن ها به نام Adaptive DNA Storage Codex (ADS Codex)، فایل های داده را از زبان رایانه ها به کد چهار حرفی که زیست شناسی می فهمد، ترجمه می کند. ADS Codex یک بخش کلیدی از برنامه فعالیت پروژه های تحقیقاتی پیشرفته هوشی (IARPA) ذخیره سازی اطلاعات مولکولی (MIST) است.

از کد کامپیوتری تا کد ژنتیکی

وقتی اکثر مردم به DNA فکر می کنند، به زندگی فکر می کنند، نه کامپیوتر. اما DNA خود یک کد چهار حرفی برای انتقال اطلاعات در مورد یک موجود زنده است. مولکول های DNA از چهار نوع باز یا نوکلئوتید ساخته می شوند که هر کدام با یک حرف مشخص می شوند: آدنین (A)، تیمین (T)، گوانین (G) و سیتوزین (C). آن ها اساس همه کدهای DNA هستند و دستورالعمل ساخت هر موجود زنده روی زمین را ارائه می دهند. سنتز DNA، یک فناوری کاملاً شناخته شده، به طور گسترده در پزشکی، داروسازی و توسعه سوخت های زیستی مورد استفاده قرار گرفته است. این تکنیک بازها را به ترتیب‌های مختلف سازمان‌دهی می‌کند که با توالی‌های خاص A، C، G و T نشان داده می‌شوند. این پایه‌ها در یک زنجیره پیچ در پیچ به دور یکدیگر ( مارپیچ دوگانه ) می‌پیچند تا مولکول را تشکیل دهند. ترتیب این حروف به صورت توالی کدی را ایجاد می کند که به ارگانیسم می گوید چگونه تشکیل شود. مجموعه کاملی از مولکول‌های DNA ژنوم طرح اولیه بدن شما را می‌سازد. با سنتز مولکول‌های DNA ( ساختن آنها از ابتدا ) محققان دریافته‌اند که می‌توانند رشته‌های بلندی از حروف A، C، G و T را بنویسند و سپس آن توالی‌ها را دوباره بخوانند. این فرآیند مشابه نحوه ذخیره اطلاعات باینری توسط رایانه است. در نتیجه، این یک گام مفهومی کوتاه برای رمزگذاری یک فایل کامپیوتری باینری در یک مولکول بود. این روش ثابت شده است که کار می کند، اما خواندن و نوشتن فایل های رمزگذاری شده با DNA در حال حاضر زمان زیادی می برد. الحاق یک باز به DNA حدود یک ثانیه طول می کشد. نوشتن یک فایل بایگانی با این سرعت ممکن است چندین دهه طول بکشد، اما تحقیقات در حال توسعه روش‌های سریع‌تر، از جمله عملیات موازی گسترده‌ای است که روی بسیاری از مولکول‌ها به طور همزمان می‌نویسند. کدکس ADS دقیقاً نحوه ترجمه صفرها و یک ها را به دنباله هایی از چهار حرف ترکیبی از A، C، G و T می گوید. Codex همچنین رمزگشایی را به زبان رایانه انجام می دهد. DNA را می توان با چندین روش سنتز کرد و ADS Codex می تواند همه آنها را در خود جای دهد. متأسفانه، در مقایسه با سیستم‌های دیجیتال سنتی، میزان خطا هنگام نوشتن روی ذخیره‌سازی مولکولی با سنتز DNA بسیار بالاست. این خطاها از منبعی متفاوت نسبت به دنیای دیجیتال ناشی می‌شوند و اصلاح آنها را دشوارتر می‌کند. در یک هارد دیسک دیجیتال، خطاهای باینری زمانی رخ می دهد که صفر به یک تبدیل شود یا برعکس. در DNA، مشکلات ناشی از خطاهای درج و حذف است. به عنوان مثال، ممکن است شما در حال نوشتن A-C-G-T هستید، اما گاهی اوقات سعی می کنید A بنویسید، و چیزی ظاهر نمی شود، بنابراین دنباله حروف به سمت چپ تغییر می کند، یا AAA را تایپ می کند. کدهای تصحیح خطای عادی با چنین مشکلی به خوبی کار نمی کنند، بنابراین ADS Codex کدهای تشخیص خطا را اضافه می کند که داده ها را تأیید می کند. هنگامی که نرم افزار داده ها را به باینری تبدیل می کند، آزمایش می کند تا ببیند کدها مطابقت دارند. اگر این کار را انجام ندهند، پایه‌ها ( حروف ) را حذف یا اضافه می‌کند تا اینکه راستی‌آزمایی با موفقیت انجام شود.

دانمشندان نسخه 1.0 ADS Codex را تکمیل کرده‌اند و در اواخر امسال قصد دارند از آن برای ارزیابی سیستم‌های ذخیره‌سازی و بازیابی توسعه‌یافته توسط سایر تیم‌های MIST استفاده کنند. این کار به خوبی با تاریخچه لوس آلاموس در پیشروی پیشرفت‌های جدید در محاسبات به عنوان بخشی از مأموریت امنیت ملی تحقیقات مطابقت دارد. از دهه 1940، به عنوان یک نتیجه از این پیشرفت‌های محاسباتی، دانشمندان برخی از قدیمی‌ترین و بزرگترین ذخیره‌های داده‌های دیجیتالی را جمع‌آوری کرده‌اند. هنوز هم ارزش فوق العاده ای دارد. تمام داده‌های جهان ( همه عکس‌ها و توییت‌های دیجیتال شما؛ تمام سوابق بخش مالی جهانی؛ تمام آن تصاویر ماهواره ای از زمین های زراعی، حرکت نیروها و ذوب یخبندان، تمام شبیه سازی های زیربنای بسیاری از علوم مدرن؛ و خیلی چیزهای دیگر ) باید جایی ذخیره شود. اصطلاح "ابر" اصلاً ابر نیست، بلکه مراکز داده دیجیتال در انبارهای بزرگ است که مقادیر زیادی برق برای ذخیره (و خنک نگه داشتن) تریلیون ها میلیون بایت مصرف می کند. هزینه ساخت، نیرو و راه اندازی این مراکز داده میلیاردها دلار است، زیرا نیاز به ذخیره سازی داده ها به طور تصاعدی در حال افزایش است. DNA نوید بزرگی را برای رفع اشتهای پرخاشگر جهان برای ذخیره سازی داده ها نشان می دهد. این فناوری به ابزارهای جدید و روش های جدیدی برای استفاده از ابزارهای آشنا نیاز دارد. اما اگر روزی با ارزش ترین آرشیوهای جهان خانه جدیدی در مجموعه ای از مولکول ها به اندازه دانه خشخاش پیدا کرد، تعجب نکنید. بودجه برای کدکس ADS توسط فعالیت پروژه های تحقیقاتی پیشرفته اطلاعاتی (IARPA)، یک آژانس تحقیقاتی در دفتر مدیر اطلاعات ملی، تامین شد.

مزایای عمده ذخیره سازی داده های DNA نسبت به ذخیره سازی دیجیتال

DNA *ها می توانند برای مدت طولانی (10000 سال) بدون هیچ مراقبت خاصی پایدار باقی بمانند که آن را به مکان امن تری برای ذخیره اطلاعات دیجیتال تبدیل می کند. نوارهای مغناطیسی که برای آرشیو داده های دیجیتالی استفاده می شوند پس از چند سال تخریب می شوند.
DNA * می تواند یکپارچگی خود را بدون هیچ منبع تغذیه ای حفظ نماید. همچنین اندازه و وزن کم آن، نگهداری و حمل و نقل آن را آسان می کند.
DNA * کمتر مستعد نقص فنی است.
* رسانه های ذخیره سازی دیجیتال به زودی منسوخ می شوند. همانطور که می‌دانیم رسانه‌های ذخیره‌سازی مختلف ( فلاپی دیسک‌ها، سی‌دی‌ها، دی‌وی‌دی‌ها، هارد دیسک‌های قابل حمل، درایوهای انگشت شست و فضای ذخیره‌سازی ابری)، همگی عمر محدودی دارند. اما تا زمانی که موجودات زنده و زیست شناسان وجود دارند، کسی باید برای خواندن داده های DNA در آنجا باشد.

معایب ذخیره سازی داده های DNA

* هزینه بالای سنتز DNA به ازای هر داده ذخیره شده (حدود 12400 دلار آمریکا به ازای هر مگابایت داده ذخیره شده). روش های سنتز DNA به شیمی آلی بستگی دارد. از این رو هزینه سنتز DNA بسیار گران است.
* داده ها با سرعت کم بازخوانی می شوند و دسترسی به داده ها زمان بر است. برای خواندن توالی داده‌ها که به‌عنوان زبان DNA (به شکل حروف کد DNA «A-00»، «T-01»، «C-10» و «G-11») ذخیره می‌شود، باید دستگاه DNA به آزمایشگاه فرستاده شود. بنابراین، فن آوری های جدید برای پیشبرد زمینه ذخیره سازی داده های DNA مورد نیاز است.
* بلوغ فناوری زمان می برد تا دستگاه های بسیار ارزانی را برای استفاده روزانه در اختیار ما قرار دهد.
DNA * قابل بازنویسی نیست، یعنی نمی‌تواند اطلاعاتی را که در اختیار دارد بدون انجام مجدد کل فرآیند ذخیره‌سازی اطلاعات به‌روزرسانی کند.
DNA * نیز اجازه دسترسی تصادفی را نمی دهد، به این معنی که برای دسترسی به بخش خاصی از داده های ذخیره شده، کل اطلاعات ذخیره شده باید رمزگشایی شود.
* DNA مصنوعی نیاز به ذخیره سازی سرد و تاریک دارد.
* در ابتدا DNA برای پشتیبانی از برنامه های کاربردی علوم زیستی و نه ذخیره سازی داده ها توسعه داده شد. از این رو چالش این است که قابلیت تجاری محصولات مبتنی بر ذخیره سازی داده های DNA را داشته باشیم.

منبع: Scientific American