آشنائي با معماري ATI Radeon HD 5870

صنعت PCهاي خاص مشتاقان سخت افزار، در بخش عمده اي از سال جاري به يک محل نسبتاً تاريک تبديل شده بود. اما با عرضه Windows 7، مي توان پيش بيني کرد که تدريجاً نوري را در انتهاي اين تونل مشاهده خواهيم نمود. ظاهر شدن اين نور با عرضه پردازنده هاي Lyynnfield اينتل آغاز شد.
شنبه، 6 آذر 1389
تخمین زمان مطالعه:
موارد بیشتر برای شما
آشنائي با معماري ATI Radeon HD 5870

آشنائي با معماري ATI Radeon HD 5870
آشنائي با معماري ATI Radeon HD 5870


 






 
صنعت PCهاي خاص مشتاقان سخت افزار، در بخش عمده اي از سال جاري به يک محل نسبتاً تاريک تبديل شده بود. اما با عرضه Windows 7، مي توان پيش بيني کرد که تدريجاً نوري را در انتهاي اين تونل مشاهده خواهيم نمود. ظاهر شدن اين نور با عرضه پردازنده هاي Lyynnfield اينتل آغاز شد.
دومين محصول مهم،امسال عرضه شد و اين بارنوبت AMD بود. ازسوي ديگر،در اين مرحله تمرکزازCPUها به سمت GPUها انتقال يافت زيرا ATI Radeon HD 5870 اولين محصول مبتني بر معماري گرافيکي نسل بعدي AMD به حساب مي آيد. اين محصول در عين حال اولين کارت گرافيکي منطبق با DirectX 11 است که به نوبه خود يک تمايز برجسته مي باشد.
ATI Radeon HD 5870 خصوصاً براي توسعه دهندگان بازيها بعنوان يک محصول فوق العاده مهم درنظر گرفته مي شود، زيرا آنها از قبل انتقال تمرکز خود بر روي توليد بازيهائي که بسياري از ويژگيهائي جديد DirectX 11 در آنها پياده سازي شده اند را آغاز کرده اند.تمام اينکار درحال حاضر بر روي کارتهاي سري Radeon HD 5800 انجام مي شود،زيرا Nvidia هنوز اولين GPUهاي منطبق با DirectX 11 خود را دراختيار برنامه نويسان قرارنداده است.
اين يک واقعيت است که اولين حمله AMD به عرصه DirectX 10 يک ناکامي بزرگ بود: Radeon HD 2900 TX تنها پنج ماه پس از عرضه اوليه آن از فروشگاه ها جمع آوري شد،زمانيکه شرکت AMD با عجله محصول Radeon HD 3870 خود را بعنوان بخشي از يک تلاش محدودسازي خسارات معرفي کرد. R600 يک هيولاي بزرگ و داغ بود که عملکرد خوبي را به نمايش نمي گذاشت،اين کارت به سختي مي توانست با Nvidia GeForce 8800 GTX که به سادگي آن را درگرد و غبار سرعت خود جا مي گذاشتند.
درزمينه عملکرد، Radeon HD 3870 نيز توانست تغييرچنداني در شرايط ايجاد نمايد. اين پردازنده گرافيکي هنوز داراي همان 64 پردازنده Shader پنج مسيره( يا 320 پردازنده جريان) پياده سازي شده در R600 بود، درحاليکه مشکلات عملکرد Antialiasing نيز برطرف نشده بودند. ROPها ( يا Back-endهاي راندو) هنوز فاقد يک واحد اختصاصي MSAA Resolve مبتني بر سخت افزار بودند که مي توانست تاثيرچشمگيري بر عملکرد AA داشته باشد. درنهايت، سرعتهاي کلاک نيز بطور قابل توجهي بهبود نيافته بودند.
در عين حال، کاري که AMD انجام داد، کاهش چشمگير اندازه die و مصرف برق تراشه گرافيکي جديد بود که کمک مي کرد تا اين GPU به يک محصول کارآمدتر تبديل شده و بتواند بخوبي در بازار کارتهاي گرافيکي متوسط به رقابت بپردازد.
البته اين کارت يک رقيب براي GeForce 8800 GT( که يک نسبت «ارزش در برابر پول» فوق العاده را با نقطه قيمتي بسيار جذابي ارائه مي کرد) به حساب نمي آمد. با اينحال،Radeon HD 3850 يک محصول موفق براي AMD بود و Nvidia تلاش کرد تا ازچند زاويه مختلف با آن رقابت نمايد. اکثر اين تلاشها ناموفق بودند، زيرا تراشه RV670 کارت گرافيکي Radeon HD 3850 عملکرد بسيار بالائي را در يک نقطه قيمتي پائين فراهم مي کرد.
عليرغم آنکه RV670 اولين انتخاب براي اکثريت کاربران به حساب نمي آمد،اما يک محصول فوق العاده موفق در تاريخ AMD بود. در واقع،اين محصول توانست روش تفکر شرکت AMD درباره توليد GPUها را تغييردهد و البته اولين ميوه اين تغيير بزرگ نيز RV770 ( بطور دقيق تر، Radeon HD 4870 و Radeon HD 4850 ) بود که همه ما به ياد داريم چگونه توانست وضعيت کل بازار را تغيير دهد. Cypress يعني همان تراشه اي که در پشت Radeon HD 5870 قرار گرفته،يک ضميمه از فلسفه RV670 به حساب مي آيد.

کارت مرجع Radeon HD 5870
 

طراحي مرجع کارت Radeon HD 5870 از جنبه هاي بسياري يک طراحي بحث انگيز به حساب مي آيد،نه به اين دليل که دريچه هاي قسمت جلوئي آن تا حدودي به اتومبيل يک ابرقهرمان داستانهاي کميک شباهت دارد،بلکه تا حدود زيادي بخاطر طول کارت.
پس ازنصب مکانيزم خنک کننده،طول کارت Radeon HD 5870 به 275 ميليمتر مي رسد که درميان ساير کارتهاي گرافيکي سطح بالا کم سابقه است.البته طول اين کارت اصلاً به GeForce 7900 GX2 نمي رسد.
طول PCB خود HD 5870 معادل 26/7 سانتيمتر است، در نتيجه اين دکور تجملاتي کارت است که مي تواند در کيسهائي با عمق محدود مشکل ساز باشد.بهتر است پيش از تصميم گيري در مورد خريد اين کارت، مطمئن شويد که در فضاي کيس شما جا خواهد گرفت زيرا در غير اينصورت يا مجبور به بريدن بخش انتهائي مکانيزم خنک کننده کارت خواهيد بود(!!!) و يا بايد تغييراتي را درکيس خود اعمال نمائيد.
بطور کلي، طراحي Radeon HD 5870 داراي يک سبک اختصاصي بوده و احتمالاً خوش ظاهرترين کارت گرافيکي ATI است که اخيراً با آن مواجه شده ايد. با اينحال،مي توان گفت که اين کارت يک تقاطع جالب مابين Batmobile( اتومبيل بت من) و A-Team van است. تنها انتقاد واقعي ما به نام تجاري ATI Radeon حک شده درامتداد قسمت جانبي کارت مربوط مي شود که ازيک فونت متفاوت نسبت به ساير نشانه هاي موجود بر روي اين کارت استفاده مي کند و ظاهر نسبتاً غريبي به آن داده است. ما در ابتدا تصور مي کرديم که اين روش حک نام تجاري تنها بر روي کارت مرجع تعبيه شده است، اما تمام کارتهاي خرده فروشي که تاکنون روانه بازارشده اند داراي همين نشان مي باشند(در واقع ما انتظار داشتيم که لوگوها يا برچسبهاي خاص توليدکنندگان را در اين بخش مشاهده کنيم).
زبانه Bracket (PCI) اين کارت، مجموعه تاثيرگذاري از گزينه هاي خروجي نمايشگر را ترکيب مي کند.شما در اين قسمت يک جفت کانکتور Dual-link DVI منطبق با HDCP،يک سوکت HDMI و يک کانکتور DisplayPort را مشاهده مي نمائيد.با وجود آنکه GPU جديد حداکثر از 6 خروجي نمايشگر همزمان پشتيباني مي کند، شما تنها مي توانيد از سه خروجي همزمان بر روي اين کارت استفاده نمائيد. اگر به تعداد بيشتري از خروجيهاي نمايشگرنيازداريد، بايد منتظر Radeon HD 5870 Eyefinity Edition بمانيد.

طراحي خنک کننده مرجع Radeon HD 5870
 

در قسمت پشت کارت،يک پوشش حرارتي آلومينيومي قرارگرفته است که تقريباً تمام PCB را مي پوشاند.تنها بخشي که کاملاً پوشيده نشده،ناحيه پشت GPU است. در اين قسمت،يک تکيه گاه 4 نقطه اي معمولي قرارگرفته است که تماس مناسب ميان GPU و حرارت گيرآن را تضمين مي کند.
برداشتن پوشش پشت کارت،تعداد بسيار اندکي از قطعات پشت PCB سياه رنگ کارت را آشکار مي کند. البته تعداد زيادي مقاومت،خازن و ديود بر روي سطح پشتي کارت نصب شده اند، اما در اينجا هيچ خبري از تراشه هاي حافظه نيست. تمام تراشه هاي حافظه در قسمت روئي کارت نصب شده و GPU را احاطه کرده اند.
حرارت گير از پنکه شعاعي آشنا استفاده مي کند: يک پنکه 70 ميليمتري نسبتاً بي صدا.تحت فشار کاري، صداي پنکه تا حدودي بلندتر مي شود اما نمي توان آن را پر سرو صدا در نظرگرفت. براي مثال، اين پنکه سرعت خود را بطور تصادفي بالا يا پائين نمي برد و درعين حال، به هيچ وجه به اندازه خنک کننده Radeon HD 4890 پر سر و صدا نيست.ما هردو کارت را مستقيماً با قراردادن آنها بر روي سيستمهاي يکساني که درکناريکديگرقرار گرفته بودند و سپس اجراي بارهاي کاري مشابه بر روي هر دو کارت،آزمايش کرديم.
مکانيزم حرارت گير به 4 لوله حرارتي 6 ميليمتري مجهزاست که گرما را از نقطه تماس مسي با GPU به آرايه پره هاي آلومينيومي ( که بقيه خنک کننده را تشکيل مي دهند) منتقل مي کنند. پنکه شعاعي،هوا را درميان اين پره ها مي دمد که سپس از منافذ موجود درانتهاي کارت خارج خواهد شد.منافذ PCI Bracket بسيارکوچکتر از چيزي هستند که ما به ديدن آن عادت کرده ايم، اما AMD تلاش مناسبي را براي هدايت هوا ازطريق يک مجرا انجام داده است تا خروج کارآمد هواي گرم از ميان منافذ مذکور را تضمين نمايد.
با اينحال،تمام هواي گرم مستقيماً از کيس خارج نمي شود، زيرا منافذي درامتداد بالائي پوشش حرارت گير وجود دارند( براي مثال، در قسمتهاي پلاستيکي قرمز رنگ). در اينجا نيز کانالهائي در زير اين پوشش تعبيه شده اند تا هدايت هوا درامتداد صحيح را تضمين کنند.
با قضاوت براساس اندازه منافذ لبه بالائي پوشش خنک کننده و احساس جريان هواي اطراف اين ناحيه،مي توانيم بگوئيم که کمتر از يک سوم هواي خروجي به درون کيس برمي گردد. در عين حال، کارت هرگز آنقدر داغ نمي شود که نتوانيد آن را لمس کنيد و اين وضعيت نشان مي دهد که Radeon HD 5870 در خلاص شدن از شر حرارتي که توليد مي کند کاملاً موفق است، برخلاف Radeon HD 4870 و Radeon HD 4890 که مسئول سوختگي انگشتان زيادي هستند.
بطور کلي،اين خنک کننده از طراحي بسيار خوبي برخورداراست و برطراحي خنک کننده Nvidia براي کارتهاي GT200 برتري دارد. Nvidia معمولاً براي اين کارتهاي خود يک مجموعه از منافذ را در امتداد قسمت جانبي کارت به منفذ پشتي آن اضافه مي کند که به اين ترتيب،کارتهاي مبتني بر GT200 عملاً مقدار زيادي از حرارت خود را به داخل کيس شما تخليه مي نمايند(عليرغم آنکه منافذ پشتي آنها بزرگتراست).البته خنک کننده مرجع HD 5870 نيز مقدار از حرارت خود را به داخل کيس شما تخليه مي کند،اما اين محصول يک کارت بسيار خنک تر است و منافذ پشتي آن نيزبخوبي کار مي کنند که باعث مي شود در اين زمينه مشکل کمتري را ايجاد نمايد.

مدار تغذيه برق Radeon HD 5870
 

در زير حرارت گير،8 تراشه حافظه Samsung K4G10325FE-HC04 1 Gbit GDDR5 قرار گرفته اند که در يک وضعيت L-شکل دراطراف پردازنده گرافيکي Cypress تعبيه شده و در مجموع 1 گيگابايت حافظه اين کارت را تشکيل مي دهند.اين تراشه ها براي فرکانس 1250 مگاهرتز(فرکانس موثر5000 مگاهرتز) رده بندي شده اند که 50 مگاهرتز پائينترازسرعت تنظيمي آنها بر روي کارتRadeon HD 5870 است. بعبارت ديگر،يک کارت Radeon HD 5870 استاندارد داراي 1 گيگابايت حافظه GDDR5 است که با فرکانس 1/2 گيگاهرتز ( فرکانس موثر 4/8 گيگاهرتز ) کار مي کند.
يکي از تاثيرگذارترين قسمتهاي کارت، مدار تغذيه برق آن است که تماماً ديجيتال بوده و درسراسر PCB پخش شده.تغذيه برق GPU توسط PWM ديجيتال ازنوع Volterra VT1157SF تامين مي گردد که توسط يک تنظيم کننده ولتاژ Volterra VT1165MF کنترل مي شوند. در صورتيکه اين ترکيب کافي نباشد،پيش بينيهائي براي فازپنجم درنظر گرفته شده است( احتمالاً AMD در نظر دارد يک نسخه سريعتراز 5870 را درآينده عرضه نمايد).
در کناراين مجموعه، دو Volterra VT242WF PWM کوچک قرار گرفته اند که تغذيه برق تراشه هاي حافظه GDDR5 را تامين مي کنند(احتمالاً براي vDD و vDDQ).با گردش بيشتر بر روي کارت، يک تنظيم کننده ولتاژ Volterra VT1165MF دوم را پيدا خواهيد کرد که به همراه يک Volterra VT1157SF PWM ديگر در کنار کانکتورهاي CrossFire قرار گرفته است و به اعتقاد ما وظيفه تامين تغذيه اضافي به کنترلر حافظه را برعهده دارد.در عين حال پيش بينيهائي براي يک PWM ثانويه نيزانجام شده است تا AMD بتواند تغذيه برق را بر روي يک کارت سريعترتقويت نمايد.
دو کانکتور6 پايه تغذيه برق PCI Express،مجموعاً 150 وات(هرکدام 75 وات) برق اضافي را علاوه بر 75 وات تامين شده توسط اسلات PCI Express در اختيارکارت قرار مي دهند. AMD مدعي است که حداکثر مصرف برق کارت Radeon HD 5870 معادل 188 وات است که بطور قابل ملاحظه اي پائين تر از حداکثر توان قابل دسترسي ( 225 وات) براي اين کارت به نظرمي رسد. اين وضعيت، فضاي خالي چشمگيري را براي اورکلاکينگ تامين مي کند،علاوه برآنکه دو نقطه اتصال ديگربراي تبديل کردن يکي از کانکتورهاي 6 پايه به يک کانکتور8 پايه 160 واتي نيزدرنظر گرفته شده اند.اين ويژگي بازهم براحتمال عرضه يک کارت سريعتر مبتني بر Cypress با استفاده از همين PCB توسط شرکت AMD تاکيد مي نمايد،اما عملي شدن اين احتمال به سطح عملکرد و سرعت نهائي کارتهاي مبتني بر تراشه GT300 رقيب Nvidia بستگي خواهد داشت.بخصوص بايد به کنترلرهاي Volterra VT1165MF اشاره کنيم، زيرا بصورت نرم افزاري قابل کنترل هستند. ما درمکاتبات خود با AMD متوجه شديم که اين کنترلرها براي نظارت بر دماي تنظيم کننده ولتاژ مورد استفاده قرار مي گيرند و مي توانند ولتاژ يا جريان تغذيه را براي جلوگيري از افزايش بيش از حد دما کاهش دهند.درمجموع مي توان نتيجه گرفت که با اين سطح از تحويل تغذيه برق GPU جديد شرکت AMD يک هيولاي واقعي است.

معماري (ATI Cypress RV870)
 

Cypress توسط TSMC و با فناوري پردازش 40 نانومتري توليد شده است. اين تراشه تعداد نفس گير 2/15 ميليارد ترانزيستور را بر روي يک die 334 ميليمتر مربعي جا مي دهد. اين die، تراشه R600 ( که سرنوشت شومي داشت) را به ياد شما مي آورد، زيرا بر روي بسته بندي خود با زاويه 45 درجه چرخيده است.
Cypress با سطح 334 ميليمتر مربعي خود يک GPU سطح بالا در اندازه متوسط به حساب مي آيد، اما به اندازه تراشه RV770 (Radeon HD) که 956 ميليون ترانزيستور را در يک ناحيه سطحي 256 ميليمتر مربعي جا داده بود، کوچک نيست. براي مقايسه، بد نيست بدانيد که تراشه GT200 شرکت Nvidia که با فناوري پردازش 65 نانومتري TSMC توليد شده بود، 576 ميليمتر مربع مساحت داشت درحاليکه کوچک سازي die در تراشه 55 نانومتري GT200b توانست اين اندازه را به کمتر از 500 ميليمتر مربع کاهش دهد. هر دو تراشه مذکور شرکت Nvidia تقريباً به 1/4 ميليارد ترانزيستور مجهزهستند.
اندازه die،يکي ازملاحظات مهم فروشندگان سخت افزاري است زيرا تاثير چشمگيري برهزينه ها و حواشي توليد دارد. اين موضوع براي کاربران اهميت زيادي ندارد،زيرا آنها صرفاً به ترکيب عملکرد، کيفيت تصوير،مصرف برق، گرما و نويز اهميت مي دهند. ويفرهاي 300 ميليمتري که اين dieها بر روي آنها توليد مي شوند داراي هزينه ثابتي هستند،اما تعداد die هاي بدست آمده ازهر ويفر مي تواند هزينه ها را افزايش يا کاهش دهد.
معماري Cypress شباهت زيادي با معماري Unified Shader قبلي شرکت AMD دارد،بنابراين اگر با RV670، R600 يا RV770 آشنائي داشته باشيد، سرچشمه هاي اصلي Cypress را درک خواهيد کرد.اين معماري مبتني بر فلسفه VLIW(Very Long Instruction Word) است که با XT 2900 معرفي شد، اما با اصلاحات و پيشرفتهائي که در RV770 به آن اضافه شدند.اين اصلاحات و بهسازيها در Cypress افزايش يافته اند که ما درادامه به بررسي آنها خواهيم پرداخت.
بخاطرکم رنگ تر شدن مرز ميان CPUها و GPUها، AMD بخشي از واژگان فني خود را با Cypress تغيير داده است. نام پردازنده هاي جريان(stream processor) اکنون به «هسته هاي» جريان تغييريافته، ولي ما از زمان R600 تاکنون بطورکامل با واژگان فني AMD راحت نبوده ايم،زيرا تمام پردازنده هاي جريان( يا آنطور که اکنون شناخته مي شوند، هسته هاي جريان) با يکديگر يکسان نيستند. عملکرد Nvidia در اين زمينه نيز درست به اندازه AMD بد بوده است، زيرا آنها نيزاکنون پردازنده هاي جريان خود را تحت عنوان هسته هاي جريان مي شناسند.
با اينحال،يک هسته يک واحد اجرائي نيست زيرا پردازنده هاي چند هسته اي امروزي در هر يک از هسته هاي خود داراي واحدهاي اجرائي متعددي هستند.درواقع، يک هسته بايد توانائي خود براي واکشي (Fetch) دستورالعملها از Instruction Dispatch شناسائي گردد.به اين ترتيب هنوز هريک از تراشه هاي RV770 و GT200 داراي 10 هسته اجرائي هستند، زيرا هر دو طراحي مذکور به 10 گروه (Cluster) پردازنده جريان مجهز شده اند. اين ويژگي هنوز يک ادعاي بازاريابي قدرتمند( و در عين حال دقيق تر)به حساب مي آيد، حتي اگر يک هسته پردازنده هنوز پيچيده ترو انعطاف پذيرتر از هسته هاي يک GPU باشد.
Cypress در فرم کامل خود به 20 واحد( يا هسته، با در نظر گرفتن تعريف فوق الذکر) SIMD با 16 پردازنده جريان 5 مسيره درهريک از آنها مجهزاست که مجموعاً 160 پردازنده جريان را تشکيل مي دهند. همانند RV770، چهار واحد بافت(Texture) براي هر SIMD وجود دارد و اين بدان معني است که تعداد کلي آنها درCypress به دو برابر (80 واحد) رسيده است. تعداد ROPها( Back-endهاي راندو)نيز در مقايسه با RV770 دو برابر شده و به 32 عدد رسيده است. گذرگاه حافظه درمحصول جديد تغيير نکرده و به همان صورت 256 بيتي باقي مانده است( گرچه شايعات زيادي بر خلاف اين وضعيت وجود داشت).
ATI Radeon HD 5850 که موضوع بحث اين مقاله ما نيست،داراي 18 واحد SIMD مي باشد که مجموعاً1440 پردازنده جريان و 72 واحد بافت را در اختيار آن قرار مي دهد.
ATI Radeon HD 5850 با فرکانس کلاک 725 مگاهرتز کار مي کند( در مقابل فرکانس کلاک 850 مگاهرتزي ATI Radeon HD 5870) که سقف توان عملياتي محاسباتي آن را به 2/09 ترافلاپس ( از 2/72 ترافلاپس در کارت قوي تر) کاهش مي دهد. با اينحال، Radeon HD 585032 ROP و اينترفيس حافظه 256 بيتي برادر بزرگترش را حفظ کرده و بر خلاف Radeon HD 4850 از حافظه GDDR5 استفاده مي کند.حافظه اين کارت با کلاک پائين تري يعني 1 گيگاهرتز ( فرکانس موثر4 گيگاهرتز ) درمقايسه با کلاک 1/2 گيگاهرتزي حافظه هاي تعبيه شده بر روي کارت Radeon HD 5870 کار مي کند،اما پهناي باند حافظه آن هنوز دو برابر Radeon HD 4850 بوده و 11 درصد بيشتر از پهناي باند حافظه اي است که Radeon HD 4870 در اختيار دارد.

DirectX 11
 

ما تاکنون بطورجدي به بحث درباره DirectX 11 نپرداخته ايم، گرچه مايکروسافت از نزديک به يکسال پيش صحبتهاي گوناگوني را بطور عمومي درباره اين API آغازکرده است. وقتي نوبت به DirectX 11 مي رسد،مي توان گفت که AMD از يک موقعيت عالي برخورداراست،بسيار شبيه به موقعيتي که Nvidia در مورد DirectX 10 داشت. Nvidia سخت افزارDirectX 10 خود را مدتها پيش از ATI در اختيار استوديوهاي توليدکننده بازي قرار داد و اين بدان معني بود که بازيها بر روي تراشه G80 توسعه يافتند( و در نتيجه براي آن بهينه سازي شدند).اين شرکت درعين حال کارتهاي خود را مدتها پيش از ATI براي فروش عمومي آماده کرد،بنابراين هر فردي که به دنبال يک کارت گرافيک نسل بعدي براي ويستا بود، تنها يک گزينه در اختيار داشت.
G80 در نوامبر سال 2006 عرضه شد، سه ماه پيش از ورود ويندوز ويستا به بازار.Windows 7 طبق برنامه در روز 22 اکتبرسال جاري عرضه خواهد شد که در آن زمان، يک ماه از ورود Radeon HD 5870 به بازار مي گذرد. به اين ترتيب مي توان گفت 22 اکتبر سال 2009 همان تاريخي است که DirectX 11 در دسترس کاربراني که از ويندوز ويستا يا Windows 7 استفاده مي کنند، قرار خواهد گرفت.
با اينحال، نکته مذکورالزاماً مهم ترين موضوع براي AMD به حساب نمي آيد. درواقع عملاً اين برتري براي AMD اهميت دارد که سخت افزار DX 11 خود را مدتها پيش از رقيب اصلي يعني Nvidia در اختيار توسعه دهندگان بازيها و برنامه نويسان قرار داده است. در نتيجه، اولين نسل از بازيهاي DirectX 11 بر روي سخت افزار Radeon توسعه خواهند يافت.ATI ( بخش محصولات گرافيکي AMD) از زمان Radeon 9700( که مدتها پيش از عرضه DirectX 9.0 ارائه گرديد) تاکنون چنين موقعيتي را بدست نياورده است.
کسب مقام «اولين» در اين زمينه از اهميت بسيار بالائي برخوردار است، زيرا تا زمانيکه Nvidia سخت افزاري را براي ارائه به برنامه نويسان آماده نمايد تا از آن استفاده کرده و برنامه هاي خود را مورد آزمايش قرار دهند، توسعه دهندگان بازيها و برنامه نويسان وقت زيادي خواهند داشت تا بر روي ويژگيهاي Cypress کار کرده و برنامه هائي را توسعه دهند که از نقاط قوت آن بهره گيري مي نمايند. در حال حاضر نمي توانيم بگوئيم که Nvidia دقيقاً چه زماني محصول DirectX 11 خود را عرضه خواهد کرد، اما منابع گوناگوني ادعا کرده اند که GT300 در سال جاري ميلادي وارد جريان فروش خواهد شد( حتي اگر اينکار در حجم محدودي انجام شود). پيش بيني مي شود تعداد قابل توجهي از اولين GPUهاي GT300 به استوديوهاي توليد بازي ارسال شوند که در نتيجه محدوديت کارتهاي مذکور در بازار را تشديد خواهد کرد.
DirectX 11 يک فرامجموعه (Superset) از DirectX 10 و DirectX 11 به حساب مي آيد و اين بدان معني است که بعضي از ويژگيهاي جديد آن براي GPUهاي منطبق با DirectX 10 نيز قابل دسترسي خواهند بود. البته بعيد به نظر مي رسد که استفاده از يک GPU منطبق با DirectX 10 به اندازه استفاده از يک GPU منطبق با DirectX 11 موثر باشد. از سوي ديگر،احتمالاً طراحي قديمي تر در اکثر موارد براي بهره گيري از تمام پيشرفتهاي DirectX 11 بيش از حد کند خواهد بود،اما نکته مهم اين است که برنامه نويسان مي توانند يک مسير کد را براي هر دو گروه سخت افزارهاي DirectX 10 و DirectX 11 بنويسند، زيرا سخت افزار DirectX 10 به سادگي مواردي که توسط آن پشتيباني نمي شوند را ناديده خواهد گرفت.
Tessellation يکي از ضمائم بسيار مهم DirectX 11 به حساب مي آيد و موضوعي است که AMD از زمان توليد GPUهاي Xenos مورد استفاده در Xbox 360 تاکنون مشغول کار بر روي آن بوده. در واقع مي توان گفت که اين حوزه يک قلمروي کاملاً آشنا براي AMD مي باشد. Tessellator در DirectX 11 پيشرفته تراز چيزي است که قبلاً ارائه شده بود،اما هنوز قابل برنامه ريزي نخواهد بود. درمقابل، اين مولفه براي تغذيه اطلاعات صحيح و سپس ارسال خروجي بصورت رئوس(Vertices) پيش از ادامه حرکت آنها در خط لوله راندو، به Shaderهاي Hull و Domain تکيه دارد.اين نوع Shaderها بر روي سخت افزارهاي قديمي تر پشتيباني نمي شوند،بنابراين واحد Tessellation بر روي تراشه هاي RV670،R600 و RV770 در محيط DirectX 11 آشکار نخواهد شد.DirectCompute( که قبلاً تحت عنوان Compute Shader شناخته مي شد) ضميمه مهم بعدي در DirectX 11 است که به برنامه نويسان امکان مي دهد تا از GPU براي وظايف Computing موازي همه منظوره استفاده نمايند. اين ويژگي مي تواند تاثير چشمگيري بر عملکرد داشته باشد زيرا GPU زمانيکه در حالت گرافيکي خود فعال است، تنها بر روي مثلثها کار مي کند. با اينحال، همه چيز با استفاده از مثلثها ساخته نمي شود و به همين دليل امکان استفاده از GPU بعنوان يک پردازنده فوق العاده موازي که تقريباً هيچ محدوديتي در مورد چيدمان و سازماندهي داده ها ندارد، مي تواند با يک بهبود فوق العاده در عملکرد همراه باشد.
در مورد بارهاي کاري گرافيکي خالص،«پس پردازش» (Post Proccessing) يکي از حوزه هائي است که توسط مايکروسافت،AMD Nvidia و تعدادي از توسعه دهندگان بازيها براي بهره گيري قابل ملاحظه از DirectCompute انتخاب شده.ميزان افزايش سرعت در اين شرايط تا چند برابر خواهد رسيد که مي تواند به وفاداري و واقعگرائي بسيار بهتر بازيهاي آتي منجر شود.
جلوه ديگري که AMD تاکيد فراواني بر آن دارد، « شفافيت مستقل از ترتيب» (Order Independent Transparency) است که از DirectCompute براي مرتب سازي بافتهاي شفاف در يک سيکل کلاک واحد استفاده مي کند. اين قابليت مي تواند تاثير فوق العاده اي بر کيفيت تصوير داشته باشد زيرا اشيائي که داراي لايه هاي شفاف متعددي هستند تاکنون هرگز واقعاً شفاف نبوده اند، زيرا برنامه نويسان بر Alpha Blending ساده تکيه دارند.
مرتب سازي مجدد سطوح شفاف براي ترسيم چند سطح شفاف يا سطوح شفافي که همپوشاني دارند، در گذشته با هزينه بيش از حدي همراه بود زيرا CPU بايد براي تضمين اين موضوع که سطوح در ترتيب صحيح قرارگرفته اند، درگير مي شد. در نتيجه، غالباً Clipping قابل توجهي در اطراف حاشيه هاي سطوح وجود داشت، زيرا برنامه نويسان از درگير نمودن بيش از حد CPU خودداري مي کردند تا از کاهش سرعت اجراي بازي جلوگيري نمايند.

موتور گرافيکي ATI Cypress
 

دستورالعملها به موتور گرافيکي Cypress فرستاده مي شوند و اين همان بخشي است که AMD آن را Front-end پردازنده گرافيکي جديد خود مي نامد.اين بخش از موتور Setup،پردازنده فرمان و پردازنده Ultra-Threaded Dispatch تشکيل شده است. چند تغيير قابل ذکر در اين بخش از Cypress اعمال شده اند و جنبه هاي گوناگوني نيز به/از آن اضافه يا حذف گرديده اند.
در ادامه الگوي دو برابر کردن، AMD يک پردازنده Hierarchical-Z و Rasterizer ثانويه را به اين موتور اضافه نموده است تا اطمينان پيدا کند که بقيه GPU قادر به اداره نوع بار کاري که به آن سپرده مي شود، مي باشد. آخرين چيزي که احتمالاً AMD مي خواهد، اين است که GPU جديدش نتواند تبديل Meshهاي شبکه سيمي پيچيده به پيکسلها را با سرعت کافي انجام دهد و بخشهائي از اين بانک عظيم پردازنده هاي جريان را بيکار نگهدارد.
DirectX 11 ويژگي راندوي چند رشته اي (Multi-Threaded) را براي اولين بار معرفي مي کند، اما مشخص نيست که آيا آخرين API مايکروسافت براي عملکرد صحيح خود به Rasterizerهاي دوگانه نياز دارد يا خير. هنگاميکه ما در اين مورد سوال کرديم، AMD پاسخ داد که هر دو Rasterizer دائماً قابل دسترسي خواهند بود. AMD با ويرايش موتور Set-up، واحد Geometry Dispatch به اين هدف دست يافته است، بصورتيکه دو Rasterizer بر روي دو مبدل اسکن 16 پيکسلي کارمي کنند که هريک از آنها بر روي پيکسلهاي غير همپوشان تمرکز دارند.
بعبارت ديگر،به اين ترتيب مي توان گفت که GPU قادراست صرفنظر از بازي يا نسخه DirectX مورد استفاده، از هر دو Rasterizer خود بهره گيري نمايد. حالا بايد منتظر عرضه DirectX 11 و همچنين تعدادي از بازيهاي منطبق با آن بمانيم تا بتوانيم صحت اين موضوع را بررسي کنيم.
API جديد مايکروسافت در عين حال Tessellation را براي اولين بار معرفي مي کند،اما واحدهاي Tessellation قبلي AMD با ملزومات DirectX 11 انطباق ندارند.درنتيجه، AMD يک واحد Tessellation جديد را پياده سازي کرده است که با Direct3D 11 انطباق دارد و الگوريتمهاي Teessellation مشهور نظيرCatmull-Clark را در يک سيکل واحد اداره مي نمايد.همچنين الگوريتمهاي جديدي دردسترس قرار دارند که به کاهش «Artifacting» ( تاثيرات مصنوعي نامطلوب) که در بعضي از واحدهاي Tessellation نسل قبلي ظاهر مي شدند، کمک مي کنند.
خود واحد Tessellation يک واحد تک منظوره مطابق با DirectX 11 است اما مي تواند سطح جزئيات هندسي را بطور شناورتنظيم کند.تماشاي اين عملکرد بسيار تاثيرگذاراست و يک قدم بزرگ به سمت جلو براي توسعه دهندگان بازيها به حساب مي آيد که به ايجاد مدلهائي با تقسيم بنديهاي مختلف براي کنترل سطوح مختلف جزئيات(LOD) مورد نياز در يک صحنه، عادت کرده اند. Tessellation به آنها امکان مي دهد تا تنها يک مدل تقسيم بندي شده را ايجاد کرده و سپس به GPU اجازه دهند که LOD را بصورت شناور اداره نمايد( وضعيتي که از نظر برنامه نويسي آسانتر بوده و در عين حال ظاهر بهتري را ايجاد مي کند).برنامه ريزي Tessellator با استفاده از Shaderهاي Hull و Domain اداره مي شود،انواع جديدي از دستورالعملهاي سايه زني که در HLSL 5.0 (High-Level Shader Language معرفي شده اند.
تغييرقابل توجه بعدي،ناپديد شدن Interpolatorها است. اين مولفه ها در RV770 واحدهاي تک منظوره اي بودند که در موتور Set-up قرار داشتند. به گفته AMD،اين واحدها در بعضي از سناريوها يک بخش محدود کننده عملکرد در RV770 بودند.اکنون Interpolation ( درون يابي) توسط هسته هاي پردازشي GPU ( يا همان گروه هاي پردازنده جريان)اداره مي شود.بخاطرطبيعت انعطاف پذيريک هسته در مقايسه با يک واحد فرعي تک منظوره، اکنون Interpolation براي هر پيکسل با استفاده ازيک ويژگي DirectX 11 با نام Pull-model Interpolation امکانپذيرشده است.
دستورالعمل با گذراندن مقاديرPer-pixel از موتورSet-up به Pixel Shader، پيش از متوقف شدن خصوصيات Per-vertex بصورت مورد نياز، کار مي کند. سپس Pixel Shader عمليات Per-pixel Interpolation را با استفاده از دستورالعملهاي ALU و مقادير مشتق شده در بالا اجرا مي کند. اين فرآيند نهايتاً کنترل بيشتري بر روي Interpolation و در نتيجه بر روي فيلترگذاري Shader و بافت را در اختيار برنامه نويسان قرار مي دهد. بعلاوه، شيوه جديد Interpolation تنها Per-pixel Interpolation را اضافه نمي نمايد، زيرا حرکت به سمت پردازش هسته اي( بجاي واحدهاي تک منظوره) در عين حال باعث حذف گلوگاه هاي قبلي در عمليات Interpolation خطي مي گردد.

هسته Shader در ATI Cypress
 

از نظر ترکيب بندي کلي، هسته هاي Cypress در مقايسه با RV770 تغيير چنداني نکرده اند( در واقع تنها تعداد آنها دو برابر شده است). هر هسته هنوز مبتني بر ايده SIMD(Single Instruction,Multiple Data) است و به 16 پردازنده رشته سوپراسکالار 5 مسيره VLIW(Very Long Instruction Word) مجهز است. به همين دليل است که ATI مي تواند ادعا کند که مجموعاً 1600 پردازنده جريان را در RV870 پياده سازي نموده،زيرا 20 هسته وجود دارند که از 16 پردازنده رشته تشکيل شده اند که هريک از آنها به نوبه خود داراي 5 پردازنده جريان است:1600=5×16×20 . درست همانند RV770 هر هسته داراي Sequencer و Arbiter مخصوص به خود مي باشد که در پردازنده Ultra-Threaded Dispatch با آن ارتباط دارند.
هرهسته داراي فضاي ذخيره سازي داده محلي 32 کيلوبايتي(درمقايسه با 16 کيلوبايت براي هرهسته در RV770) و 8 کيلوبايت کاشه L1 براي ذخيره سازي بافتها و رئوس مي باشد.اين دو کاشه به پردازنده هاي رشته اجازه مي دهند تا با يکديگرگفتگو کرده و داده هايشان را به اشتراک بگذارند،بدون آنکه مجبورباشند به حافظه خارج از die مراجعه کنند. AMD درباره پهناي باند و يا تاخيرجريان داده از/به ذخايرداده محلي صحبت نکرده است، اما مي گويد يک پهناي باند 1 ترابايت بر ثانيه اي به کاشه L1 وجود خواهد داشت. از هر زاويه که به اين رقم نگاه کنيد،يک پهناي باند شگفت انگيز به حساب مي آيد.
در داخل هريک از پردازنده هاي رشته سوپراسکالارVLIW، پنج واحد اجرائي، يک واحد پيش بيني انشعاب و يک مجموعه از رجيسترهاي General-Purpose قرار گرفته اند.ازبين 5 واحد داخل هر پردازنده رشته سوپراسکالار، 4 واحد مي توانند تعداد محدودي از دستورالعملها را در هر سيکل کلايک اداره نمايند،درحاليکه واحد پنجم از نوع «Special Function» است. چهار FPU استاندارد مي توانند دستورالعملهاي زير را در هر سيکل کلاک اداره کنند:
-4 دستورالعمل FP MAD 32 بيتي
-دو دستورالعمل FP MUL يا FP ADD 64 بيتي
-يک دستورالعمل MAD 64 بيتي
-4 دستورالعمل Int MUL يا Int ADD 24 بيتي
واحد Special Function پنجم،يک فرامجموعه از ساير واحدهاي اجرائي در هر پردازنده رشته است،اما در عين حال مي تواند محاسبات پيچيده تر نظير ضرب و تقسيم عدد صحيح،Bit Shifting و فرامين غيرجبري نظير SIN، COS،LOG و نظاير آنها را اداره کند.SFU همچنين مي تواند در صورت نياز يک عمليات FP MAD 32 واحد را در هر سيکل پردازش نمايد،اما بر خلاف سايرFPUهاي داخل پردازنده رشته قادربه اداره دستورالعملهاي 64 بيتي نيست، زيرا آنها بايد براي اجراي اين نوع دستورالعملها با يکديگر جفت شوند.
هر FPU مي تواند محصولات DOT و همچنين دستورالعملهاي SAD(Sum of Absolute Differences را اداره کند. AMD مي گويد محصولات DOT در تراشه Cypress بسيار انعطاف پذيرتر هستند، درحاليکه دستورالعمل SAD امکان افزايش چشمگيرتر سرعت را فراهم مي سازد.اين ويژگي عمدتاً براي عمليات محاسباتي عمومي،خصوصاً کدگذاري ويديوئي( که AMD مدعي است در اين مورد با يک افزايش 12 برابري سرعت در مقايسه با استفاده از دستورالعملهاي ذاتي، همراه مي باشد)مورد استفاده قرار مي گيرد.
اين ويژگي در OpenCL و DirectX ارائه نشده است،بلکه AMD آن را از طريق يک درب پشتي(Backdoor) در اختياربرنامه نويسان قرار مي دهد. در واقع قابليت مذکورازطريق توابع کتابخانه(Library Finctions) نظير مواردي که درکتابخانه رسانه AMD ( که براي برنامه نويساني که در حال توسعه نرم افزارهاي کاربردي کدگذاري ويديوئي هستند،قابل دسترسي مي باشد) وجود دارند، قابل استفاده بوده و در عين حال يک ضميمه OpenCL خواهد بود. AMD مي گويد کامپايلرجديد خود را طوري تنظيم کرده است که بتواند يک توالي از دستورالعملها را تشخيص داده و آنها را با يک دستورالعمل SAD جايگزين نمايد.اين کامپايلر فعلاً در مرحله آزمايش بتا است،اما AMD مي گويد بزودي قابل دسترسي خواهد بود.
IPC نيز در حوزه هاي عمومي بهبود يافته است و اين بهبود تا حدود زيادي به لطف معرفي«صدور همزمان» يک دستورالعمل MUL با يک دستورالعمل ADD مستقل در يک سيکل کلاک واحد امکانپذيرشده است. جمع- ضرب آميخته شده(Fused) نيز براي تقويت بيشترIPC اضافه شده اند، زيرا اين ويژگي مي تواند به يک عمليات MAD(Multiply-Add) امکان دهد تا در يک سيکل واحد با يک «گرد سازي»(Rounding) ساده انجام شود. واحد اجراي انشعاب نيز در داخل Cypress حضور دارد و باز هم همان عمليات شرطي و کنترل جريان به آن سپرده شده اند،اما AMD تصميم گرفته تا آن را درهنگام شمارش تعداد FPU ها به حساب نياورد.فضاي رجيستر نيز در سطح پردازنده رشته بدون تغييرباقي مانده است،اما بديهي است که بخاطر دو برابر شدن تعداد هسته ها( و درنتيجه تعداد پردازنده هاي رشته)،مجموع فضاي رجيستر نيزبه همان نسبت افزايش يافته.
منبع:نشريه بزرگراه رايانه،شماره 124



 



نظرات کاربران
ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
مقالات مرتبط