نگاهي به معماري پردازنده هاي گرافيکي نسل جديد ATI
نويسنده:بابک ولي زاده
دنياي کارت گرافيکي هميشه هيجان انگيز بوده و در اين زمينه در هر لحظه يک خبر مهم براي گفتن وجود دارد، اما امسال خبر مهمي که منتشر شد و توجه بسياري را به خود جلب کرد، عرضه کارت هاي گرافيکي سري HD 5000 از شرکت ATI با ويژگي هاي منحصر به فرد بود که از مهم ترين ويژگي هاي آن ها مي توان به پشتيباني از رابط DirectX 11 و قابليت سايه زني نسل پنج، فناوري Eyefinity که امکان اتصال حداکثر شش مانيتور به يک کارت گرافيکي را ممکن مي سازد و کارايي فوق العاده اين سري از کارت هاي گرافيکي در مقايسه با قيمت آن ها که باعث شده اين سري از کارت هاي ATI به عنوان قدرتمندترين کارت هاي گرافيکي تک پردازنده اي حال حاضر تبديل شوند، اشاره کرد.با توجه به اين موضوع تصميم داريم در ادامه به بررسي دقيق تر ويژگي هاي محصولات جديد ATI بپردازيم و با برنامه هاي جديد اين شرکت بيشتر آشنا شويم.
Shader Model 5.0:نسخه جديد، امکان برنامه نويسي واحدهاي سايه زن را بهينه کرده است، به طوري که امکان تغيير در آن ها را با کمک Objectها و رابط ها ممکن مي سازد.
پردازش چند رشته اي:نتيجه مستقيم اين ويژگي، افزايش کارايي کارت گرافيکي در پردازش تصاوير است.به اين ترتيب، دستورات و رشته هاي پردازشي به جاي آن که همگي از يک مسير به پردازنده گرافيکي برسند، از چند مسير و بسيار سريع تر به پردازنده گرافيکي رسيده و پردازش مي شوند.
DirectCompute 11:اين فناوري به سيستم عامل هاي Vista و هفت امکان دسترسي مستقيم به قدرت پردازشي کارت گرافيکي را مي دهد. همچنين برنامه نويسان مي توانند در نرم افزارهاي خود به پردازنده گرافيکي دسترسي داشته باشند (نرم افزارهايي به جز بازي ها).در بازي ها نيز از اين قابليت مي توان در پردازش تصاوير، Ray Tracing، ساخت اشياي شفاف، پردازش سايه ها، هوش مصنوعي و فيزيک استفاده کرد.
Tessellation سخت افزاري: Tessellation به معني موزائيک کاري است و به طور خلاصه وظيفه آن افزايش تعداد چند ضلعي ها براي طبيعي تر جلوه دادن يک شيء سه بعدي است.اگر در کارت گرافيکي چنين ويژگي به صورت سخت افزاري وجود داشته باشد، توسط DirectX 11 پشتيباني خواهد شد(در کارت هاي گرافيکي DirectX 11 يک واحد قابل برنامه ريزي Tessellation وجود دارد).
فشرده سازي پيشرفته HDR:اين قابليت جديد بر طبق نياز توسعه دهندگان در نسخه جديد DirectX 11 تعبيه شده است.دو روش BC6 و BC7 طبق گفته مايکروسافت در حال حاضر بهترين گزينه ها براي رسيدن به حداکثر فشرده سازي و کارايي مناسب است.به عنوان مثال، روش BC6 مي تواند اطلاعات مربوط به HDR را به نسبت 6:1 فشرده کرده و به صورت سخت افزاري آن ها را کدگشايي کند.
اشاره:براي مقايسه بهتر جالب است بدانيد که پردازنده گرافيکي GT 200 با يک ميليارد و چهارصد ميليون ترانزيستور، سطحي به اندازه 576 ميلي متر مربع را اشغال مي کند و پس از تغيير فناوري توليد به 55 نانومتر، اين اندازه به پانصد ميلي متر مربع کاهش يافت.کاهش اندازه پردازنده گرافيکي باعث مي شود تا در پروسه توليد و در هر ويفر، تعداد بيشتري پردازنده به دست آيد و در نتيجه هزينه توليد کاهش پيدا کند.
ميزان توان مصرفي در زمان بيکاري نيز نکته قابل توجهي است که از طريق کاهش فرکانس، ولتاژ پردازنده گرافيکي و حافظه ها امکان پذير شده است.
همچنين به ازاي هر SIMD چهار واحد پردازش بافت وجود دارد که در نتيجه تعداد اين واحدها نسبت به نسل قبل دوبرابر شده و به هشتاد عدد مي رسد.در کارت گرافيکي HD 5850 تعداد واحدهاي SIMD به هجده عدد و در نتيجه تعداد هسته هاي سايه زني به 1440 واحد کاهش يافته است.اندازه HD 5850 نيز حدود يک اينچ کوتاه تر از HD 5870 بوده و کانکتورهاي برق آن نيز در پشت آن قرار دارند.
هر SIMD داراي 32 کيلوبايت فضا براي ذخيره اطلاعات و هشت کيلوبايت حافظه نهان L1 براي ذخيره بافت ها است.اين دو حافظه توسط پردازشگرهاي رشته اي داخل هر هسته قابل دسترس بوده و به اين ترتيب مي توانند اطلاعات را با يکديگر به اشتراک بگذارند.به گفته AMD، سرعت انتقال اطلاعات در اين حافظه يک ترابايت در ثانيه است( تصوير6).
در سري HD 4000 بخشي براي Tessellation وجود داشت، اما در سري HD 5000 اين بخش بهينه و براي کار با DirectX 11 آماده شده است.در اين نسخه سازندگان بازي ها مي توانند با تهيه يک مدل گرافيکي، در هر زمان که خواستند، ميزان دقت آن را افزايش يا کاهش دهند.تمام اين کارها توسط پردازنده گرافيکي انجام خواهد گرفت و به برنامه نويسي زيادي نياز نخواهد داشت.برنامه نويسي اين قسمت توسط دو واحد سايه زن جديد به نام هاي Hull و Domain صورت مي گيرد که دستورهاي مربوط به آن در زبان برنامه نويسي سطح بالاي سايه زن ( HLSL 5.0 - High Level Shader Language 5.0)گنجانده شده است(تصوير7).
الگوريتم هاي مربوط به فيلتر Anisotropic نيز در سري جديد تغيير کرده اند و اين بار اين فيلتر به زاويه نمايش تصوير وابسته نيست و در نهايت در تصاوير زاويه دار، نتايجي بسيار بهتر از قبل حاصل مي کند(بنابراين، بازي هاي قديمي تر که از فيلتر Anistropic پشتيباني مي کنند، مي توانند با کمک اين سري از کارت هاي گرافيکي کيفيت بالاتري را توليد کنند).
کنترلر حافظه 256 بيتي مانند قبل به چهار کنترلر 64 بيتي تقسيم شده است که هريک با 128 کيلوبايت حافظه L2 براي بافت ها(دو برابر نسل قبل)با سرعت انتقال اطلاعات 435 گيگابايت در ثانيه در ارتباط است.با اين حال، پهناي باند حافظه نسبت به نسل قبل تنها حدود 23 درصد افزايش داشته، اما AMD معتقد است که اين مقدار پهناي باند مي تواند به خوبي در شرايط مختلف عمل کند.براي هر کنترلر حافظه نيز دو واحد ROP در نظر گرفته شده که هريک مي توانند در هر زمان چهار پيکسل را با هم ترکيب کنند.فيلتر تصحيح بافت SuperSampled نيز در نسل جديد وجود دارد.روش استفاده شده در اين فيلتر شامل چندين نمونه برداري از پيکسل هاي موجود در صفحه و نمايش آن ها در کنار يکديگر است که در نهايت نتيجه بسيار بهتري نسبت به ساير روش ها دارد.
همچنين نيازي به چيدمان دقيق مانيتورها در کنار يکديگر نيست و مانند تصوير مي توان از ترکيب هاي مختلفي براي چيدمان مانيتورها استفاده کرد(تصوير9).در حال حاضر Eyefinity تنها به صورت تک کارت گرافيکي پشتيباني مي شود، اما ATI قول فعال کردن اين قابليت در حالت Crossfire را نيز داده است.بنابراين مي توانيم منتظر قابليت اتصال تعداد بيشتري مانيتور به يک کامپيوتر شويم.
از Fermi در کارت هاي گرافيکي Quadro، Geforce و Tesla استفاده خواهد شد.در زمان نوشتن اين مقاله نمونه اي از کارت گرافيکي جديد Tesla در کنفرانس خبري اين شرکت به نمايش گذاشته شد که تنها براي پردازش هاي موازي(و نه بازي هاي سه بعدي)در نظر گرفته شده و تنها يک پورت DVI روي آن ديده مي شود که داراي ويژگي هاي عجيبي است (تصوير10).ويژگي اول وجود دو رابط براي SLI است که يکي از آن ها توسط خنک کننده پشت کارت پوشانده شده و عملاً بي استفاده است!ويژگي بعدي وجود دو رابط شش پين و هشت پين روي کارت گرافيکي است(با اين حال اندازه کارت چندان هم بلند نيست)که محل لحيم هاي هشت پين روي کارت گرافيکي تناسب چنداني با رابط آن ندارد(تصوير11)و از قرار اين کارت تنها يک نمونه آزمايشي براي معرفي در کنفرانس بوده است.تعداد ترانزيستورهاي به کار رفته در پردازنده هاي گرافيکي مدل معرفي شده، 3/1 ميليارد عدد و از نوع چهل نانومتري اعلام شد و به گفته NVIDIA قدرت آن هشت برابر پردازنده هاي گرافيکي قبلي همين شرکت است(تصوير12). تعداد واحدهاي سايه زني ( NVIDIA آن ها را هسته هاي CUDA ناميده است) 512 عدد، رابط حافظه 384 بيتي و حافظه GDDR5 با حداکثر پشتيباني از شش گيگابايت حافظه، پشتيباني از DirectX 11 و اجراي مستقيم دستورهاي C، ++C و Fortran از قابليت هاي آخرين کارت گرافيکي اين شرکت است.
زمان عرضه کارت هاي گرافيکي نسل بعد NVIDIA مشخص نيست.اواخر امسال و سه ماهه اول سال آينده تاريخ هايي است که از گوشه و کنار شنيده مي شود.اما نکته مهم، اول بودن ATI در ارائه کارت هاي گرافيکي نسل بعد است که نتيجه آن آشنايي بيشتر توليد کنندگان و تطبيق دادن روش هاي توليد بازي براي هماهنگي هرچه بيشتر با کارت هاي گرافيکي ATI(به عنوان تنها کارت هاي گرافيکي با امکان پشتيباني از DirectX 11) است که در نهايت باعث افزايش مقبوليت ATI در ميان کاربران و بازي دوستان خواهد شد.
منبع:عصر شبکه، شماره 96.
/ج
کمي درباره DirectX 11
Shader Model 5.0:نسخه جديد، امکان برنامه نويسي واحدهاي سايه زن را بهينه کرده است، به طوري که امکان تغيير در آن ها را با کمک Objectها و رابط ها ممکن مي سازد.
پردازش چند رشته اي:نتيجه مستقيم اين ويژگي، افزايش کارايي کارت گرافيکي در پردازش تصاوير است.به اين ترتيب، دستورات و رشته هاي پردازشي به جاي آن که همگي از يک مسير به پردازنده گرافيکي برسند، از چند مسير و بسيار سريع تر به پردازنده گرافيکي رسيده و پردازش مي شوند.
DirectCompute 11:اين فناوري به سيستم عامل هاي Vista و هفت امکان دسترسي مستقيم به قدرت پردازشي کارت گرافيکي را مي دهد. همچنين برنامه نويسان مي توانند در نرم افزارهاي خود به پردازنده گرافيکي دسترسي داشته باشند (نرم افزارهايي به جز بازي ها).در بازي ها نيز از اين قابليت مي توان در پردازش تصاوير، Ray Tracing، ساخت اشياي شفاف، پردازش سايه ها، هوش مصنوعي و فيزيک استفاده کرد.
Tessellation سخت افزاري: Tessellation به معني موزائيک کاري است و به طور خلاصه وظيفه آن افزايش تعداد چند ضلعي ها براي طبيعي تر جلوه دادن يک شيء سه بعدي است.اگر در کارت گرافيکي چنين ويژگي به صورت سخت افزاري وجود داشته باشد، توسط DirectX 11 پشتيباني خواهد شد(در کارت هاي گرافيکي DirectX 11 يک واحد قابل برنامه ريزي Tessellation وجود دارد).
فشرده سازي پيشرفته HDR:اين قابليت جديد بر طبق نياز توسعه دهندگان در نسخه جديد DirectX 11 تعبيه شده است.دو روش BC6 و BC7 طبق گفته مايکروسافت در حال حاضر بهترين گزينه ها براي رسيدن به حداکثر فشرده سازي و کارايي مناسب است.به عنوان مثال، روش BC6 مي تواند اطلاعات مربوط به HDR را به نسبت 6:1 فشرده کرده و به صورت سخت افزاري آن ها را کدگشايي کند.
بايد منتظر چه کارت هايي باشيم؟
اشاره:براي مقايسه بهتر جالب است بدانيد که پردازنده گرافيکي GT 200 با يک ميليارد و چهارصد ميليون ترانزيستور، سطحي به اندازه 576 ميلي متر مربع را اشغال مي کند و پس از تغيير فناوري توليد به 55 نانومتر، اين اندازه به پانصد ميلي متر مربع کاهش يافت.کاهش اندازه پردازنده گرافيکي باعث مي شود تا در پروسه توليد و در هر ويفر، تعداد بيشتري پردازنده به دست آيد و در نتيجه هزينه توليد کاهش پيدا کند.
ميزان توان مصرفي در زمان بيکاري نيز نکته قابل توجهي است که از طريق کاهش فرکانس، ولتاژ پردازنده گرافيکي و حافظه ها امکان پذير شده است.
تغييرات ساختاري نسل جديد
همچنين به ازاي هر SIMD چهار واحد پردازش بافت وجود دارد که در نتيجه تعداد اين واحدها نسبت به نسل قبل دوبرابر شده و به هشتاد عدد مي رسد.در کارت گرافيکي HD 5850 تعداد واحدهاي SIMD به هجده عدد و در نتيجه تعداد هسته هاي سايه زني به 1440 واحد کاهش يافته است.اندازه HD 5850 نيز حدود يک اينچ کوتاه تر از HD 5870 بوده و کانکتورهاي برق آن نيز در پشت آن قرار دارند.
هر SIMD داراي 32 کيلوبايت فضا براي ذخيره اطلاعات و هشت کيلوبايت حافظه نهان L1 براي ذخيره بافت ها است.اين دو حافظه توسط پردازشگرهاي رشته اي داخل هر هسته قابل دسترس بوده و به اين ترتيب مي توانند اطلاعات را با يکديگر به اشتراک بگذارند.به گفته AMD، سرعت انتقال اطلاعات در اين حافظه يک ترابايت در ثانيه است( تصوير6).
در سري HD 4000 بخشي براي Tessellation وجود داشت، اما در سري HD 5000 اين بخش بهينه و براي کار با DirectX 11 آماده شده است.در اين نسخه سازندگان بازي ها مي توانند با تهيه يک مدل گرافيکي، در هر زمان که خواستند، ميزان دقت آن را افزايش يا کاهش دهند.تمام اين کارها توسط پردازنده گرافيکي انجام خواهد گرفت و به برنامه نويسي زيادي نياز نخواهد داشت.برنامه نويسي اين قسمت توسط دو واحد سايه زن جديد به نام هاي Hull و Domain صورت مي گيرد که دستورهاي مربوط به آن در زبان برنامه نويسي سطح بالاي سايه زن ( HLSL 5.0 - High Level Shader Language 5.0)گنجانده شده است(تصوير7).
الگوريتم هاي مربوط به فيلتر Anisotropic نيز در سري جديد تغيير کرده اند و اين بار اين فيلتر به زاويه نمايش تصوير وابسته نيست و در نهايت در تصاوير زاويه دار، نتايجي بسيار بهتر از قبل حاصل مي کند(بنابراين، بازي هاي قديمي تر که از فيلتر Anistropic پشتيباني مي کنند، مي توانند با کمک اين سري از کارت هاي گرافيکي کيفيت بالاتري را توليد کنند).
کنترلر حافظه 256 بيتي مانند قبل به چهار کنترلر 64 بيتي تقسيم شده است که هريک با 128 کيلوبايت حافظه L2 براي بافت ها(دو برابر نسل قبل)با سرعت انتقال اطلاعات 435 گيگابايت در ثانيه در ارتباط است.با اين حال، پهناي باند حافظه نسبت به نسل قبل تنها حدود 23 درصد افزايش داشته، اما AMD معتقد است که اين مقدار پهناي باند مي تواند به خوبي در شرايط مختلف عمل کند.براي هر کنترلر حافظه نيز دو واحد ROP در نظر گرفته شده که هريک مي توانند در هر زمان چهار پيکسل را با هم ترکيب کنند.فيلتر تصحيح بافت SuperSampled نيز در نسل جديد وجود دارد.روش استفاده شده در اين فيلتر شامل چندين نمونه برداري از پيکسل هاي موجود در صفحه و نمايش آن ها در کنار يکديگر است که در نهايت نتيجه بسيار بهتري نسبت به ساير روش ها دارد.
Eyefinity فناوري جادويي
همچنين نيازي به چيدمان دقيق مانيتورها در کنار يکديگر نيست و مانند تصوير مي توان از ترکيب هاي مختلفي براي چيدمان مانيتورها استفاده کرد(تصوير9).در حال حاضر Eyefinity تنها به صورت تک کارت گرافيکي پشتيباني مي شود، اما ATI قول فعال کردن اين قابليت در حالت Crossfire را نيز داده است.بنابراين مي توانيم منتظر قابليت اتصال تعداد بيشتري مانيتور به يک کامپيوتر شويم.
UVD 2.0
NVIDIA کجاست؟
از Fermi در کارت هاي گرافيکي Quadro، Geforce و Tesla استفاده خواهد شد.در زمان نوشتن اين مقاله نمونه اي از کارت گرافيکي جديد Tesla در کنفرانس خبري اين شرکت به نمايش گذاشته شد که تنها براي پردازش هاي موازي(و نه بازي هاي سه بعدي)در نظر گرفته شده و تنها يک پورت DVI روي آن ديده مي شود که داراي ويژگي هاي عجيبي است (تصوير10).ويژگي اول وجود دو رابط براي SLI است که يکي از آن ها توسط خنک کننده پشت کارت پوشانده شده و عملاً بي استفاده است!ويژگي بعدي وجود دو رابط شش پين و هشت پين روي کارت گرافيکي است(با اين حال اندازه کارت چندان هم بلند نيست)که محل لحيم هاي هشت پين روي کارت گرافيکي تناسب چنداني با رابط آن ندارد(تصوير11)و از قرار اين کارت تنها يک نمونه آزمايشي براي معرفي در کنفرانس بوده است.تعداد ترانزيستورهاي به کار رفته در پردازنده هاي گرافيکي مدل معرفي شده، 3/1 ميليارد عدد و از نوع چهل نانومتري اعلام شد و به گفته NVIDIA قدرت آن هشت برابر پردازنده هاي گرافيکي قبلي همين شرکت است(تصوير12). تعداد واحدهاي سايه زني ( NVIDIA آن ها را هسته هاي CUDA ناميده است) 512 عدد، رابط حافظه 384 بيتي و حافظه GDDR5 با حداکثر پشتيباني از شش گيگابايت حافظه، پشتيباني از DirectX 11 و اجراي مستقيم دستورهاي C، ++C و Fortran از قابليت هاي آخرين کارت گرافيکي اين شرکت است.
زمان عرضه کارت هاي گرافيکي نسل بعد NVIDIA مشخص نيست.اواخر امسال و سه ماهه اول سال آينده تاريخ هايي است که از گوشه و کنار شنيده مي شود.اما نکته مهم، اول بودن ATI در ارائه کارت هاي گرافيکي نسل بعد است که نتيجه آن آشنايي بيشتر توليد کنندگان و تطبيق دادن روش هاي توليد بازي براي هماهنگي هرچه بيشتر با کارت هاي گرافيکي ATI(به عنوان تنها کارت هاي گرافيکي با امکان پشتيباني از DirectX 11) است که در نهايت باعث افزايش مقبوليت ATI در ميان کاربران و بازي دوستان خواهد شد.
منبع:عصر شبکه، شماره 96.
/ج