مفاهيم پايه صداي ديجيتال (2)
آيا ديجيتال، به معناي کيفيت است؟
رسانه ديجيتال، بعضي از مشکلات را بر طرف نموده است. براي مثال، هيچ نويز پس از ضبط به صدا نخواهد شد (برخلاف ضبط کننده هاي آنالوگ). با اين حال، ضبط ديجيتال نيز به نوبه خود با مشکلات جديدي همراه است. مهمترين مسئله در ميان اين موارد، از دست رفتن داده ها است. از آنجايي که تبديل آنالوگ به ديجيتال از سيگنال به صورت سطوح جداگانه اي نمونه برداري مي کند، مقداري از اطلاعات موجود در سيگنال اصلي را حذف مي نمايد. قابل توجه بودن(يا نبودن) مقدار داده هاي از دست رفته، تابعي از مشروح بودن نمونه ها است.
دو عنصر براي تعريف فرآيند نمونه برداري با يکديگر کار مي کنند: دفعات نمونه برداري توسط مبدل (نرخ نمونه برداري) و ميزان دقت آن براي بيان نمونه مورد نظر بصورت يک عدد (عميق بيت نمونه). ضبط اطلاعات کافي براي نمونه تأمين يک ضبط دقيق از سيگنال منبع، در هر يک از ابزارهاي ضبط ديجيتال (شامل هر يک از ابزارهاي صوتي) از اهميت بالايي برخوردار است. سرعت يا نرخ نمونه برداري انتخاب شده توسط شما، تعيين خواهد کرد که توانايي ضبط چه دامنه فرکانسي را خواهيد داشت و عمق بيت نمونه نيز ميزان دقت تغييرات در سطح سيگنال آنالوگ نمونه برداري شده را تعيين مي نمايد (که براي دامنه ديجيتال و در نتيجه بر مقدار نويز باقيمانده در سيگنال، تاثير خواهد گذاشت).
نرخ نمونه برداري و دامنه فرکانس
دامنه فرکانس يک مبدل A/D، بر اساس نرخ نمونه برداري آن تعيين مي شود اما احتمالاً به همان شيوه اي که شما تصوير مي کند. بالا ترين فرکانسي که شما قادر به ضبط آن خواهيد بود، تنها نصف نرخ نمونه برداري است. يک نرخ نمونه برداري 10هرتزي، حداکثر قادر به ضبط يک فرکانس 5 هرتزي خواهد بود، نه 10هرتزي. اين بدان خاطر است که بدون در اختيار داشتن دو برابر نمونه از يک منبع، شما از نوسان ها را از دست خواهيد داد زيرا نوسان ها هم به سمت پايين و هم به سمت بالا هستند.
شکستگي هاتي ايجاد شده در هنگام نمونه برداري از بالاترين فرکانس نمونه برداري شده، بيشتر از بالاترين فرکانس خواهد بود که بطور دقيق توسط مبدل A/D قابل ضبط است. شکستگي (Aliasing)، به خاطر کاهش مصنوعي فرکانس اجزاء بالا، اغتشاس ناخواسته را به سيگنال صوتي اضافه مي نمايد. شکستگي مي تواند به خاطر طراحي ضعيف مبدل A/D در يک سيستم صوتي ديجيتال بوجود آيد، اما احتمال بسيار بيشتري وجود دارد که آن را در هنگام ترکيب نت هاي بالا با استفاده ار يک سينتسايزر ديجيتال مبتني بر نرم افزار، بشنويد. اگر سينتسايزر از فناوري هموارسازي (Antialiasing) استفاده نکند، نت هاي بالا به دسته هاي تصادفي از صداها تبديل خواهند شد که هيچ ارتباطي با کليد نواخته شده توسط شما، ندارند.
براي اجتناب از اين مشکل، نرخ نمونه برداري شما بايد حداقل دو برابر بزرگتر از بالاترين فرکانسي باشد که مايل به ضبط آن هستيد چرا دو برابر؟ هنگامي که يک صدا داراي يک فرکانس بالا است، فرازها و نشيب ها در شکل موج آن به يکديگر نزديک تر خواهند بود. اگر نرخ نمونه برداري به اندازه کافي براي ضبط هر يک از فرازها و نشيب ها سريع نباشد، نسخه ديجيتالي شده صدا داراي شکل موجي متفاوتي نسبت به صداي اصلي خواهد بود (شکل [8]). اگر فرکانس صدايي که در حال نمونه برداري و يا ترکيب آن هستيد، بالاتر از نصف نرخ نمونه برداري شما باشد، فرکانس اصلي از دست خواهد رفت. هنگامي که به صداي ضبط يا ترکيب شده گوش مي دهيد، فرکانس متفاوتي را خواهيد شنيد (شکل[8]). اين فرکانس جديد که در فرآيند نمونه برداي به وجود آمده است غالباً تحت عنوان فرکانس "تا شده" (Fold Over) شناخته مي شود زيرا فرکانس بالاتر که فراتر از دامنه مبدل بوده، بصورت يک فرکانس پايين تر که در داخل دامنه مبدل جا مي گيرد، تا شده است.
محققين Bell Labs از اوايل دهه 1920 ميلادي با اين مشکل آشنايي داشتند و يک قاعده کلي را تحت عنوان نظريه نمونه برداري Nyquist - Shannon ثبت کردند. اين نظريه بسيار ساده است: براي نمونه برداري صحيح از فرکانسي با مقدار x، شما به يک نرخ نمونه برداري با مقدار حداقل 2x نياز خواهيد داشت. به همين دليل، حداکثر فرکانسي که بدون ايجاد شکستگي در يک نرخ معين قابل نمونه برداري است را فرکانس Nyquist آن مي نامند. اما چه ضرورتي وجود دارد که نرخ نمونه برداري ما دو برابر بالاترين فرکانس ضبط شده باشد؟ از آنجايي که هر تناوب از يک شکل موج منظم داراي هر دو نوسان بالا و پايين است. اگر مبدل A/D کمتر از دو نمونه در هر تناوب را تهيه کنيد، قادر به ضبط نوسان کامل نخواهد بود. براي ضبط هر وضعيت "بالا" و هر وضعيت "پايين"، شما حداقل به دو نمونه در هر تناوب نياز خواهيد داشت. در نتيجه، نرخ نمونه برداري بايد دو برابر بزرگتر از بالاتر فرکانس ضبط شده، باشد(شکل[9]).
براساس نظريه Nyquist - Shannon، براي نمونه برداري فرکانس هايي تا سطح دامنه بالاتر شنوايي انسان (22000 هرتز)، به يک نرخ نمونه برداري معادل 44000 هرتز نياز خواهيد داشت که (بطور نه چندان تصادفي)، بسيار نزديک به نرخ نمونه برداري استاندارد براي CDهاي صوتي تجاري (44100 هرتز) است.
اين استاندارد بوضوح به شما امکان مي دهد تا از فرکانس هايي در بالاي دامنه شنوايي خود نمونه برداري کنيد. اما وقتي فرکانس هاي داخل سيگنالي که به مبدل A/D مي رسد از محدوده بالاترين فرکانس آن نيز فراتر مي روند، چه اتفاقي مي افتد؟ آنها بصورت اغتشاش به طيف شنيداري "شکسته" مي شوند. به همين دليل است که مبدلهاي A/D پيش از تبديل صدا به قالب ديجيتال، از يک فيلتر Anti - aliansing براي حذف اين اجزاء بالايي استفاده مي کنند.
عمق بيت و نسبت سيگنال به نويز
با هر نمونه، مبدل A/D بايد سطح سيگنال ورودي را اندازه گيري کرده و يک عدد از يک مجموعه اعداد جداگانه را به اين تخصيص دهد. (بنابراين عدد گرد شده براي هر مقدار ضبط شده، معادل 1، 2، 3، 4، 5، 6، 7 و يا 8 خواهد بود)، پس عمق بيت اين مبدل معادل 3 بيت است.
در واقع، يک بيت باينري داراي دو ارزش صفر يا يک است، بنابراين براي شمارش اعداد يک تا هشت به 3 بيت (23=8) نياز خواهيد داشت. مبدل، به اين اعداد مجزا محدود شده است. در واقع، مبدل نمي تواند سيگنالي بين دو و سه را ضبط نمايد و بايد آن را به يکي از آنها گرد کند. نيازي به گفتن نيست که 3 بيت به هيچوجه براي کارهاي واقعي کافي نخواهد بود. در بسياري از ابزارهاي صوتي ديجيتال اوليه از مبدلهاي 8 و 12 بيتي استفاده مي شد، اما امروزه مبدلهاي 16 و 24 بيتي بعنوان متداولترين نمونه ها شناخته مي شوند.
با اضافه شدن هر بيت، تعداد سطوح فشار صوتي قابل ذخيره سازي دو برابر خواهد شد. صداي 16 بيتي 65000 سطح ممکن براي وضوح خود است، اما تعداد اين سطوح در صداي 24 بيتي به بيش از 16 ميليون عدد مي رسد.
تأثير مستقيم عمق بيت بر روي سيگنال ضبط شده، دامنه ديناميک آن است. هر چه عمق بيت بيشتر باشد، دامنه ديناميک يا سطوح نوسان قابل ضبط پيش از فرو رفتن سيگنال در نويز پس زمينه (در پايين ترين سطح دامنه)، بزرگتر خواهد بود. با در نظر گرفتن سطح دامنه ديناميک قابل دريافت براي گوش هاي ما، اهميت دامنه ديناميک کاملا بديهي به نظر مي رسد. اما اهميت واقعي آن در اين است که وقتي تعداد سطوح ديناميک ممکن بخاطر استفاده از مبدلي با عمق بيت پايين تر محدود مي شود، دقت اندازه گيري سيگنال آنالوگ از بين مي رود.
گوش هاي شما، اين عدم دقت را بصورت نويز دريافت مي کنند. ما خطاهاي ايجاد شده گرد شدن اعداد (که تحت عنوان خطاهاي Qunanitizationناميده مي شوند) را بصورت نويز مي شنويم.
اگر دامنه ديناميک سيستم صوتي ديجيتال را با استفاده از عمق بيت بالاتري افزايش دهيم، مقدار نويز پس زمينه در سيستم را بطور مؤثري کاهش خواهيم داد. در اين حالت، تفاوت ميان بلندترين سيگنالي که سيستم قادر به اداره آن مي باشد و نويز باقيمانده افزايش خواهد يافت. اين نسبت اطلاعات قابل تشخيص سيگنال به نويز پس زمينه، تحت عنوان نسبت سيگنال به نويز شناخته مي شود. هر چه عمق بيت بيشتر باشد، دامنه ديناميک و در نتيجه نسبت سيگنال به نويز سيستم نيز بالاتر خواهد بود.
عمق بيت ها و فرکانس هاي نمونه برداري که عموماً مورد استفاده قرار مي گيرند.
وضوح صداي ديجيتال بر اساس فرکانس نمونه برداري (که به دامنه فرکانس صدا مربوط شده و بر حسب kHz اندازه گيري مي گردد) و عمق بيت (مرتبط با دامنه که بر حسب بيت اندازه گيري مي شود)، سنجيده مي شود. اين مقادير، تقريبا معادل وضوح تصوير و عمق رنگ در گرافيک هاي ديجيتالي هستند. از نظر تئوري، هر عددي براي اين مقادير امکان پذير بوده و شما مي توانيد فرکانس نمونه برداري و عمق بيت را ترکيب با منطبق نماييد. با اين حال، تنظيماتي که در اکثر موارد با آنها برخورد خواهيد نمود، عبارتند از:
16بيت، 44/1 کيلو هرتز: استاندارد مورد استفاده براي کتاب قرمز CD Audio يا فرمت CD صوتي تجاري که براي CD-R ها نيز بکار گرفته مي شود و متداولترين پيش فرض براي نرم افزارهاي صوتي کامپيوتري به حساب مي آيد.
16بيت، 48 کيلو هرتز: استاندارد مورد استفاده براي ويديوي ديجيتال DV(DVD ويديوي تجاري و اکثر ويدئوهاي پخش ديجيتال.)
24 بيت، 96 کيلوهرتز: يک فرمت نوظهور با وضوح بالا که بطور روزافزوني توسط نرم افزارها و سخت افزارهاي صوتي کامپيوتر مورد پشتيباني قرار مي گيرد، هر چند که در بازار صوتي و تصويري هنوز بعنوان استانداردي با پذيرش گسترده براي شنيدن موسيقي شناخته نمي شود.
ترکيب16-bit/44.1 kHz، حداقل استاندارد قابل قبول براي ضبط به حساب مي آيد، زيرا کيفيت خروجي CD هاي صوتي تجاري بوده و فرکانس نمونه برداري آن مي تواند تا سطح دامنه بالاي شنوايي انسان را ضبط نمايد. بطور کلي، صداي 48 کيلوهرتزي براي انطباق با نرخ نمونه برداري خروجي ويدئوي استاندارد مورد استفاده قرار مي گيرد، نه يک افزايش 2 کيلو هرتزي در فرکانس Nyquist (چيزي که احتمالاً شما آن را بعنوان يک بهبود در کيفيت صوتي تشخيص نخواهيد داد).
کار با صدايي که مي تواند فرکانس هاي فراتر از بالاترين فرکانس قابل استماع توسط انسان را اداره کند، احتمالاً چندان منطقي به نظر نمي رسد. اما سه دليل براي استفاده از نرخهاي نمونه برداري تا 96 کيلو هرتزي (و حتي بالاتر از آن)وجود دارند. اولين دليل (هر چند که بحث هاي بسياري در مورد آن جريان دارند) اين است که فرکانس هاي غير شنيداري بالاتر از 22 کيلوهرتز مي توانند بر صداي داخل طيف شنيداري ما تأثير بگذارند و به اين ترتيب، خروجي صوتي يک صداي 96 هرتزي بهتر و دقيق تر از يک صداي 44/1 کيلو هرتزي خواهد بود.
در واقع اين دليل کاملاً به نظرات شخصي افراد بستگي دارد: گروهي ادعا مي کنند که مي توانند اين تفاوت را احساس نمايند و گروه ديگري اين نظريه را رد مي کنند. دليل دوم تا حدودي محکم تر به نظر مي رسد: بعضي از الگوريتم هاي ديجيتالي، خصوصاً آنهايي که با پردازش شديد عددي سر و کار دارند(نظير Time Stretching و Pitch Shifting) وقتي کار خود را با داده هاي بيشتري آغاز مي کنند، مي توانند به نتايج بهتري دست پيدا کنند.
سومين دليل نيز به همان اندازه اهميت دارد: با وجود آنکه تأثير مستقيم و چشمگير فرکانس هاي بالا بر طيف شنيداري ما قابل ترديد است، اما وقتي نرخ نمونه برداري بالاتر باشد، احتمال وقوع اغتشاش فاز ايجاد شده توسط فيلترهاي Antialiasing در يک دامنه فرکانس شنيداري کاهش مي يابد. عدم وجود اين اغتشاش مي تواند به يک تغيير ظريف اما قابل توجه در وضوح درک شده از صدا منتهي گردد. اين بدان معني نيست که شما بايد بلافاصله ضبط هر صدايي را با نرخ 96 کيلو هرتز آغاز نماييد، خصوصاً از آنجايي که اين تنظيمات با هزينه سنگيني بر فضاي ذخيره سازي ديسک سخت و قدرت پردازشي سيستم شما همراه خواهند بود. از سوي ديگر، اين بدان معني است که تفاوتي در بين فرکانس هاي نمونه برداري وجود دارد و به همين دليل است که استوديوهاي حرفه اي مبالغ سنگيني را براي خريد تجهيزاتي که توانايي کار با فرکانس هاي نمونه برداري بالاتري دارند، مي پردازند.
به هر حال شما مي توانيد نتايج کاملاً قابل قبولي را در هنگام کار با يک استاندارد حداقل (16 بيتي، 44/1 کيلوهرتزي) بدست آوريد. در اين حالت، عواملي نظير انتخاب ميکروفن و محل استقرار آن، سطح سيگنال و ساير مسايل مرتبط با کيفيت ضبط، تاثير بسيار بيشتري (در مقايسه با استفاده از يک فرکانس نمونه برداري بالاتر يا عمق بيت بيشتر) بر کيفيت صداي ضبط شده توسط شما خواهند داشت.
فرمت هاي فايل ديجيتال
مهمترين تمايز در فرمتهاي صوتي، مابين صداي فشرده سازي شده و صداي فشرده سازي نشده است. صداي فشرده سازي شده، مقدار داده هاي ذخيره شده را کاهش مي دهد تا در فضاي درايوهاي ديسک سخت و يا ساير رسانه هاي ضبط، صرفه جويي کرده و سرعت انتقال فايل ها بر روي اينترنت را افزايش دهد. براي انجام اين کار، اينگونه فرمت ها مقداري از اطلاعات صوتي که براي گوش هاي شما از اهميت کمتري برخوردارند (در رابطه با شنيدن مواد مرجع) را حذف مي نمايد.
اگر الگوريتم فشرده سازي هيچ تأثيري بر صدا نداشته باشد و بتوان صداي اصلي را بطور کامل و بي نقص از فايل فشرده سازي شده بازسازي نمود. الگوريتم فشرده سازي مورد استفاده بعنوان "غير حذفي" (Lossless) شناخته مي شود.
متأسفانه اکثر فرمت هاي فشرده سازي صوتي از نوع حذفي (Lossy) هستند و اين بدان معني است که داده ها را براي کاهش اندازه فايل حذف مي کنند. اين فرمت ها، کيفيت ضبط را نيز کاهش مي دهند زيرا اطلاعات مهم صدا در آنها حذف مي گردد. اين افت کيفيت مي تواند در قالب تضعيف يا قطع کامل صدا در دامنه هاي فرکانسي معين بوده و يا بصورت نويز مصنوعي و ساير صداهاي ناخواسته اي که در فرآيند فشرده سازي به صداي اصلي اضافه مي شوند، خودنمايي کند.
پس از آنکه اطلاعات صوتي را بخاطر فشرده سازي حذفي از دست داديد، هيچ راهي براي بازيابي آن داده ها وجود نخواهد داشت و به همين دليل، شما تقريبا هميشه مي خواهيد تا يک نسخه فشرده سازي نشده از هر ضبط مهم خود را نگهداري نماييد. از سوي ديگر، بسياري از نرم افزارهاي کاربردي صوتي نيز با فرمت هاي فشرده سازي شده، سازگار نيستند.
فرمت هايي نظير CD هاي صوتي تجاري و فرمتهاي فايل WAV يا AIFF بطور کلي از فرمت هاي صوتي غير حذفي فشرده سازي نشده به حساب مي آيند.
فرمت هايي نظير MP3،MP4،Real Audio، Windows Media و فايلهاي Apple AAC که از فروشگاه هاي Online نظيرMSN Music، Napsterو iTues Music Store خريداري مي شوند، همگي از فرمت هاي فشرده سازي شده حذفي هستند.
عنصر ديگري که در هنگام انتخاب يک فرمت فايل صوتي بايستي آن را به ياد داشته باشيد، استريو يا مونو بودن يک فايل و همچنين نحوه ذخيره سازي داده هاي استريو در آن است. گروهي از برنامه ها، گزينه اي بصورت فايلهاي interleaved را براي فايل هاي استريو فراهم مي کنند که شيارهاي صوتي راست و چپ، ذخيره مي نمايد.
براي مثال، MOTU>s Digital Performer براي کامپيوترهاي مکينتاش، به فايلهاي جداگانه اي براي کانال هاي راست و چپ صداي استريو نياز دارد. با اين حال، اکثر برنامه ها ترجيح مي دهند از فايل هاي متداول تر interleaved استفاده کنند. پيدايش فايل هاي Surround با مشکلات بيشتري همراه بود و ذخيره سازي فايل هاي صوتي همچنان به تکامل خود ادامه مي دهد.
يک پروتکل ديجيتال معروف
فناوري ديجيتال نيز شيوه اي بر ضبط و انتقال اجراي نوازندگان در يک قالب ديجيتال را فراهم مي کند.
MIDI (Musical Instrument Digital Interface)يک پروتکل ديجيتال است که مي توانيم رويدادهاي موسيقيايي و وضعيت فيزيکي را با آن تشريح نموده و آنها را در يک فرمت استانداردسازي ضبط و در بين ابزارها و کامپيوترهاي مختلف منتقل کنيم.
داده هاي MIDI بصورت يک زبان کنترلي عمل مي کنند که به سخت افزار يا نرم افزار امکان مي دهد تا اطلاعات اجزاي موسيقيايي را بصورت بلادرنگ ارسال يا دريافت نمايند. مشخصات MIDI شامل 3 عنصر جداگانه است: يک فرمت فايل: اگر شما با فايلهاي MIDI کار کرده باشيد، از فرمت فايل متداول مشخص شده براي ذخيره سازي MIDI استفاده کرده ايد. براي استفاده از MIDI، مجبور نيستيد يک فايل MIDI در اختيار داشته باشيد. شما مي توانيد از آن بعنوان يک پروتکل کنترلي زنده استفاده کرده و يا حتي داده هاي MIDI را در يک فرمت فايل غير استاندارد ذخيره نماييد.
با اين حال، فرمت فايل استاندارد، يک شيوه راحت براي ذخيره سازي و تبادل داده هاي MIDI است.
مشخصات يک پروتکل: MIDI يک شيوه استاندارد براي تشريح موسيقي در قالب ديجيتال است که مي تواند براي سخت افراز و نرم افزار قابل فهم باشد. موسيقيدان ها قبلاً از يک زبان مشترک براي موسيقي استفاده مي کردند:
ممکن است يک موسيقيدان به
"middle C" ، "B minor" و يا "eighth - note " اشاره کند و ساير موسيقيدان ها مي دانستند که هر يک از اين عبارت چه معنايي دارد. به همين ترتيب، يک پروتکل استاندارد سازي شده نيز به ابزارهاي مختلف امکان مي دهد تا در هنگام صحبت درباره رويدادهاي موسيقيايي، از زبان مشترکي استفاده کنند.
يک اينترفيس استاندارد سازي شده: MIDI براي کنترل سايز ابزارها بصورت بلادرنگ، به يک اينترفيس فيزيکي وکابل کشي ما بين واحدهاي سخت افزاري نياز دارد. اين اينترفيس غالباً USB يا FireWire است، اما کانکتورهاي ويژه MIDI (شکل [10])هنوز متداول هستند.
MIDI و صداي ديجيتال غالباً شانه به شانه يکديگر درنرم افزارهاي کامپيوتري مورد استفاده قرار مي گيرند و مي توان از هر دو آنها براي توليد موسيقي بهره گيري کرد. به همين دليل، افراد مبتدي هميشه با تفاوت عميقي که در بين آنها وجود دارد، آشنا نيستند. درک اين واقعيت که آنها فناوري هاي کاملاً متفاوتي هستند، بسيار مهم است.
داده هاي MIDI بسيار فشرده تر بوده و ويرايش آن نيز ساده تر است، اما MIDI تنها زماني صدا توليد مي کند که به يک سينتسايزر (سخت افزاري يا نرم افزاري) و يا نوع ديگري از آلات موسيقي الکترونيکي فرستاده شود. صداي واقعي توسط ساز توليد مي شود و MIDI تنها دستورالعمل هاي مربوط به اينکه چه نتي و چگونه بايد نواخته شود را در اختيار آن قرار مي دهد. MIDI شباهت زيادي به نت هاي چاپ شده دارد: تا زماني که توسط يک متخصص موسيقي نواخته نشود، هيچ صدايي نخواهد داشت. به منظور راندوي " علايم" MIDI بصورت صدا، به يک ساز يا دستگاه MIDI نياز خواهيم داشت، درست همانطور که براي راوندي يک نت نوشته شده بصورت موسيقي شنيداري نيز به يک نوازنده احتياج داريد.
برخي از انواع داده هاي اصلي و متداولي که توسط MIDI منتقل مي شوند، عبارتند از :
پيام هاي نت که به دستگاه گيرنده اعلام مي کنند چه نتي را بنوازد (شکل [11]). پيام هاي نت همچنين شامل اطلاعاتي درباره سرعت کليد هستند که مشخص مي کند موسيقيدان با چه شدتي بر کليدي مورد نظر ضربه مي زند.
داده هاي کنترلر که حرکات فيزيکي نظير چرخاندن يک دسته، لغزش يک Fader، حرکت يک چرخ و يا فشار بر يک پدال را بيان مي کنند.
پيام هاي سيستمي که حاوي رويدادهايي نظير پيام هاي آغاز و پايان براي هماهنگ نمودن تجهيزات و همچنين اطلاعات مخصوص ابزار (اطلاعاتي که براي مثال به يک مدل خاص Yamaha مي گويند چگونه خودش را پيکربندي نمايد) هستند.
منبع: بزرگراه رايانه - شماره 138.