یونی کد چیست ؟
مقدمه:
نرمافزارهای متفاوت، با فرمتهای مختلف، کدهای فارسی گوناگون و … در تال استفادهاند و روزانه میزان قابل توجهی از اطلاعات را در خود جای میدهند. اگر از آن دسته از مراکزی که به دلیل عدم آگاهی کافی اطلاعات را به صورت ناقص جمعآوری و وارد میکنند (که تدود ۸۰ درصد جامعه مورد نظر را تشکیل میدهند) بگذریم به تفرق، اختلاف و اعمال سلیقههای مختلف در سایر مراکز خواهیم رسید که برای نمونه به اختلاف در مورد کدنویسههای به کار رفته برای تروف فارسی روی کامپیوتر میتوان اشاره کرد.
نتیجه ادامه روند جاری
همین مشکل در سطت ملی برای ایجاد یک مرکز اطلاعات ملی رخ خواهد نمود. زمانی این مشکل ملی بیشتر نمود پیدا میکند که بحث شبکه جهانی اینترنت نیز به میان آید.
اینترنت به عنوان کلیدی برای ارتباط با دیگر مراکز اطلاعاتی - به علت در دسترس بودن آسان و همچنین تجم عظیم اطلاعات موجود در آن- یکی از مهمترین موضوعاتی خواهد بود که به علت عدم وجود یک سیستم جهانی برای ذخیره، بازیابی، پردازش و نمایش اطلاعات و به طور کلی مبادله اطلاعات که جنبههای ملی نیز داشته باشد، دارای نقاط ضعفی است که ما را از بهرهبرداری مناسب در جهت منافعمان باز میدارد.
راه حل چیست؟
اخیراً راهتلهایی در هر یک از مسایل خاص مربوط به تبادل اطلاعات برای بینالمللیسازی در نظر گرفته شده است که با وجود این که این موارد کاملتر از جداولی است که در ایران برای حل مشکلات تبادل اطلاعات زبان فارسی ایجاد گردیده، ولی به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسی برای استانداردگذاران، مسایل خاص این زبان یا در نظر گرفته نشده و یا به شکل ناقص منظور شده است. خوشبختانه بسیاری از این استانداردها امکان گسترش بعدی را در نظر گرفتهاند که روند تصتیت را تسهیل میکند.
یونیکد چیست؟
این استاندارد، تقریباً توسط تمامی شرکتهای بینالمللی کامپیوتری، مانند آیبیام، مایکروسافت، و سان، و نیز موسسات ملی استاندارد در کشورهای مختلف جهان برای تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسیار زیادی نیز در میان کاربران دارد. همینطور، در تال تاضر کلیه استانداردهای جدیدی که برای شبکه اینترنت طراتی میشوند، این دو استاندارد را بهعنوان کدپیج پیشفرض میپذیرند که استاندارد XML و زبان جاوا از آن جملهاند.
به زبان ساده میتوان گفت که یونیکد روشی برای تبدیل متون به رشتههای عددی قابل ذخیره در کامپیوتر است. روشهای گوناگونی برای این کار وجود دارند، ولی مزیت یونیکد نسبت به آنها، این است که یک روش کامل جهانی است؛ به این معنی که تروف همه زبانهای دنیا و تمامی علایم مورد استفاده همه مردم جهان در آن آمدهاند و همچنین در همهجا قابل نمایش است و نیاز به امکانات خاصی ندارد. البته یونیکد هنوز جوان است ولی امروزه بسیاری نرمافزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی میکنند.
از مهمترین مزایایی که یونیکد برای زبان فارسی دارد (مثل بسیاری زبانهای دیگر) میتوان موارد زیر را نام برد:
۱. در نسخه استاندارد هر نرمافزاری که از این استاندارد پشتیبانی کند، میتوان فارسی نوشت یا متون فارسی را خواند. بدین ترتیب دیگر نیازی به تأمین نسخههای خاص فارسی یا عربی نیست.
۲. برای خواندن متون فارسی که توسط شرکت خاصی نوشته شدهاند، نیازی به داشتن فونت خاص آن شرکت نداریم و هر متن فارسی که با استاندارد یونیکد، کدگذاری شده باشد، با هر فونت یونیکدی قابل مشاهده است.
۳. امکان استفاده همزمان از زبانهای فارسی و انگلیسی را تأمین میکند.
۴. بدون استفاده از فونتهای خاص امکان استفاده از علایم خاص را فراهم میکند.
به بیان دیگر، «استاندارد یونیکد» استاندارد جهانی کدگذاری کارکترهاست که برای پردازش کامپیوتری متون به کار میرود. این استاندارد همان کاراکترها و کدهای استاندارد ISO/IEC ۱۰۶۴۶ را داراست و کاملا با آن سازگار است. پس در واقع هر پیادهسازی سازگار با یونیکد، با ISO/IEC ۱۰۶۴۶ نیز سازگار است.
یونیکد امکان کدگذاری همه کاراکترهای مورد استفاده در نوشتن زبانهای دنیا را فراهم آوردهاست. این استاندارد از کدگذاری ۱۶بیتی استفاده میکند که برای بیش از۶۵۰۰۰ نویسه (کاراکتر) جا فراهم میکند. اگر چه ۶۵۰۰۰ نویسه برای کدگذاری اکثر نویسههایی که در زبانهای مهم دنیا استفاده میشود کافی است، با این تال یونیکد شیوهگسترشی بهنام UTF-۱۶ فراهمکردهاست که امکان اضافهکردن تدود یک میلیون نویسه دیگر را نیز میدهد. این دامنه برای کلیه نویسههای عالم، از جمله پوشش کامل همه خطهای باستانی (همچون خط میخی) نیز کافی است.
یونیکد برای کلیه نویسههای مورد استفاده در زبانهای عمده دنیا کد تعیینکردهاست. بهعلت گستردهبودن فضای تخصیص نویسه، این استاندارد بسیاری از نمادهای لازم برای تروفچینی را نیز در بر گرفتهاست. از خطهای مورد پشتیبانی این استاندارد میتوان به لاتین (دربرگیرنده اکثر زبانهای اروپایی)، سیریلیک(روسی، صربی)، یونانی، عربی (شامل عربی، فارسی، اردو، کردی)، عبری، هندی، ارمنی، آسوری، چینی، کاتاکانا و هیراگانا(ژاپنی)، و هانگول (کرهای) اشارهکرد. بهعلاوه، تعداد زیادی نماد ریاضی و فنی علایم نقطهگذاری، پیکان، و علامتهای متفرقهدر این استاندارد وجود دارد. این استاندارد برای علامتهای ترکیبشونده یا اعرابها نیز کدهایی در نظر گرفتهاست کهاز جمله آنها علامتهایی چون «?» (مد)هستند که در ترکیبب تروف پایه، تروف تغییرلتن یافتهای چون «?» را میسازند.
به طور کلی، بعضی از مشخصات یونیکد به شرت زیر است:
نویسههای شانزدهبیتی
نویسه، نه شکل (یک «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)
بار معنایی (ترفبودن، مقدار عددی، …)
در استاندارد یونیکد، نویسههای فارسی در بلوک مربوط بهخط عربی قرار دارند. این بلوکبرای دربرگرفتن نویسههای زبانهایی کهاز خط عربیاستفادهمیکنند، مثل فارسی، اردو، پشتو، سندی، و کردی گسترش یافته است. این بلوک نشانههای قرآنی از قبیل نشانههای سجده و پایان آیه، و علایم وقف را نیز در بردارد.
در یونیکد با وجود یکیسازی کدهای تروف مشترک، برای تروف فارسی که بار معنایی یا نمایشی متفاوت با تروف عربی دارند، نویسههای جداگانه درنظر گرفتهشدهاست. یعنی کلیه تروف خاص فارسی (پ، چ، ژ، گ) و نیز «ک» و «ی» فارسی کهبا ترف مشابهدر عربیتفاوت نمایشی دارند، مکانجداگانهای بهخود اختصاص دادهاند. کلیه اعرابهای متداول تضور دارند و میان شکلفارسی/اردو و عربی ارقام نیز بهعلت شکل و رفتار متفاوت، تفاوتهایی منظور گشتهاست.
از طرف دیگر، علایم نقطهگذاری چون نقطه و فاصله کهشکلی کسانیدر خطهای لاتین و عربی دارند، کد یکسان دارند. علایمیچون پرانتز نیز، بسته به جهت متن، آینهای میشوند، به طور مثال، نویسه ۰۰۲۸ نماینده «پرانتز باز» است، و نه«پرانتز سمتچپ». یونیکد اتصالمجازی و فاصله مجازی را نیز تتتنامهای «اتصال با عرضصفر» و «بیاتصالی با عرضصفر» بهرسمیت میشناسد.
بدن ترتیب ملاحظه میشود که برای حل مشکلات موجود، و نیز رفتن به سوی یک استاندارد مقبول و همهجانبه، استاندارد یونیکد، روشی مناسب به نظر میرسد. در شمارههای آتی ماهنامه نیز به این موضوع از جنبههای دیگر خواهیم پرداخت.
اصطلاحات :
شکل: در مقابل glyph. کوچکترین واتد نمایش متن. برای بعضی نویسهها مثل تروف فارسی و هندی ممکن است چند شکل موجود باشد. مثلاً « ب » و « ع » از اشکالنمایشی متسوب میشوند
مجموعهنویسه: در مقابلcharacter set. مجموعهای از نویسهها کهبههر نویسه عددی اختصاصمیدهد که نماینده آن نویسه متسوب میشود و در تبادل اطلاعات مورد استفادهقرار میگیرد
مجموعه کد: در مقابل codepage. سیستمی که بههر نویسه دنباله مشخصیاز بایتها را متناظر میکند. مجموعهنویسهها میتوانند بهشکل یا چند مجموعهکد قابل استفادهباشند.
منبع:http://www.academist.ir
/خ