تبديل اسناد اسكن شده به متون نوشتاري‌

نويسنده: احسان عباسي
اگر تاكنون دقت كرده باشيد، همراه با نرم‌افزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب مي‌‌شود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.

اگر تاكنون دقت كرده باشيد، همراه با نرم‌افزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب مي‌‌شود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.

يكي از اين ابزارها، قابليت OCR يا Optical Character Recognition نام دارد كه در قالب دو نرم‌افزار Microsoft Office Document Scanning و Microsoft Office Document Imaging در قسمت Office Tools قرار گرفته است. قابليت OCR صفحه اسكن شده را تحليل و سپس متون موجود در آن را استخراج مي‌كند.
همان‌طور كه مي‌بينيد روش كار واضح است. ابتدا بايد اسناد مورد نظر خود را به فرمت TIFF يا Tagged Image File Format اسكن كنيد و سپس به كمك قابليت OCR، آن‌‌‌ها را به صورت Text درآوريد. بدين ترتيب مي‌توانيد متون يك كتاب يا هر نوشته ديگري را در نرم‌افزار Word يا ساير نرم‌افزارهاي آفيس وارد و آن‌ها را ويرايش كنيد (اين قابليت تنها براي متون انگليسي، فرانسه و اسپانيايي كاربرد دارد).
íروي دكمه استارت كليك كنيد.
íعبارت All Programs را انتخاب كنيد.
íعبارت Microsoft Office را انتخاب كنيد.
íعبارت Microsoft Office Tools را انتخاب كنيد.

íدر فهرست باز شده به دنبال عبارت Microsoft Office Document Scanning بگرديد و روي آن كليك كنيد. اگر اين عبارت وجود نداشت، بايد آن را نصب كنيد. بدين منظور سي‌دي نصب آفيس را در درايو سي‌دي قرار دهيد. پس از نمايش صفحه Autorun، تيك عبارت Add or Remove Features را بزنيد و روي دكمه Continue كليك كنيد. اكنون شما به صفحه سفارشي كردن نصب آفيس هدايت شده‌ايد. روي علامت (+) كنار عبارت Office Tools كليك كنيد تا شاخه مربوطه باز شود.
در اين قسمت، روي آيكون عبارت Microsoft Office Document Imaging كليك كنيد و از فهرست باز شده، عبارت Run all from my computer را انتخاب كنيد. با فشردن دكمه Continue، فرآيند نصب آغاز مي‌شود. پس از پايان مراحل نصب، مراحل يك تا پنج را بار ديگر تكرار كنيد تا كادر محاوره‌اي با عنوان Scan New Document نمايش داده شود.
íدر اين پنجره مي‌‌توانيد يكي از تنظيمات پيش‌فرض را براي اسكن سند خود در نظر بگيريد. با اين حال براي ويرايش تنظيمات پيش‌فرض و يا ايجاد تنظيمات پيش‌فرض جديد، مي‌توانيد روي دكمه Preset Options كليك كنيد و عمليات مورد نظر خود را (ساخت، ويرايش يا حذف تنظيمات پيش‌فرض) انتخاب كنيد.

پيشنهاد مي‌كنيم براي دستيابي به يك نتيجه مطلوب، تنظيمات پيش‌فرض اسكن را روي عبارت Black & White (سياه و سفيد) دست نخورده باقي بگذاريد. در عين حال اگر از چند اسكنر استفاده مي‌كنيد، مي‌‌توانيد با كليك روي دكمه Scanner...، اسكنر مورد نظر خود را انتخاب كنيد.
íپس از پايان تنظيمات اسكن، روي دكمه Scan كليك كنيد تا صفحه مورد نظر اسكن شود. اگر هنگام عمليات اسكن با پيغام خطايي مواجه شديد، به كادر Scan New Document بازگرديد و در قسمت انتخاب اسكنر، تيك عبارت‌هاي Use Automatic Document Feeder و Show Scanner Driver Dialog Before Scanning را بزنيد و براي تأييد تنظيمات روي دكمه Ok كليك كنيد.
íپس از پايان عمليات اسكن، روي دكمه Close كليك كنيد. اكنون صفحه اسكن شده در قالب فرمت تصويري TIFF و در نرم‌‌افزار Office Document Imaging Window نمايش داده شده است.
íاگر مايليد كه تنها قسمت خاصي از اين فايل را استخراج كنيد، بايد دكمه چپ ماوس را نگه داريد و آن را روي قسمت مورد نظر بكشيد.
íدر بالاي صفحه، منوي Tools را انتخاب كنيد.
íزيرمنوي Send Text to Word را كليك كنيد تا پنجره مربوطه نمايش داده شود.

íبراي استخراج تمام متون فايل TIFF، تيك عبارت All Pages را بزنيد. اما اگر مي‌‌خواهيد تنها متون انتخاب شده استخراج شوند، تيك عبارت Current Selection را بزنيد.
اگر مي‌خواهيد خروجي عمليات تبديل فايل TIFF به Text، فاقد تصاوير سند اسكن شده باشد، تيك عبارت Maintain Pictures in Output را برداريد.
íپس از اتمام تنظيمات مربوطه، روي دكمه Ok كليك كنيد. با اين كار، نرم‌افزار Word باز شده و فايل TIFF در قالب سند نوشتاري (Text) نمايش داده مي‌‌شود. در صورت نياز مي‌توانيد آن‌ها را ويرايش كنيد.
علاوه بر روشي كه در بالا به آن پرداختيم، در نرم‌افزار Document Imaging مي‌توانيد فايل‌هاي TIFF را به Text تبديل كنيد. بدين منظور از منوي File عبارت ... Import را انتخاب كنيد. در پنجره باز شده، به دنبال فايل TIFF مورد نظر بگرديد و پس از انتخاب آن روي دكمه Import كليك كنيد. اكنون مي‌توانيد با طي كردن مراحل نه تا چهارده، متون فايل TIFF را استخراج نماييد.
بايد به اين نكته توجه داشته باشيد كه هنگام تحليل يك صفحه توسط قابليت OCR، احتمالاً با اين پيغام خطا مواجه خواهيد شد.
Unable to perform OCR in Farsi: اين پيغام زماني نمايش داده مي‌شود كه زبان انتخابي پيش‌فرض سيستم شما، فارسي باشد. براي رفع اين مشكل از منوي Tools نرم‌افزار Document Imaging، عبارت Options را انتخاب نماييد. سپس در زبانه OCR و از منوي كركره‌اي OCR Language، زبان English را انتخاب كنيد.

منبع: نشريه عصر شبکه - ۱۵ مهر ۱۳۸۶ شماره 57 الف