تبديل اسناد اسكن شده به متون نوشتاري
نويسنده: احسان عباسي
اشاره :
اگر تاكنون دقت كرده باشيد، همراه با نرمافزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب ميشود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.
اگر تاكنون دقت كرده باشيد، همراه با نرمافزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب ميشود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.
يكي از اين ابزارها، قابليت OCR يا Optical Character Recognition نام دارد كه در قالب دو نرمافزار Microsoft Office Document Scanning و Microsoft Office Document Imaging در قسمت Office Tools قرار گرفته است. قابليت OCR صفحه اسكن شده را تحليل و سپس متون موجود در آن را استخراج ميكند.
همانطور كه ميبينيد روش كار واضح است. ابتدا بايد اسناد مورد نظر خود را به فرمت TIFF يا Tagged Image File Format اسكن كنيد و سپس به كمك قابليت OCR، آنها را به صورت Text درآوريد. بدين ترتيب ميتوانيد متون يك كتاب يا هر نوشته ديگري را در نرمافزار Word يا ساير نرمافزارهاي آفيس وارد و آنها را ويرايش كنيد (اين قابليت تنها براي متون انگليسي، فرانسه و اسپانيايي كاربرد دارد).
بدين منظور بايد مراحل زير را دنبال كنيد:
íروي دكمه استارت كليك كنيد.
íعبارت All Programs را انتخاب كنيد.
íعبارت Microsoft Office را انتخاب كنيد.
íعبارت Microsoft Office Tools را انتخاب كنيد.
íدر فهرست باز شده به دنبال عبارت Microsoft Office Document Scanning بگرديد و روي آن كليك كنيد. اگر اين عبارت وجود نداشت، بايد آن را نصب كنيد. بدين منظور سيدي نصب آفيس را در درايو سيدي قرار دهيد. پس از نمايش صفحه Autorun، تيك عبارت Add or Remove Features را بزنيد و روي دكمه Continue كليك كنيد. اكنون شما به صفحه سفارشي كردن نصب آفيس هدايت شدهايد. روي علامت (+) كنار عبارت Office Tools كليك كنيد تا شاخه مربوطه باز شود.
در اين قسمت، روي آيكون عبارت Microsoft Office Document Imaging كليك كنيد و از فهرست باز شده، عبارت Run all from my computer را انتخاب كنيد. با فشردن دكمه Continue، فرآيند نصب آغاز ميشود. پس از پايان مراحل نصب، مراحل يك تا پنج را بار ديگر تكرار كنيد تا كادر محاورهاي با عنوان Scan New Document نمايش داده شود.
íدر اين پنجره ميتوانيد يكي از تنظيمات پيشفرض را براي اسكن سند خود در نظر بگيريد. با اين حال براي ويرايش تنظيمات پيشفرض و يا ايجاد تنظيمات پيشفرض جديد، ميتوانيد روي دكمه Preset Options كليك كنيد و عمليات مورد نظر خود را (ساخت، ويرايش يا حذف تنظيمات پيشفرض) انتخاب كنيد.
پيشنهاد ميكنيم براي دستيابي به يك نتيجه مطلوب، تنظيمات پيشفرض اسكن را روي عبارت Black & White (سياه و سفيد) دست نخورده باقي بگذاريد. در عين حال اگر از چند اسكنر استفاده ميكنيد، ميتوانيد با كليك روي دكمه Scanner...، اسكنر مورد نظر خود را انتخاب كنيد.
íپس از پايان تنظيمات اسكن، روي دكمه Scan كليك كنيد تا صفحه مورد نظر اسكن شود. اگر هنگام عمليات اسكن با پيغام خطايي مواجه شديد، به كادر Scan New Document بازگرديد و در قسمت انتخاب اسكنر، تيك عبارتهاي Use Automatic Document Feeder و Show Scanner Driver Dialog Before Scanning را بزنيد و براي تأييد تنظيمات روي دكمه Ok كليك كنيد.
íپس از پايان عمليات اسكن، روي دكمه Close كليك كنيد. اكنون صفحه اسكن شده در قالب فرمت تصويري TIFF و در نرمافزار Office Document Imaging Window نمايش داده شده است.
íاگر مايليد كه تنها قسمت خاصي از اين فايل را استخراج كنيد، بايد دكمه چپ ماوس را نگه داريد و آن را روي قسمت مورد نظر بكشيد.
íدر بالاي صفحه، منوي Tools را انتخاب كنيد.
íزيرمنوي Send Text to Word را كليك كنيد تا پنجره مربوطه نمايش داده شود.
íبراي استخراج تمام متون فايل TIFF، تيك عبارت All Pages را بزنيد. اما اگر ميخواهيد تنها متون انتخاب شده استخراج شوند، تيك عبارت Current Selection را بزنيد.
اگر ميخواهيد خروجي عمليات تبديل فايل TIFF به Text، فاقد تصاوير سند اسكن شده باشد، تيك عبارت Maintain Pictures in Output را برداريد.
íپس از اتمام تنظيمات مربوطه، روي دكمه Ok كليك كنيد. با اين كار، نرمافزار Word باز شده و فايل TIFF در قالب سند نوشتاري (Text) نمايش داده ميشود. در صورت نياز ميتوانيد آنها را ويرايش كنيد.
علاوه بر روشي كه در بالا به آن پرداختيم، در نرمافزار Document Imaging ميتوانيد فايلهاي TIFF را به Text تبديل كنيد. بدين منظور از منوي File عبارت ... Import را انتخاب كنيد. در پنجره باز شده، به دنبال فايل TIFF مورد نظر بگرديد و پس از انتخاب آن روي دكمه Import كليك كنيد. اكنون ميتوانيد با طي كردن مراحل نه تا چهارده، متون فايل TIFF را استخراج نماييد.
بايد به اين نكته توجه داشته باشيد كه هنگام تحليل يك صفحه توسط قابليت OCR، احتمالاً با اين پيغام خطا مواجه خواهيد شد.
Unable to perform OCR in Farsi: اين پيغام زماني نمايش داده ميشود كه زبان انتخابي پيشفرض سيستم شما، فارسي باشد. براي رفع اين مشكل از منوي Tools نرمافزار Document Imaging، عبارت Options را انتخاب نماييد. سپس در زبانه OCR و از منوي كركرهاي OCR Language، زبان English را انتخاب كنيد.
منبع: نشريه عصر شبکه - ۱۵ مهر ۱۳۸۶ شماره 57 الف
اگر تاكنون دقت كرده باشيد، همراه با نرمافزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب ميشود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.
اگر تاكنون دقت كرده باشيد، همراه با نرمافزارهاي مجموعه آفيس، قسمتي با عنوان Microsoft Office Tools نيز نصب ميشود كه شامل ابزار كاربردي و كمكي براي كاربران آفيس است.
يكي از اين ابزارها، قابليت OCR يا Optical Character Recognition نام دارد كه در قالب دو نرمافزار Microsoft Office Document Scanning و Microsoft Office Document Imaging در قسمت Office Tools قرار گرفته است. قابليت OCR صفحه اسكن شده را تحليل و سپس متون موجود در آن را استخراج ميكند.
همانطور كه ميبينيد روش كار واضح است. ابتدا بايد اسناد مورد نظر خود را به فرمت TIFF يا Tagged Image File Format اسكن كنيد و سپس به كمك قابليت OCR، آنها را به صورت Text درآوريد. بدين ترتيب ميتوانيد متون يك كتاب يا هر نوشته ديگري را در نرمافزار Word يا ساير نرمافزارهاي آفيس وارد و آنها را ويرايش كنيد (اين قابليت تنها براي متون انگليسي، فرانسه و اسپانيايي كاربرد دارد).
بدين منظور بايد مراحل زير را دنبال كنيد:
íروي دكمه استارت كليك كنيد.
íعبارت All Programs را انتخاب كنيد.
íعبارت Microsoft Office را انتخاب كنيد.
íعبارت Microsoft Office Tools را انتخاب كنيد.
íدر فهرست باز شده به دنبال عبارت Microsoft Office Document Scanning بگرديد و روي آن كليك كنيد. اگر اين عبارت وجود نداشت، بايد آن را نصب كنيد. بدين منظور سيدي نصب آفيس را در درايو سيدي قرار دهيد. پس از نمايش صفحه Autorun، تيك عبارت Add or Remove Features را بزنيد و روي دكمه Continue كليك كنيد. اكنون شما به صفحه سفارشي كردن نصب آفيس هدايت شدهايد. روي علامت (+) كنار عبارت Office Tools كليك كنيد تا شاخه مربوطه باز شود.
در اين قسمت، روي آيكون عبارت Microsoft Office Document Imaging كليك كنيد و از فهرست باز شده، عبارت Run all from my computer را انتخاب كنيد. با فشردن دكمه Continue، فرآيند نصب آغاز ميشود. پس از پايان مراحل نصب، مراحل يك تا پنج را بار ديگر تكرار كنيد تا كادر محاورهاي با عنوان Scan New Document نمايش داده شود.
íدر اين پنجره ميتوانيد يكي از تنظيمات پيشفرض را براي اسكن سند خود در نظر بگيريد. با اين حال براي ويرايش تنظيمات پيشفرض و يا ايجاد تنظيمات پيشفرض جديد، ميتوانيد روي دكمه Preset Options كليك كنيد و عمليات مورد نظر خود را (ساخت، ويرايش يا حذف تنظيمات پيشفرض) انتخاب كنيد.
پيشنهاد ميكنيم براي دستيابي به يك نتيجه مطلوب، تنظيمات پيشفرض اسكن را روي عبارت Black & White (سياه و سفيد) دست نخورده باقي بگذاريد. در عين حال اگر از چند اسكنر استفاده ميكنيد، ميتوانيد با كليك روي دكمه Scanner...، اسكنر مورد نظر خود را انتخاب كنيد.
íپس از پايان تنظيمات اسكن، روي دكمه Scan كليك كنيد تا صفحه مورد نظر اسكن شود. اگر هنگام عمليات اسكن با پيغام خطايي مواجه شديد، به كادر Scan New Document بازگرديد و در قسمت انتخاب اسكنر، تيك عبارتهاي Use Automatic Document Feeder و Show Scanner Driver Dialog Before Scanning را بزنيد و براي تأييد تنظيمات روي دكمه Ok كليك كنيد.
íپس از پايان عمليات اسكن، روي دكمه Close كليك كنيد. اكنون صفحه اسكن شده در قالب فرمت تصويري TIFF و در نرمافزار Office Document Imaging Window نمايش داده شده است.
íاگر مايليد كه تنها قسمت خاصي از اين فايل را استخراج كنيد، بايد دكمه چپ ماوس را نگه داريد و آن را روي قسمت مورد نظر بكشيد.
íدر بالاي صفحه، منوي Tools را انتخاب كنيد.
íزيرمنوي Send Text to Word را كليك كنيد تا پنجره مربوطه نمايش داده شود.
íبراي استخراج تمام متون فايل TIFF، تيك عبارت All Pages را بزنيد. اما اگر ميخواهيد تنها متون انتخاب شده استخراج شوند، تيك عبارت Current Selection را بزنيد.
اگر ميخواهيد خروجي عمليات تبديل فايل TIFF به Text، فاقد تصاوير سند اسكن شده باشد، تيك عبارت Maintain Pictures in Output را برداريد.
íپس از اتمام تنظيمات مربوطه، روي دكمه Ok كليك كنيد. با اين كار، نرمافزار Word باز شده و فايل TIFF در قالب سند نوشتاري (Text) نمايش داده ميشود. در صورت نياز ميتوانيد آنها را ويرايش كنيد.
علاوه بر روشي كه در بالا به آن پرداختيم، در نرمافزار Document Imaging ميتوانيد فايلهاي TIFF را به Text تبديل كنيد. بدين منظور از منوي File عبارت ... Import را انتخاب كنيد. در پنجره باز شده، به دنبال فايل TIFF مورد نظر بگرديد و پس از انتخاب آن روي دكمه Import كليك كنيد. اكنون ميتوانيد با طي كردن مراحل نه تا چهارده، متون فايل TIFF را استخراج نماييد.
بايد به اين نكته توجه داشته باشيد كه هنگام تحليل يك صفحه توسط قابليت OCR، احتمالاً با اين پيغام خطا مواجه خواهيد شد.
Unable to perform OCR in Farsi: اين پيغام زماني نمايش داده ميشود كه زبان انتخابي پيشفرض سيستم شما، فارسي باشد. براي رفع اين مشكل از منوي Tools نرمافزار Document Imaging، عبارت Options را انتخاب نماييد. سپس در زبانه OCR و از منوي كركرهاي OCR Language، زبان English را انتخاب كنيد.
منبع: نشريه عصر شبکه - ۱۵ مهر ۱۳۸۶ شماره 57 الف