پايگاه داده هاي زبان فارسي منبعي مستند براي پژوهش هاي زباني

از اوايل سال1372 کار ايجاد پايگاه داده هايي براي زبان فارسي در پژوهشگاه علوم انساني آغاز شد و تاکنون دو مرحله از آن به انجام رسيده است، و مرحله ي سوم نيز به زودي و پيش از زمان پيش بيني شده آغاز خواهد شد....

يکشنبه، 15 تير 1393

تخمین زمان مطالعه:

موارد بیشتر برای شما

نويسنده: دکتر مصطفي عاصي(1)

چکيده

1- پايگاه داده هاي زباني(3)

امروزه ديگر کسي درباره ي لزوم بنياد نهادن بررسي هاي زباني و زبان شناختي بر داده هاي واقعي و مستند ترديدي ندارد. پيکره ي زباني(4) هرچه گسترده تر و متنوّع تر باشد معتبرتر و سودمندتر خواهد بود. گستردگي و تنوّع پيکره در شکل هاي سنتي محدوديت هاي بسياري را به همراه دارد. هنگامي که حجم پيکره از مرزي مي گذرد، ساماندهي و بهره گيري از آن مشکل و سپس ناممکن مي گردد. گوناگوني داده ها گرچه در بيشتر بررسي هاي اهميت بسيار و نقش تعيين کننده مي يابد، اما باز هم مشکل را پيچيده تر مي سازد.
از سوي ديگر، بسياري از فعاليت هاي علمي در حوزه ي زبان، ادبيات و زبان شناسي به داده هاي مشابهي نياز دارند که هر يک براي خود تکه اي يا گوشه اي از گستره ي زبان را در برمي گيرند و به کار مي برند. چه بسا پيکره هاي مشابه يا داراي همپوشي فراگير که بدون آگاهي از وجود ديگري و با صرف وقت و هزينه ي زياد به وجود آمده و پس از بهره برداري به کناري نهاده شده اند.
ايراد ديگري که اغلب بر اين داده هاي پراکنده وارد است، داشتن ناراستي هاي فراوان به دليل يکبار مصرف بودن آنها است، چرا که کم تر فرضي براي آزمودن، ويراستن و پيراستن آنها فراهم مي شود.
بالأخره با توجه به ماهيت ايستاي اين گونه پيکره ها، حتي اگر بخواهيم از آنها در طرح هاي ديگري بهره بگيريم، پس از گذشت مدّتي، کهنه و شايد بي اعتبار به شمار آيند.
هدف از ايجاد پايگاه داده هاي زبان فارسي فراهم کردن پيکره اي مطلوب و به دور از نارسايي هاي ياد شده است؛ پيکره اي که با وجود حجم عظيمي از داده هاي زباني با گستردگي و گوناگوني هاي بسيار، داراي ساختاري به سامان و منطقي باشد، تا امکان هرگونه جستجو و دستيابي سريع به آگاهي هاي مورد نياز را در هر زمان فراهم نمايد و چنين پيکره اي مي تواند همواره روزآيند گردد و پاسخگوي نياز کاربران گوناگون، در همه ي زمينه هاي نظري و و کاربردي باشد.(5)

2. ويژگي هاي پايگاه

2. 1. گستره ي زباني

زبان فارسي مفهومي بسيار وسيع دارد و مي تواند در برگيرنده ي همه ي گونه هاي گفتاري، نوشتاري، سبکي و کاربردي اين زبان در همه ي دوران هاي تحوّل آن باشد. براي نزديک شدن به اين درياي داده ها، لازم است آن را به محدوده هايي بخش کنيم و در مراحل منظم و به تدريج آنها را پوشش دهيم. در نخستين مرحله، با توجه به نيازهاي گوناگون پژوهشي و کاربردي، از طيف دوران هاي تاريخي زبان فارسي، برش فارسي معاصر برگزيده شد.
همين برش نيز، که به طور قراردادي از آغاز قرن چهاردهم خورشيدي تا امروز را در برمي گيرد، خود داراي گونه هاي بسياري است، از جمله گونه ي رسمي نوشتاري يا به اصطلاح فارسي معيار و گونه ي گفتاري آن، گونه هاي ادبي، سبکي و حرفه اي فارسي، گونه هاي محاوره اي و عاميانه ي آن، و گونه هايي که متغيرهاي زباني و اجتماعي ديگري مانند سن، جنس، سواد و تحصيل، طبقه ي اجتماعي، و محيط هاي مختلف ارتباطي عامل تمايز آنها به شمار مي روند.

2. 2. منابع گردآوري داده ها

با توجه به گونه هاي ياد شده، بايسته است که با روش هاي متفاوت و مناسب، داده هاي مورد نياز فراهم و در درون حافظه ي رايانه سازماندهي گردد. براي نمونه، با استفاده از متن هاي معتبر و با رعايت معيارهاي مختلف، از گونه هايي که به شکل نوشتاري وابسته اند نمونه گيري مي شود. درحال حاضر در نظر نيست هيچ گونه محدوديت و امساکي در مورد آثار مهم ادبي و نويسندگان سرشناس و به ويژه صاحب سبک و تأثيرگذار اعمال گردد. گردآوري، درونداد و سازماندهي داده هاي زير تاکنون انجام گرديده است و باز هم ادامه خواهد يافت:
- نمونه هاي شاخص نثر و نظم معاصر
- نمونه هاي مهم متن هاي علمي و آموشي
- نمونه هاي کافي از نشريه هاي همه پسند(6) و تخصصي با زمينه ها و موضوع هاي متنوّع
- فهرست واژگاني، بسامدي و فرهنگ ها
- نمونه هاي ضبط شده از گونه هاي مهم گفتاري رسمي و غيررسمي فارسي معاصر و برخي از گونه ها و لهجه هاي آن
- و نيز پيکره هاي زباني که براي طرح هاي ديگر فراهم مي شوند و امکان بهره گيري از آنها در اين پايگاه داده ها هست.
هم اکنون حجم بزرگي از متن هاي ادبي، کتاب هاي ويژه ي کودکان و نوجوانان، و واژگاني تخصصي زبان شناسي از بيش از 260کتاب فراهم گرديده و مقداري نيز گفتار، مصاحبه و گفتگوي ساده ضبط شده است. اين کار به صورت فعاليتي هميشگي، با افزودن منابع تازه، دنبال خواهد شد.

2. 3. ساختار زباني پيکره

داده ها به شکل ها و قالب بندي هاي(7) گوناگون در اين پايگاه ذخيره مي شوند: به صورت متن هاي پيوسته ي کامل آثار ادبي يا نوشته هاي مهم؛ به صورت فهرست هاي واژه نما و بسامدي از همين متن ها و متن هاي ديگر، يعني فهرست همه ي واژگان به همراه چند سطر از بافت زباني و بسامد آنها، و نيز به صورت واژه نامه هاي تک زبانه و دوزبانه. همچنين متن هاي آوانويسي شده ي داده هاي گفتاري، چه به صورت متن پيوسته و چه به صورت فهرست هاي بسامدي، در پيکره جاي دارند و پيش بيني شده با به کارگيري امکانات چند رسانه اي(8)، فراگويي آوايي داده ها نيز ارائه گردد.

2. 4. ساختار رايانه اي

مجموعه ي داده هاي ياد شده در يک پايگاه داده هاي پيوندي(9) به گونه اي سازماندهي شده که هر واژه با پيوندهاي گوناگون به متن اصلي يا بافت خود، به همه ي مشخصات متن، مانند نام نويسنده، نام اثر، ناشر و سال و جاي انتشار، شماره ي سطر و صفحه، دسته بندي هاي گوناگون مربوط به نوع، سبک، موضوع و رشته ي اثر ارتباط يابد. پيوندهايي نيز ميان واژه و معني هاي آن، مترادف ها، مقوله ي دستوري، تعريف و تلفظ آن وجود دارد که امکان هرگونه جستجو را فراهم مي سازد.
در کنار اين پايگاه، برنامه هاي ديگري براي ايجاد واژه نامه هاي بسامدي، فهرست هاي آماري و انواع تبديل ها به کار گرفته مي شود.

3. کاربري هاي پايگاه

از اطلاعات اين پايگاه به روش هاي گوناگون مي توان بهره گرفت:

3. 1. با درخواست گزارش در حالت ناپيوسته(10)

هرگونه جستجو (که در زير خواهد آمد) در پيکره انجام مي گيرد و نتيجه ي آن در گزارش هايي به وسيله ي چاپگر چاپ مي شود و يا روي ديسکت به شکل پرونده ي رايانه اي ارائه مي گردد.

3. 2. با جستجوي همزمان يا پيوسته(11)-

اين کار يا به طور مستقيم در رايانه ي مرکزي انجام مي گيرد و يا (آن گونه که پيش بيني شده) از راه ارتباط شبکه اي و به صورت يک بانک اطلاعاتي در اختيار همگان قرار خواهد گرفت. در اين روش، نتيجه ي جستجو را مي توان بر صفحه ي نمايشگر ديد و يا با چاپگر به چاپ رسانيد.

4. انواع جستجو

مي توان بر پايه ي هر يک از اقلام اطلاعاتي يا ويژگي هاي مربوط به آنها جستجوهاي تک موردي، گروهي يا کلّي انجام داد، از جمله:
- جستجوي واژگاني (بر پايه ي يک يا چند کليد واژه)
- جستجوي مفهومي (بر پايه ي مفهوم يا معناي مورد نظر)
- جستجوي تلفظي (بر پايه ي صورت تلفظي يک واژه)
- جستجوي هم بافت (بر پايه ي واژه هاي همايند(12) و يا بافت هاي همسايه)
- گشت و گذار(13) در متن ها و واژه نامه ها
اين جستجوها را مي توان در محدوده هاي دلخواه (مثلاً دوره ي زماني معين، يا نويسنده اي مشخص، يا حجم معيني از پيکره) انجام داد.

5. انواع گزارش ها

گزارش هاي پايگاه به گونه هاي صوري و محتوايي مختلفي طراحي شده اند تا پاسخگوي نيازهاي گوناگون باشند:
- به شکل فهرست هاي واژگاني، آماري و بسامدي
- به شکل اطلاعات موردي
- به شکل فرهنگ واژه نما (فهرست صورت هاي کاربردي واژه ها همراه با اطلاعاتي درباره ي بافت زباني آن، مانند چند سطر جمله ي شاهد، شماره ي سطر و صفحه ي متن، نام نويسنده و مشخصات اثر، تاريخ کاربرد، بسامد در پيکره و مانند آن)
- به شکل گزيده هايي از متن هاي گوناگون

6. کاربران پايگاه

اين پايگاه براي استفاده ي همگاني در نظر گرفته شده است، اما مراحل و سطوح دستيابي متفاوت دارد. در مراحل آماده سازي، تنها مجريان طرح و سپس همکاران هيئت علمي پژوهشگاه به اطلاعات دسترسي داشتند، اما پس از راه اندازي نخستين مرکز خدمات همگاني، همه ي افراد مي توانند با مراجعه به مرکز، درخواست جستجوي موردي نمايند. کساني که مشترک پايگاه شوند، با فرستادن درخواست کتبي از راه پست يا نَمابَر(14) نيز مي توانند اطلاعات دريافت کنند. اميد است با راه اندازي و اتصال شبکه ي پژوهشگاه به شبکه هاي اطلاعاتي سراسري، بتوان امکانات پايگاه را در سراسر شبکه عرضه کرد.
از نظر سطح دستيابي، افراد، گروه هاي پژوهشي و سازمان ها داراي دامنه هاي مجاز متفاوتي خواهند بود؛ براي مثال، تنها مجريان طرح مي توانند هرگونه تغييرات را در ساختار و محتواي داده ها به وجود آورند، اما برخي از گروه هاي پژوهشي ممکن است بتوانند به افزايش داده ها بپردازند و ديگران تنها دريافت کننده ي اطلاعات به شمار آيند.

7. آينده ي پايگاه

پايگاه هاي داده ها روز به روز اهميت بيشتري مي يابند و شمار آنها و موضوع و زمينه هاي کاربردشان گسترده تر مي گردد. اکنون از پايگاه هاي معرفتي(15) گفتگو مي شود که بسياري از رشته هاي دانش و فن به آنها مجهز مي شوند و همه گونه آگاهي ها و معارف به صورت الکترونيک در آنها نگهداري مي شود. (انواري و ديگران، 1373) در شبکه هاي اطلاعاتي گوناگوني که در سراسر جهان در دسترس همه است، پايگاه هاي داده هاي بي شماري وجود دارد که اگر ما نيازمند گونه اي اطلاع باشيم، و آن را به درستي ارزيابي نماييم و امکان دستيابي و تجربه ي استفاده از اين پايگاه ها را نيز داشته باشيم، مي توانيم مصرف کننده ي خوبي براي اطلاعات آماده ي آن باشيم. از جمله درباره ي بسياري از زبان هاي مهم جهان داده هاي فراواني گردآوري شده است؛ اما در اين درياي بيکران اطلاعاتي، داده هاي قابل استناد براي زبان فارسي يافت نمي شود.
پايگاه داده هاي زبان فارسي، در وهله ي نخست براي پاسخگويي به نيازهاي پژوهندگان ايراني، در ايران ايجاد شده است و در مرحله ي بعد به عنوان يک بانک اطلاعاتي ايراني در دسترس همه ي کساني است که درباره ي زبان فارسي در نقاط ديگر جهان پژوهش مي کنند.
اکنون نخستين گام برداشته شده است، اما براي گسترش و تکميل اين پايگاه راه درازي در پيش است که بررسي و آزمون، ارزيابي و پيشنهادهاي سازنده ي همه ي دانش پژوهان پيمودن آن را آسان خواهد نمود.

پي‌نوشت‌ها:

1- پژوهشگاه علوم انساني و مطالعات فرهنگي.
2- اين طرح را نگارنده از ارديبهشت ماه1372 با همکاري چند تن از اعضاي هيئت علمي و کارشناسان پژوهشگاه علوم انساني به اجراء درآورده است. براي آگاهي بيشتر از جزئيات و پيشينه ي آن، نگاه کنيد به: (عاصي، 1373)
3- linguistic database
4- linguistic corpus
5- براي آگاهي درباره ي پيشينيه ي ايجاد و بهره گيري از پايگاه هاي داده ها و نمونه هاي مهم آن در جهان و دلايل نياز به چنين ابزاري، نگاه کنيد به: (عاصي، 1373)
6- popular
7- formats
8- multimedia
9- relational database
10- batch mode
11- on-line mode
12- collocations
13- navigation
14- facsimile (fax)
15- knowledge base

کتابنامه:
انواري، مرتضي و ملک آفاق فتحيان پور. 1373. «پايگاه هاي معرفتي در سيستم هاي اطلاع رساني»، اطلاع رساني، د11، ش1.
عاصي، مصطفي. 1373. «طرح ايجاد پايگاه داده هاي زبان فارسي با کمک کامپيوتر»، اطلاع رساني، د11، ش1.

منبع مقاله:
مدرسي، يحيي، دبيرمقدم، محمد؛ (1376)، مجموعه مقاله هاي سومين کنفرانس زبان شناسي، تهران: دانشگاه علامه طباطبايي، چاپ اول.

/م

ارسال نظر

با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.

متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.

مقالات مرتبط

تازه های مقالات

بیشترین بازدید هفته