معرفي پيكره اي براي فارسي آموزان خارجي

نويسندگان: مصطفي عاصي (1)، منيره ترابي (2)

چكيده:

زبان شناسي پيكره اي، شاخه اي از زبان شناسي است كه به گردآوري و تحليل پيكره ها مي پردازد. پيكره مجموعه اي از پاره هاي زباني است كه انتخاب و براساس معيارهاي زباني روشني مرتب مي شوند به نحوي كه همچون نمونه اي از زبان به كار گرفته مي شوند. امروزه از پيكره هاي الكترونيكي مي توان به طور مستقيم يا غيرمستقيم در آموزش بهره جست. با تشويق زبان آموز به جستجو در پيكره، اين امكان براي او به وجود مي آيد كه به گشت و گذار در متن بپردازد و بتواند برونداد زباني خود را با زبان گويشور بومي مقايسه كند و خطاهاي رايج خود را بيابد. پيكره هاي رايانه اي موجود در زبان فارسي، براي فارسي زبانان تدوين شده اند و از متون و شواهدي بهره جسته اند كه براي فارسي آموزان خارجي دشوار به نظر مي رسد. پيكره ارائه شده در اين مقاله، يك پيكره 60000 واژه اي متشكل از 60 نمونه 1000 واژه اي از متون نوشتاري از 12 ژانر مختلف متون معاصر است كه در مقايسه با پيكره هاي موجود در زبان فارسي، بسيار كوچك بوده و همين امر استفاده از آن را براي فارسي آموزان خارجي، مفيد و مناسب ساخته است. اين پيكره تنها مجموعه اي از مواد خام زباني نيست، بلكه متن ها داراي شناسه متن هستند و هريك از واژه ها، به لحاظ اجزاي كلام، دستي نشانه گذاري شده اند. نيز به همراه هر واژه صورت تلفظي آن هم آمده است.

1. مقدمه

زبان شناسي پيكره اي رويكردي نسبتاً جديد به زبان است كه آغاز آن به دهه 1960 هم زمان با نوام چامسكي و ارائه مطالعات جديدش در خصوص زبان بازمي گردد. پيكره مجموعه اي از متون نوشتاري يا گفتاري آوانويسي شده است كه مي توان آن را مبنايي براي تحليل و توصيف زباني به كار برد. با راه يافتن رايانه به اين حوزه و تغييرات بنيادي در روش هاي پردازش متن و ذخيره سازي و دست يابي، زبان شناسي پيكره اي اكنون با رايانه پيوند يافته است و همين ابزار سرعت شگفت انگيز، شمارپذيري كامل، تكرار و روبرداري دقيق، صحت آماري و امكان به كارگيري حجم عظيم داده ها را به همراه آورد است ( Kennedy,1998:1 ). پيكره مي تواند به منظور بررسي خاصي فراهم آيد يا دربرگيرنده مجموعه عظيم و بي ساختاري از متون گوناگون باشد كه براي منظورهاي گوناگون به كار مي رود. « پيكره زباني مي تواند بسيار بزرگ، فراگير و نماينده تمامي يك زبان و يا گونه اي از آن باشد، متشكل از متن هاي كامل يا گزيده اي از آنها، بخش هاي پيوسته اي از متون يا گزيده اي از نقل قول ها و نكات و حتي فهرست هاي واژگاني » ( عاصي، 1382، ص 3 ). پيكره ها را مي توان از نظر اندازه و گستره به دسته هاي محدود و متوسط و عظيم تقسيم كرد ( عاصي، 1383، ص 40 ). تعيين حدود و گستره پيكره وظيفه زبان شناسان است. يكي از انواع پيكره ها براساس فرم و كاركرد پيكره هاي آموزشي هستند.

2. پيكره چيست؟

« سينكلر(3) پيكره را مجموعه اي از بخش هاي زبان مي داند كه با توجه به معيار زباني مشخصي انتخاب و مرتب مي شوند تا به عنوان نمونه اي از زبان مورد استفاده قرار گيرند » ( McEnery,Xiao and Tono,2005:5 ).
پيكره مجموعه اي است از (1) متون معتبر (2) قابل خوانده شدن توسط ماشين كه (3) نمونه برداري مي شوند تا (4) نماينده زباني خاص يا گونه اي از آن باشند. به عبارت دقيق تر، بنا بر گفته ليچ (4) بايد اضافه كنيم « پيكره هاي رايانه اي مجموعه هايي بي نظم از مواد متني نيستند، آنها را به قصد اهداف خاصي جمع آوري مي كنند تا نماينده گونه متن يا زباني باشند » ( ibid:5 ). بنابراين، همچون يك مرجع استاندارد عمل مي كنند.

3. ضرورت به كارگيري پيكره در آموزش

امروزه بررسي هاي زبان شناختي با استفاده از داده هاي واقعي و مستند ضرورتي انكارناپذير است. براي هر نوع پژوهش، به پيكره زباني ويژه اي كه دربردارنده نمونه هاي مناسب و كافي باشد، نياز است. « پيكره شامل متن هاي پيوسته طبيعي است كه مي توان از آن اطلاعاتي درباره عناصر زباني، هم واژگاني هم غيرواژگاني ( مانند سبك، نقطه گذاري، دستور، گونه كاربردي ) به دست آورد » ( Bowker and Person,2002:20 ). براي اين منظور، جمع آوري و تعبير و تفسير داده هاي زباني از منابع مختلف با تنوعات موضوعي موردنياز است.
اوايل دهه 1990 تمايل فزاينده اي در به كارگيري يافته هاي تحقيقات پيكره بنياد در آموزش زبان شكل گرفت. به گفته ليچ (1997 )، همگرايي آشكاري بين آموزش و پيكره زباني وجود دارد و اين همگرايي بر سه محور متمركز است: به كارگيري مستقيم پيكره در آموزش، كاربرد غيرمستقيم پيكره در آموزش، و نيز گسترش پيكره آموزش محور ( مانند پيكره زبان براي اهداف ويژه ( 5)، پيكره توسعه زبان اول، پيكره زبان آموزان زبان دوم )‌ (‌ McEnery,Xiao and Tono,2005:5 ). كاربرد رويكردهاي پيكره بنياد در رابطه با فضاي آموزشي احتمال دارد كه در آينده به سرعت توسعه يابد، همان طور كه سخت افزارهاي ارزان تر و قوي تر در گستره بودجه هاي آموزشي در نظر گرفته مي شوند. گرچه فرهنگ هاي لغت، كتاب هاي دستور و كتاب هاي درسي نيز جزئي از فضاهاي آموزشي هستند، نمونه هاي واقعي از فضاي كلامي و متن ها بهتر مي توانند واقعيات زبان را نشان دهند.
مزاياي استفاده از پيكره براي زبان آموز عبارت اند از: مواجه شدن زبان آموز با داده هاي زبان واقعي، يادگيري داده - بنياد يا زبان آموز به مثابه محقق، يادگيري اكتشافي يا زبان آموز به مثابه سياح، يادگيري زبان به مثابه بازسازي ( Bernardini,2004:16 ). به علاوه، از طريق حجم بزرگي از داده ها زبان آموز موفق به يافتن واژه هاي هم بافت مي شود.
هر زبان آموزي در كشف و به كارگيري زبان تا حدي از شم زباني خود استفاده مي كند و پيكره مي تواند ابزار پشتيباني از اين شم را فراهم كند. يك پيكره همچون بستري آزمايشي است كه مي توان از آن براي تأييد يا انكار فرضيه اي درباره زبان استفاده كرد. به اين ترتيب، زبان آموزان در مقابل خود مجموعه اي از شواهد مربوط به نقش و كاربرد واژه ها و عبارات را خواهند داشت.
« كشف واژه هايي خاص يا كاربردهايي خاص از آنها در پيكره اي متن هاي معتبر كه متخصصان هر زمينه موضوعي آن را نوشته اند، براي كمك به زبان آموز بسيار ارزشمند است، زيرا نشان مي دهد اگرچه همه واژه ها در فرهنگ هاي لغت ظاهر مي شوند، در بافت هايي خاص نمي توان از آنها استفاده كرد، حتي اگر جمله به لحاظ دستوري درست باشد » (‌Bowker and Pearson,2002: 18-19 ). اين گونه، پيكره شواهدي از عدم كاربرد يك اصطلاح يا عبارت را نيز به زبان آموز ارائه مي كند.

4. ويژگي هاي پيكره حاضر

هدف از ايجاد پيكره حاضر فراهم كردن مجموعه اي از مطالب متناسب با سطح و نوع آموزش زبان است. پيكره اي كوچك كه داراي ساختاري منطقي باشد و امكان جستجو و دستيابي به آگاهي هاي موردنياز را در هر زمان فراهم سازد. اين پيكره مي تواند پاسخگوي فارسي آموزان خارجي در زمينه چگونگي به كارگيري زبان فارسي باشد. طراحي و تدوين هر پيكره مستلزم به كارگيري معيارهايي است كه عبارتند از: اندازه، تعداد متن ها، رسانه (6)، موضوع، گونه متن، اعتبار مؤلف، زبان و تاريخ انتشار.

1-4. اندازه پيكره

اندازه پيكره به هدفي كه براي آن در نظر گرفته شده، بستگي دارد و نيز برخي ملاحظات كاربردي. امروزه با افزايش توان پردازش رايانه ها كه در كمتر از كسر ثانيه انجام مي شود و نيز ظرفيت ذخيره آنها، اندازه پيكره ها افزايش يافته است. در دسترس بودن داده هاي كافي، به ويژه به صورت الكترونيكي، به طور جدي بر اندازه پيكره تأثير مي گذارد. متون كاغذ- محور را با استفاده از نرم افزارهاي نويسه خوان نوري مي توان به صورت الكترونيكي درآورد، اما اين كار نيازمند زمان و هزينه است و نيز مستعد خطا. تايپ دوباره متون و نمونه خواني آنها نيز زمان بر است و دور از خطا نيست. بنابراين، در دسترس بودن داده ها به صورت الكترونيكي كه ماشين بتواند آنها را بخواند، اغلب عاملي محدودكننده در ساخت پيكره است. عامل ديگر مسئله كپي رايت است. متأسفانه در كشور ما نويسندگان و ناشران از اين حق برخوردار نيستند و به راحتي مي توان بدون اجازه كتبي از آنها، اين آثار را به كار گرفت.
پيكره حاضر، يك پيكره 60000 واژه اي متشكل از 60 نمونه 1000 واژه اي از متون نوشتاري. اين پيكره در مقايسه با پيكره هاي موجود در زبان فارسي، بسيار كوچك است و همين امر، استفاده از اين پيكره را براي فارسي آموزان خارجي، مفيد و مناسب ساخته است زيرا فهرست واژه ياب بسيار محدود است و كار با پيكره را آسان مي سازد. حجم بالاي فهرست واژه ياب نيازمند تحليل هاي آماري و ماشيني توسط كارشناس است و كاربرپسند نيست.

2-4. توازن(7) و نمايندگي (8)

نمايندگي ويژگي كيفي يك پيكره است. براي دستيابي به اين كيفيت، توازن و نمونه گيري مهم هستند. ويژگي هاي توازن و نمايندگي وابسته به پرسش تحقيق و نيز ميزان سهولت جمع آوري داده هاست و بنابراين، به طور نسبي تعبير مي شوند؛ يعني يك پيكره فقط نماينده اي ممكن از گونه زباني تحت بررسي است.
براي به دست آوردن نمونه اي نماينده از يك جمعيت، اولين كار تعيين واحد نمونه گيري و نيز مرزهاي جمعيت است. واحد نمونه گيري در اين پيكره، منابع نوشتاري است. جمعيت، مجموع همه ي واحدهاي نمونه گيري است در حالي كه فهرست واحدهاي نمونه گيري به چهارچوب نمونه گيري مربوط مي شود. چهارچوب نمونه گيري، فهرستي از مجموعه كتاب ها و نشريات ادواري در پايگاه كتابخانه ملي ايران در نظر گرفته شد. جمعيتي كه نمونه هاي اين پيكره از آن استخراج شد، متون نوشتاري معاصر تا به امروز بوده است. كل جمعيت با توجه به ژانر، به گروه هايي تقسيم و از هر گروه نمونه هايي انتخاب شد.
مسئله ديگر در ارتباط با نمونه گيري، نسبت و تعداد نمونه ها براي هر مقوله متني است. از هريك از اين 12 ژانر مختلف، به نسبت مساوي، 5 متن براساس معيارهايي كه در ادامه خواهد آمد، برگزيده شد. در ارتباط با اندازه نمونه، از هريك از آنها قطعاتي در حدود 1000 كلمه به طور تصادفي انتخاب و به صورت دستي تايپ شد.

3-4. رسانه و گونه متن

زبان به كار رفته در پيكره، گونه نوشتاري است. از گونه گفتاري در اين پيكره استفاده نشده است، زيرا حتي با بهترين تجهيزات نيز گردآوري و رايانه اي كردن داده هاي گفتاري مناسب براي يك پيكره، فرايندي زمان بر است و با توجه به محدوديت زماني گردآوري و اجراي اين طرح، از گونه گفتاري صرف نظر شده است. گونه نوشتاري دربردارنده كتاب هاي قديمي، داستان ها، كتاب هاي درسي، روزنامه ها، مجلات يا خاطرات و نامه هاي منتشر نشده، همچنين متون نوشتاري منتشر شده به صورت الكترونيكي است، مانند پست الكترونيكي و وبگاه ها. گونه نوشتاري اين پيكره، شامل متون چاپ شده و نشده از ژانرهاي مختلف است كه در كتاب ها، مجلات و نشريات، روزنامه ها يا وبگاه ها منتشر شده است. با توجه به طيف ژانرهاي مختلف منابع مورد استفاده در پيكره، اين پيكره هم داراي گونه رسمي يا معيار و هم داراي گونه غيررسمي يا به اصطلاح محاوره اي است. از گونه نوشتاري ادبي نيز، نمونه هايي از ادبيات معاصر در قالب نثر و شعر در اين پيكره گنجانده شده است. در انتخاب متن هاي نوشتاري، چهار معيار دخيل بوده اند: ژانر؛ يعني نوع محتواي متن؛ زمان، تاريخ توليد متن؛ رسانه؛ يعني نوع توليد متن مانند كتاب، نشريات ادواري يا نوشته هاي برخط؛ و اعتبار مؤلف؛ يعني اعتبار نويسنده متن.
زبان فارسي مفهومي بسيار وسيع دارد و شامل همه گونه هاي گفتاري، نوشتاري، سبكي و كاربردي و غيره در همه دوران هاي اين زبان است. با توجه به نياز پيكره كه آموزش زبان فارسي به غيرفارسي زبانان است و نه ادبيات فارسي، از طيف دوران هاي تاريخي زبان فارسي، برش فارسي معاصر برگزيده شد تا شواهدي از اين دوران براي فارسي آموزان ارائه شود. همين محدوده زماني نيز كه به طور قراردادي از ابتداي قرن چهاردهم خورشيدي تا امروز را دربرمي گيرد، داراي گونه هاي بسياري است، از جمله گونه رسمي يا به اصطلاح معيار و غيررسمي يا به اصطلاح محاوره اي و عاميانه، گونه نوشتاري و گونه گفتاري، گونه ادبي و سبكي و گونه كاربردي و حرفه اي و گونه هايي كه متغيرهاي اجتماعي ( مانند سن، جنس، سواد و تحصيل، طبقه اجتماعي، محيط هاي مختلف اجتماعي و منطقه اي ) عامل تمايز آنها به شمار مي روند.
به دليل حجم گسترده منابع، ناگزير به گزينش شديم و نمونه گيري براساس معيارهايي صورت پذيرفته است، از جمله ميزان فروش ( ‌با توجه به فهرست كتاب هاي پرفروش )، در دسترس بودن منابع، محدوديت زماني، تأليفي بودن منابع ( متون نوشتاري ترجمه شده و نيز متوني كه غيرفارسي زبانان آن را نوشته اند، از اين جمعيت كنار گذاشته شد )، اطمينان از اعتبار مطالب ( متخصص و سرشناس بودن نويسنده در موضوع موردنظر و نيز فارسي زبان بودن او )، تأثيرگذاري و صاحب سبك بودن نويسنده.
اين نمونه ها از اين ژانرها انتخاب شده اند: اثر منثور داستاني و غيرداستاني، اثر شعري از شاعران معاصر، مجله و نشريه علمي و ادبي و تخصصي، نمايشنامه، فيلم نامه، ادبيات كودكان، روزنامه و نشريه خبري، همه پسند و متنوع، كتاب هاي درسي دبستاني و راهنمايي و دبيرستان، كتاب هاي تأليفي در زمينه آموزش زبان به غيرفارسي زبانان، مجموعه اي از قوانين و مقررات، دفترچه راهنما و بروشورها.
همان طور كه پيش تر گفته شد، از هريك از 12 ژانر مختلف، 5 متن برگزيده و از هريك از آنها در حدود 1000 كلمه به طور تصادفي انتخاب و تايپ شد. اين قطعات ممكن است از هر جاي متن انتخاب شده باشند، يعني از ابتدا، وسط يا انتهاي متن. با اينكه نمونه هاي كامل متن اساساً مفيد هستند و متأسفانه در ايران مسئله كپي رايت وجود ندارد، با در نظر گرفتن اندازه كلي محدود پيكره، پاره هاي متني مورد استفاده قرار گرفت. نكته ديگر آن است كه با لحاظ كردن كل يك متن در پيكره كوچك ممكن است موضوع يا ويژگي سبكي شخص به كل زبان تعميم داده شود.
يكي از مشكلات خط فارسي، نبود رسم الخطي يكنواخت است و در اين زمينه هيچ استاندارد يا معياري وجود ندارد كه مورد پذيرش عموم نويسندگان و ناشران باشد. از اين رو، در متون نويسندگان مختلف با رسم الخط هايي متفاوت مواجه ايم؛ اين امر موجب سردرگمي فارسي آموزان خارجي شده است. به علاوه، يكنواختي پيكره را مخدوش و جستجوي واژه ها و عبارات را با مشكل مواجه مي سازد. برخي از اين مشكلات عبارت اند از: سرهم نويسي، نمايش كسره اضافه در كلمات مختوم به « ه » به صورت همزه يا « ي »، و از اين قبيل. در اين پيكره تا حد ممكن سعي شده است كه الگوي يكساني رعايت شود و اين به بهاي قرباني شدن رعايت امانت در شيوه نگارش است.
در پيكره حاضر، در مورد سرهم نويسي يا جدانويسي واژه ها به كتاب فرهنگ املايي خط فارسي و نيز دستور خط فارسي (‌1385) مراجعه شده كه فرهنگستان زبان و ادب فارسي آن را منتشر كرده است.

5. رايانه اي كردن داده ها

در خصوص متن هاي چاپي امكان استفاده از پويشگر (9)‌و تبديل آنها به اسناد واژه پرداز به كمك مبدل (10) وجود دارد. البته اين كار بدون خطا هم نيست ولي با توجه به هزينه، از اين كار صرف نظر شد. در اين پيكره، متن ها پس از انتخاب به صورت دستي تايپ و سپس نمونه خواني شد. متن هاي الكترونيكي نيز اول با معيارهاي پيكره حاضر يكسان سازي و پس از نمونه خواني، در پيكره گنجانده شد.

6. ساختار رايانه اي

مجموعه اين داده ها در يك پايگاه داده هاي XML ذخيره شده است. در ايجاد اين پيكره از زبان XML استفاده شده است كه به عنوان زبان نشانه گذاري از مزيت هايي برخوردار است: اسناد XML را مي توان به راحتي ايجاد نمود زيرا نيازي به فراگيري برچسب هاي زياد نيست و در صورت نياز، خود مي توان آنها را ايجاد نمود. سند XML قابليت ايجاد و تعريف زبان هاي نشانه گذاري را دارد. بنابراين مي توان به جاي استفاده از يك سري المان هاي ثابت، مانند HTML، طبق نياز اقدام به گسترش المان هاي XML كنيم؛ يعني هيچ محدوديتي در ارتباط با ايجاد برچسب ها در XML وجود ندارد و به واقع، يك زبان قابل گسترش است، زيرا هيچ فهرستي از المان هاي از پيش تعريف شده در XML وجود ندارد و هر كاربري مي تواند مطابق با نيازهاي خود المان را تعريف و از آنها استفاده كند. سند XML را در هر ويرايش گر متن ساده اي مانند Notepad مي توان ديد و ويرايش كرد و براي همه قابل فهم است. زبان XML به دليل استفاده از استاندارد جهاني Unicode، همه زبان ها را پشتيباني مي كند. ويژگي ديگر سند XML اين است كه همه برچسب ها توسط نويسنده سند تعريف مي شود و اين امر به ايجاد يك سند XML سهولت مي بخشد. نشانه گذاري (11) معمولاً اطلاعات متني ( مانند پاراگراف و جمله ) و بافتاري ( مانند نوع متن، جنس گويشور و منابع كتاب نامه اي )‌ ارائه مي دهد. اطلاعات بافتاري، وضعيتي كه در آن يك نمونه خاص پيكره توليد شده است را پوشش مي دهد. پيكره ها معمولاً متشكل از نمونه هاي مجزايي هستند كه از متن هاي بزرگ تر بيرون كشيده مي شوند، لذا نشانه گذاري كمك مي كند تا داده هاي پيكره را به روشي ساختاريافته ساماندهي كنيم و در گوناگوني هاي زبان جستجو كنيم.
در ادامه، نمونه اي از سند XML آمده است.

<?xml version="1.0" encoding="utf-8"?>
<Texts>
<Text id="adaaf31 d-63f2-432f-8ba0-7760199dcefa">
<Title/> قرباني <Title>
<Source/>چمدان <Source>
<Subject/> داستاني ادبيات <Subject>
<Author/> علوي بزرگ <Author>
<Publisher/> اميركبير <Publisher>
<Date>1357 </Date>
<Place/> تهران <Place>
<Page> 17-20 </Page>
<Written text>

درخت ها تازه جوانه كرده بود، شب پيش نم نمك باران آمده بود، اما امروز هوا صاف و خندان بود. خسرو روي تخت خوابيده بود. بعد از سه ماه ناخوشي بستري براي اولين دفعه در اتاق را باز كرده بود. صورتش صاف و چشمانش خمار و بي نور مي نمود. جلوي پنجره در حياط سه تا مرغ به زمين نوك مي زدند، با پاهاي خود خاك باغچه را پخش مي كردند. يك مرغ و خروس لب حوض رفته، آب مي خوردند و پس از فرو دادن هر چكه آب سرهايشان را به طرف هم مي چرخانيده، بهم نگاه مي كردند...
اين پيكره تنها مجموعه اي از مواد خام زباني نيست، بلكه متن ها داراي شناسه متن هستند. هر نمونه از متن با مشخصات شناسنامه اي متن مانند نام نويسنده، نام اثر، مأخذ، ناشر و سال و مكان انتشار و شماره صفحه آمده است. هركدام از اين مشخصات شناسنامه اي متن در يك برچسب در سربرگ سند XML تعريف شده است ( مانند نمونه اي كه آمده است ). به مجردي كه متن از بافتي كه نخستين بار در آن ظاهر شده است، انتخاب و استخراج مي شود، از محيط واقعي خود پاك مي شود. پس زبان آموز بايد چنين متني را با ارجاع به بافت هاي متفاوت پردازش كند تا اولين بافتي را كه منشأ آن بوده است، بيابد.
امكان ديگر اين پايگاه، ويرايش متن و ايجاد، حذف و تغيير اطلاعات شناسنامه اي متن ها است. همچنين امكان بازبيني و گشت و گذار كاربر در متون وجود دارد.

7. نشانه گذاري

يكي از مهم ترين دلايل استفاده از پيكره در تحقيقات زباني، خلاصه شدن اطلاعات زباني موجود در پيكره هاست و به همين جهت، نخست بايد تحليل هاي زباني در پيكره كدگذاري شود. فرايند افزودن اطلاعات زباني و تعبيري به داده هاي الكترونيكي پيكره، نشانه گذاري گفته مي شود. نشانه گذاري پيكره صورت هاي مختلف دارد؛ برچسب گذاري به لحاظ اجزاي كلام، تقطيع، معنايي و مانند آن و اين كه از كدام نوع از اين نشانه گذاري ها استفاده شود، مرتبط با سؤال تحقيق است. علاوه بر پرسش تحقيق، ملاحظه اصلي در نشانه گذاري پيكره، ميزان دقت نشانه گذاري خودكار است. امكان نشانه گذاري خودكار در زبان فارسي مهيا نيست و نشانه گذاري به طور دستي و با تخصيص برچسب ها به واژه ها ميسر مي شود.
پيكره نشانه گذاري شده از مزايايي برخوردار است. نخست اينكه استخراج اطلاعات از پيكره هاي نشانه گذاري شده آسان و سرعت انجام آن بالاست. براي مثال، در زبان فارسي واژه اي كه پس از اسم مي آيد ممكن است اسم يا صفت باشد مانند كتاب استاد يا كتاب مفيد يا صورت هايي از واژه مانند هم هستند مانند خريد (‌ اسم ) و خريد ( فعل در زمان گذشته ). از طريق پيكره نشانه گذاري شده مي توان به اين تمايزها پي برد. مزيت ديگر پيكره نشانه گذاري شده، استفاده مجدد از تحليل هاي آن و نيز چندمنظوره بودن آن است. همچنين نشانه گذاري متن به تحليل زباني وضوح مي بخشد.
در پيكره حاضر واژه ها برحسب اجزاي كلام برچسب گذاري شده اند. اين نوع برچسب گذاري، هريك از اجزاي كلام را به يك واژه در پيكره تخصيص مي دهد و گسترده ترين و متداول ترين نوع برچسب گذاري است. در پژوهش حاضر، به دليل پيچيدگي برچسب گذاري دستي و زمان بر بودن آن، برچسب گذاري به لحاظ اجزاي كلام در دو لايه صورت پذيرفته است؛ در لايه اول، جزء اصلي مشخص شده است كه عبارت اند از: اسم، فعل، حرف، صفت، قيد، ضمير و صوت و در لايه دوم، اين اطلاعات ريزتر شده است اينكه فعل، لازم است يا متعدي؛ اسم، ساده است يا مركب ( اعم از مشتق و مركب )؛ حرف اضافه، ساده است يا مركب؛ حرف ربط، ساده است يا مركب؛ نشانه مفعول؛ صفت، ساده است يا تفضيلي و عالي؛ قيد ساده است يا مركب، و ضمير، شخصي است يا موصولي. براي هريك از اين مقوله ها، يك برچسب در نظر گرفته شد. معمولاً هريك از اين برچسب ها داراي يك يا چند خصلت هستند. خصلت(12) ها اجازه مي دهند تا برچسب ها را دقيق تر كنيم و به منظور ضميمه كردن اطلاعاتي به اطلاعات موجود در المان ها مورد استفاده قرار مي گيرند.
در زير نمونه اي از اين برچسب گذاري آمده است.

<?xml version="1.0" encoding="utf-8"?>
<WittenText>
<noun type="compound" pron="xanetekani"> خانه تكاني </noun>
<noun type="compound" pron="pirezan"> پيرزن </noun>
<preposition type="compound"pron="pasaz"> پس از </preposition>
<noun type="compound"pron="xordan"> خوردن </noun>
<noun type="compound" pron="sibhane"> صبحانه </noun>
<noun type="compound" pron="xanetekani"> خانه تكاني </noun>
<adverb type="simple"pron="ebteda"> ابتدا </adverb>
<preposition type="simple" pron= "be"> به </preposition>
<noun type="simple" pron = "hajat"> حياط </noun>
<verb type="simple" pron="raft"> رفت </verb>
<?xml version= "1.0" encoding= " uft-8"?>
<WrittenText>

يكي از ويژگي هاي خط فارسي اين است كه حركت ها به طور معمول در نوشتار ظاهر نمي شود. اين امر خواندن و تلفظ برخي واژه ها را براي غيرفارسي زبانان مشكل مي سازد. در عين حال، حركت گذاري متن هاي پيكره جستجوي واژه را با پيچيدگي هاي فني و كاربردي همراه مي سازد. همان طور كه در نمونه ديده مي شود، يكي از خصلت هايي كه براي هر واژه در هر برچسب آمده است، صورت تلفظي آنها به صورت آوانگاري است و اين صورت ها از كتاب فرهنگ آوايي فارسي استخراج شده است. به اين ترتيب، فارسي آموزان خارجي به راحتي مي توانند صورت تلفظي را مشاهده كنند.

8. انواع جستجو و گزارش

اين پيكره از طريق اينترنت به نشاني www.corpus.ir در دسترس همگان است. در حال حاضر، جستجو در اين پيكره بر پايه واژگان يا بخشي از آن ها امكان پذير است. در فهرست واژه ياب ميزان وقوع واژه مورد جستجو در كل پيكره و نيز تعداد نمونه هايي كه اين واژه ها در آن رخ داده است، مشخص مي شود. فهرست واژه، كه در آن هر متن به فهرستي از واژگان تبديل مي شود، مستلزم قيچي كردن و جدا كردن اجزاي يك متن براي ايجاد چنين فهرستي است. لذا در پيكره حاضر، فهرست واژه نمايش داده نمي شود. هر واژه در متن، يك بافت هم نشين دارد؛ يعني واژه به تنهايي در متن رخ نمي دهد. در فهرست واژه نما، تا چند واژه قبل و بعد از واژه مورد جستجو؛‌ يعني ميزان كوچكي از بافت، نمايش داده مي شود و كليدواژه در وسط خط واژه ياب نمايش داده مي شود. واژه ياب نشان مي دهد كه نمونه ها گرايش دارند تا پيش از چه مقوله اي قرار گيرند يا پس از چه مقوله اي. همچنين معاني مختلف يك واژه را با توجه به كاربردهاي مختلف نشان مي دهند. بدين ترتيب، واژه هاي هم آيند واژه موردنظر نيز ظاهر مي شود و با انتخاب هريك از شواهد، نمونه اصلي قابل دستيابي است. به همراه هر واژه، اطلاعات دستوري و تلفظي آن نيز نمايش داده مي شود.

9. كاربران پيكره

اين پيكره، پيكره اي آموزشي است و فارسي آموزان خارجي و كليه علاقه مندان به زبان فارسي از طريق اينترنت مي توانند به آن دسترسي داشته باشند. اما سطوح دستيابي به آن متفاوت است. ويرايش متن و ايجاد، حذف و تغيير اطلاعات شناسنامه اي متن ها تنها براي تدوين گر پيكره مجاز است و ساير كاربران قادر به تغيير اين اطلاعات نيستند. اما امكان بازبيني و گشت و گذار در متون و جستجوي واژگاني و تلفظي و دستوري براي همه كاربران وجود دارد كه مي توانند به كمك فهرست هاي بسامدي آن، تحليل خود را انجام دهند.

پي‌نوشت‌ها:

1. پژوهشگاه علوم انساني و مطالعات فرهنگي S_m_assi@ihcs.ac.ir.
2. بنياد دايره المعارف اسلامي mon.torabi@gmail.com.
3. John Sinclair.
4. Geoffrey Leech.
5. language for specific purpose(LSP).
6. medium.
7. balance.
8. representativeness.
9. scanner.
10. convertor.
11. annotation.
12. attribue.

منابع تحقيق:
عاصي، مصطفي ( 1382)، از پيكره زباني تا زبان شناسي پيكره اي، مجموعه مقالات پنجمين كنفرانس زبان شناسي كشور، تهران: دانشگاه علامه طباطبايي.
___ ( 1383)، پردازش دستوري زبان فارسي با رايانه، دستور، شماره اول، 52-29.
Bemardini, Silvia. (2004), Corpora in the classroom: an overview and some reflections on future development, In: John MCH Sinclair (ed). How to use corpora in language teaching, (15-36), Amsterdam: John Benjamins.
Bowker, Lynne and Jennifer Pearson, (2002), Working with specialized language: a practical guide to using corpora, New York: Routledge.
Kennedy, Greame, (1998), An introduction to corpus linguistics, London: Longman. Leech, Geoffrey. (1997), Teaching and language corpora: a convergence, In: A. Wichmann, S. Fligelstone, A. McEnery and G. Knowles (eds) Teaching and language corpora (1-23). London: Longman.
McEnery, Tony and R. Xiao and Y. Tono, (2006), Corpus- based language studies: an advanced resource book. New York: Routledge.
منبع مقاله :
دبيرمقدم، محمد، (1391)، مجموعه مقالات هشتمين همايش زبان شناسي ايران، تهران: انتشارات دانشگاه علامه طباطبائي، چاپ اول

معرفي پيكره اي براي فارسي آموزان خارجي

مقالات مرتبط

تازه های مقالات

بیشترین بازدید هفته