همه چیز درباره موتورهای جستجو (2)
موتور جستجو چگونه کار می کند؟
گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این كار را ندارند. همه آنها در زمان پاسخ گویی به جستجوهای كاربران، تنها در پایگاه داده ای كه در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به كمك بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا" جمع آوری، تجزیه و تحلیل می كند، آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد.
بخش های مجزای یك موتور جستجوگر عبارتند از:
• Spider یا عنکبوت
• Crawler یا خزنده
• Indexer یا بایگانی کننده
• Database یا پایگاه داده
• Ranker یا سیستم رتبه بندی
الف Spider - (عنکبوت)
شكل 1- نمونه ای از صفحات وب كه توسط مرورگرها نشان داده می شود.
اما یک اسپایدر آنرا چگونه می بیند؟
شكل 2- روش مشاهده كدهای HTML یک صفحه وب
با انجام این کار فایل متنی شكل (3) به شما نشان داده می شود:
شكل 3- كدهای HTML سازنده یك صفحه وب
آیا این دنیای متنی برای شما جذاب است؟
اسپایدرها كاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می كنند و فقط به بررسی فعال بودن لینك های آنها می پردازند و یا به دنبال آدرس ایمیل ( Email ) می گردند.
ب- Crawler (خزنده)
کراولر، ممكن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال كردن لینك های یک صفحه به این بستگی دارد كه موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور كه دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی صفحات سایت تان دور كنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطلاع می یابد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتكل Robots انجام می شود. به عمل کراولر ، خزش ( Crawling ) می گویند.
ج- Indexer (بایگانی كننده)
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای كاهش حجم داده ها از بعضی كلمات كه بسیار رایج هستند صرفنظر می کند. كلماتی نظیر a ، an ، the ، www ، is و ... . از این گونه كلمات هستند.
د - DataBase (پایگاه داده)
هـ- Ranker (سیستم رتبه بندی)
حتی اگر موتور جستجوگر بهترین و كامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه كند، یك موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یك موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات كاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد.
حرفه ای های دنیای SEM به طور خلاصه از آن به Algo ( الگوریتم) یاد می كنند. الگوریتم، مجموعه ای از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب كند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.
می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد:
• کراولر
• بایگانی
• سیستم رتبه بندی
تذکر- برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود.
برای آنكه تصور درستی از نحوه كار یك موتور جستجوگر داشته باشید داستان نامتعارف زیر را با هم بررسی می كنیم. داستان ما یک شکارچی دارد. او تصمیم به شكار می گیرد:
- کار کراولر:
- پروتكل Robots :
• آیا در این منطقه می توان به شکار پرداخت؟
• کدام حیوانات را می توان شکار کرد؟
• حداکثر تعداد شکار چه میزانی است؟
• و ... .
فرض می کنیم او مجوز شكار یک اوریال (نوعی آهو) را از شكاربانی منطقه دریافت می كند.
- کار اسپایدر
- کار ایندکسر
- کار پایگاه داده
- کار سیستم رتبه بندی
نکته ها:
• شکارچی می تواند شب به شکار برود یا روز. موتور جستجوگر هم ممکن است شب به سایت شما مراجعه کند یا روز. بنابراین همواره مطمئن باشید که سایت شما آپ است و موتور جستجوگر می تواند در آن به شکار فایلها بپردازد.
• غذای خوشمزه را می توانید با نتایج جستجوی دقیق و مرتبط مقایسه کنید. اگر شکارچی بهترین شکار را با خود به منزل ببرد اما غذایی خوشمزه و مطابق سلیقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
• به عنوان آخرین نکته این بخش یاد آوری می کنم که به شکار اوریالی رعنا آن هم در منطقه حفاظت شده ابیورد (پارک ملی تندوره) اصلا فکر نکنید. اما توصیه می شود که حتما از طبیعت بکر آن دیدن فرمایید (بدون اسلحه!).
ادامه دارد .....
ارسال مقاله توسط عضو محترم سایت با نام کاربری : sm1372
/س