۱۱.۲۸.۱۳۸۷

موتور جستجوگر چگونه کار می کند؟

وقتي جستجويي در يك موتور جستجوگر انجام
و نتايج جستجو ارايه مي شود، كاربران در
واقع نتيجه كار بخش هاي متفاوت موتور
جستجوگر را مي بينند. موتور جستجوگر
قبلا

پايگاه داده اش را آماده كرده است و اين
گونه نيست كه درست در همان لحظه جستجو،
تمام وب را بگردد. بسياري از خود مي
پرسند كه چگونه امكان دارد گوگل در كمتر
از يك ثانيه تمام سايت هاي وب را بگردد و
ميليون ها صفحه را در نتايج جستجوي خود
ارايه كند؟ نه گوگل و نه هيچ موتور
جستجوگر ديگري توانايي انجام اين كار
را ندارند. همه آنها در زمان پاسخ گويي
به كاربران، تنها در پايگاه داده اي كه
در اختيار دارند به جستجو مي پردازند و
نه در وب! موتور جستجوگر به كمك بخش هاي
متفاوت خود، اطلاعات مورد نياز را قبلا

جمع آوري، تجزيه و تحليل مي كند و آنرا
در پايگاه داده اش ذخيره مي نمايد و به
هنگام جستجوي كاربر تنها در همين
پايگاه داده مي گردد. بخش هاي مجزاي يك
موتور جستجوگر عبارتند از: • Spider يا
عنكبوت• Crawler يا خزنده• Indexer يا
بايگاني كننده• Database يا پايگاه داده•
Ranker يا سيستم رتبه بندي الف Spider-
(عنكبوت)اسپايدر يا روبوت (Robot)، نرم
افزاري است كه كار جمع آوري اطلاعات
مورد نياز يك موتور جستجوگر را بر عهده
دارد. اسپايدر به صفحات مختلف سر مي
زند، محتواي آنها را مي خواند، اطلاعات
مورد نياز را جمع آوري مي كند و آنرا در
اختيار ساير بخش هاي موتور جستجوگر
قرار مي دهد. كار يك اسپايدر، بسيار
شبيه كار كاربران وب است. همانطور كه
كاربران، صفحات مختلف را بازديد مي
كنند، اسپايدر هم درست اين كار را انجام
مي دهد با اين تفاوت كه اسپايدر كدهاي HTML
صفحات را مي بيند اما كاربران نتيجه
حاصل از كنار هم قرار گرفتن اين كدها را.
اما يك اسپايدر آنرا چگونه مي
بيند؟براي اين كه شما هم بتوانيد دنياي
وب را از ديدگاه يك اسپايدر ببينيد،
كافي است كه كدهاي HTML صفحات را مشاهده
كنيد. براي اين كار در مرورگر مورد
استفاده خود، مسير نشان داده شده با
انجام اين كار فايل متني به شما نشان
داده مي شود: آيا اين دنياي متني براي
شما جذاب است؟ اسپايدر، به هنگام
مشاهده صفحات، از خود بر روي سرورها رد
پا برجاي مي گذارد. شما اگر اجازه
دسترسي به آمار ديد و بازديدهاي صورت
گرفته از يك سايت و اتفاقات انجام شده
در آنرا داشته باشيد، مي توانيد مشخص
كنيد كه اسپايدر كدام يك از موتورهاي
جستجوگر صفحات سايت را مورد بازديد
قرار داده اند.يكي از فعاليتهاي اصلي كه
در SEM انجام مي شود تحليل آمار همين ديد و
بازديدها مي باشد. اسپايدرها كاربردهاي
ديگري نيز دارند، به عنوان مثال عده اي
از آنها به سايت هاي مختلف مراجعه مي
كنند و فقط به بررسي فعال بودن لينك هاي
آنها مي پردازند و يا به دنبال آدرس پست
الكترونيكي (Email) مي گردند. ب- Crawler
(خزنده) كراولر، نرم افزاري است كه به
عنوان يك فرمانده براي اسپايدر عمل مي
كند. آن مشخص مي كند كه اسپايدر كدام
صفحات را مورد بازديد قرار دهد. در واقع
كراولر تصميم مي گيرد كه كدام يك از
لينك هاي صفحه اي كه اسپايدر در حال
حاضر در آن قرار دارد، دنبال شود. ممكن
است همه آنها را دنبال كند، بعضي ها را
دنبال كند و يا هيچ كدام را دنبال
نكند.كراولر، ممكن است قبلا

برنامه ريزي شده باشد كه آدرس هاي خاصي
را طبق برنامه، در اختيار اسپايدر قرار
دهد تا از آنها ديدن كند. دنبال كردن
لينك هاي يك صفحه به اين بستگي دارد كه
موتور جستجوگر چه حجمي از اطلاعات يك
سايت را مي تواند در پايگاه داده اش
ذخيره كند و همچنين ممكن است اجازه
دسترسي به بعضي از صفحات به موتورهاي
جستجوگر داده نشده باشد. شما به عنوان
دارنده سايت، همان طور كه دوست داريد
موتورهاي جستجوگر اطلاعات سايت شما را
با خود ببرند، مي توانيد آنها را از
بعضي از صفحات سايت تان دور كنيد و
اجازه دسترسي به محتواي آن صفحات را به
آنها ندهيد. تنظيم ميزان دسترسي
موتورهاي جستجوگر به محتواي يك سايت
توسط پروتكل Robots انجام مي شود كه در
مقالات ديگر سايت به آن پرداخته شده
است. به عمل كراولر ، خزش (Crawling) مي
گويند. ج- Indexer (بايگاني كننده)تمام
اطلاعات جمع آورش شده توسط اسپايدر در
اختيار ايندكسر قرار مي گيرد. در اين
بخش اطلاعات ارسالي مورد تجزيه و تحليل
قرار مي گيرند و به بخش هاي متفاوتي
تقسيم مي شوند. تجزيه و تحليل بدين معني
است كه مشخص مي شود اطلاعات از كدام
صفحه ارسال شده است، چه حجمي دارد،
كلمات موجود در آن كدام است، كلمات
چندبار تكرار شده است، كلمات در كجاي
صفحه قرار دارند و ... . در حقيقت
ايندكسر، صفحه را به پارامترهاي آن خرد
مي كند و تمام اين پارامترها را به يك
مقياس عددي تبديل مي كند تا سيستم رتبه
بندي بتواند پارامترهاي صفحات مختلف را
با هم مقايسه كند.در زمان تجزيه و تحليل
اطلاعات، ايندكسر براي كاهش حجم داده
ها از بعضي كلمات كه بسيار رايج هستند
صرفنظر مي كند. كلماتي نظير a ، an ، the ، www
، is و ... . از اين گونه كلمات هستند. د -
DataBase (پايگاه داده)تمام داده هاي تجزيه
و تحليل شده در ايندكسر، به پايگاه داده
ارسال مي گردد. در اين بخش داده ها گروه
بندي، كدگذاري و ذخيره مي شود. همچنين
داده ها قبل از آنكه ذخيره شوند، طبق
تكنيكهاي خاصي فشرده مي شوند تا حجم كمي
ُُاز پايگاه داده را اشغال كنند. يك
موتور جستجوگر بايد پايگاده داده عظيمي
داشته باشد و به طور مداوم حجم محتواي
آنرا گسترش دهد و البته اطلاعات قديمي
را هم به روز رساني نمايد. بزرگي و به
روز بودن پايگاه داده يك موتور جستجوگر
براي آن امتياز محسوب مي گردد. يكي از
تفاوتهاي اصلي موتورهاي جستجوگر در حجم
پايگاه داده آنها و همچنين روش ذخيره
سازي داده ها در پايگاه داده است. و- Ranker
(سيستم رتبه بندي)بعد از آنكه تمام مراحل
قبل انجام شد، موتور جستجوگر آماده پاسخ
گويي به سوالات كاربران است. كاربران
چند كلمه را در جعبه جستجوي (Search Box) آن
وارد مي كنند و سپس با فشردن Enter منتظر
پــاسخ مي مانند. براي پاسخگويي به
درخواست كاربر، ابتدا تمام صفحات موجود
در پايگاه داده كه به موضوع جستجو شده،
مرتبط هستند، مشخص مي شوند. پس از آن
سيستم رتبه بندي وارد عمل شده، آنها را
از بيشترين ارتباط تا كمترين ارتباط
مرتب مي كند و به عنوان نتايج جستجو به
كاربر نمايش مي دهد. حتي اگر موتور
جستجوگر بهترين و كامل ترين پايگاه
داده را داشته باشد اما نتواند پاسخ هاي
مرتبطي را ارايه كند، يك موتور جستجوگر
ضعيف خواهد بود. در حقيقت سيستم رتبه
بندي قلب تپنده يك موتور جستجوگر است و
تفاوت اصلي موتورهاي جستجوگر در اين
بخش قرار دارد. سيستم رتبه بندي براي
پاسخ گويي به سوالات كاربران،
پارامترهاي بسياري را در نظر مي گيرد تا
بتواند بهترين پاسخ ها را در اختيار
آنها قرار دارد. حرفه اي هاي دنياي SEM به
طور خلاصه از آن به Algo ( الگوريتم) ياد مي
كنند. الگوريتم، مجموعه اي از
دستورالعمل ها است كه موتور جستجوگر با
اعمال آنها بر پارامترهاي صفحات موجود
در پايگاه داده اش، تصميم مي گيرد كه
صفحات مرتبط را چگونه در نتايج جستجو
مرتب كند. در حال حاضر قدرتمندترين
سيستم رتبه بندي را گوگل در اختيار
دارد. ُمي توان با ادغام كردن اسپايدر
با كراولر و همچنين ايندكسر با پايگاه
داده، موتور جستجوگر را شامل سه بخش زير
دانست كه اين گونه تقسيم بندي هم درست مي
باشد: • كراولر• بايگاني• سيستم رتبه
بندي تذكر- براي سهولت در بيان مطالب
بعدي هر گاه صحبت از بايگاني كردن (شدن)
به ميان مي آيد، مقصود اين است كه صفحه
تجزيه و تحليل شده و به پايگاه داده
موتور جستجوگر وارد مي شود. براي آنكه
تصور درستي از نحوه كار يك موتور
جستجوگر داشته باشيد داستان نامتعارف
زير را با هم بررسي مي كنيم. داستان ما
يك شكارچي دارد. او تصميم به شكار مي
گيرد: - كار كراولر: او قصد دارد براي
شكار به منطقه حفاظت شده ابيورد، واقع
در شهرستان درگز (شمالي ترين شهر خراسان
بزرگ) برود. - پروتكل Robots :ابتدا تمام
محدوديت هاي موجود براي شكار در اين
منطقه را بررسي مي كند: • آيا در اين
منطقه مي توان به شكار پرداخت؟• كدام
حيوانات را مي توان شكار كرد؟• حداكثر
تعداد شكار چه ميزاني است؟ • و ... . فرض
مي كنيم او مجوز شكار يك اوريال (نوعي
آهو) را از شكارباني منطقه دريافت مي
كند. - كار اسپايدراو اوريالي رعنا را
شكار مي كند و سپس آنرا با خود به منزل
مي برد. - كار ايندكسرشكار را تكه تكه
كرده، گوشت، استخوان، دل و قلوه، كله
پاچه و ... آنرا بسته بندي مي كند و بخش
هاي زايد شكار را دور مي ريزد. - كار
پايگاه دادهبسته هاي حاصل را درون
فريزر قرار داده، ذخيره مي كند. - كار
سيستم رتبه بنديمهمانان سراغ او مي
آيند و همسر او بسته به ذائقه مهمانان
براي آنها غذا طبخ مي كند. ممكن است عده
اي كله پاچه، عده اي آبگوشت، عده اي جگر
و ... دوست داشته باشند. پخت غذا طبق
سليقه مهمانان كار سختي است. ممكن است
همه آنها آبگوشت بخواهند اما آنها
مسلما

بامزه ترين آبگوشت را مي خواهند! نكته
ها:• شكارچي مي توانست براي شكار كبك يا
اوريال و يا هر دو به آن منطقه برود
همانطور كه موتور جستجوگر مي تواند از
سرور سايت شما انواع فايل (عكس، فايل
متني، فايل اجرايي و ...) درخواست كند.•
غذاي خوشمزه را مي توانيد با نتايج
جستجوي دقيق و مرتبط مقايسه كنيد. اگر
شكارچي بهترين شكار را با خود به منزل
ببرد اما غذايي خوشمزه و مطابق سليقه
مهمانان طبخ نگردد، تمام زحمات هدر
رفته است.• به عنوان آخرين نكته اين
مقاله ياد آوري مي كنم كه به شكار
اوريالي رعنا آن هم در منطقه حفاظت شده
ابيورد، اصلا فكر نكنيد. اما توصيه مي
شود كه حتما از طبيعت بكر آن ديدن
فرماييد (بدون اسلحه!). منبع :
http://www.iranseo.com/
بدون شك گوگل يكي از
بهترين ومحبوب ترين موتورهاي جستجو در
اينترنت است كه اين موفقيت را مديون
ارائه نتايج بهتر در جستجو ، نوآوري در
ارائه خدمات وسادگي است. مطمئنا شما هم
براي جستجو از گوگل استفاده مي كنيد
ودوست داريد نتيجه دلخواه در جستجو را
سريعتر بدست آوريد. گوگل براي ارائه
نتايج بهتر وكاملتر در جستجودستورات
وترفندهايي دارد كه مي تواند در يافتن
نتيجه بهتر شما را ياري كند ومن در زير
به آنها اشاره مي كنم: inurl با كمك اين
دستور، گوگل تنها در سايت هايي جستجو
ميكند كه از كلمه مورد نظر شما در آدرس
اينترنتي خود استفاده كرده اندو با
عنوان ومتن سايت ها كاري ندارد مانند
inurl:google كه فقط سايت هايي مورد جستجو
قرار مي گيرد كه در آدرس url انها از كلمه
google استفاده شده است. Info با كمك اين
دستور، گوگل اطلاعاتي در مورد سايت
مورد نظر شما جمع آوري وارائه مي كند كه
مي تواند در نوع خود جالب باشد مانند
info: http://www.google.com
Related با استفاده از اين
دستور سايت هاي مشابه با سايت مورد نظر
شما توسط گوگل جمع آوري وبه شما ارائه
مي گردد مانند related: http://www.google.com
cache
گوگل در روي سرورهاي خود يك نسخه از
سايت هايي كه ثبت نموده است را نگه داري
مي كند تا در صورت باز نشدن سايت به هر
دليل كاربر بتواند از نسخه cache آن
استفاده نمايد. شما به كمك اين دستور مي
توانيد آخرين نسخه cache سايت هاي مورد
نظر خود راببينيد مانند:
cache: http://itblog.blogfa.com
Define با اين دستور مي
توانيد تعريف وتوضيحي از كلمات مورد
نظر خود توسط گوگل مشاهده كنيد. مانند:
define:blog Intitile با اين دستور جستجود
تنها درعناوين سايت ها انجام مي پذيرد
ومحتوا ومتن سايت تاثيري در نتيجه
جستجو نخواهد داشت مانند :
intitle:blog Intext اين گزينه بر عكس دستور
قبلي عمل مي كند وموتور جستجو از بررسي
در عناوين سايت ها خودداري كرده و در
متن و محتواي جستجو به دنبال كلمه مورد
نظر شما مي گردد مانند intext:blog Link
قبلا اين دستور را توضيح داده بودم اما
به هر حال شما با كمك اين دستور مي
توانيد از لينك هايي كه به سايت مورد
نظر شما داده شده مطلع شويد مانند :
link: http://itblog.blogfa.com
Filetype به كمك اين
دستورشما مي توانيد جستجوي خود را
محدود به نوع خاصي از فايل ها
نماييد.مثلا شما مي توانيد google را در
فايل هاي pdf جستجوكنيد Filetypegoogl:.pdf
Site اين دستور به شما كمك مي
كندكلمه كليدي خود را در يك سايت خاص
جستجو كنيد مثلا شما مي توانيد كلمه help
را در سايت google جستجوكنيد

هیچ نظری موجود نیست:

http://up.iranblog.com/images/0z5dgraxwa4j49a5ts77.gif http://up.iranblog.com/images/gv83ah5giec9g8jkopmc.gif