۹.۲۹.۱۳۸۹

Googlebot، روبات جست‌وجوگر

بدون شک هر یک از ما هنگامی که موضوعی را در اینترنت جست‌وجو کرده‌ایم با لیست مفصلی از اطلاعات مواجه شده‌ایم که در بیشتر مواقع با دریافت مطالبی که در صدر فهرست هستند به مقصود خود رسیده‌ایم. google به عنوان مهمترین مخزن اطلاعات جهان از مکانیسم‌های ویژه‌ای برای طبقه‌بندی و نیز اولویت‌گذاری مطالب استفاده می‌کند. googlebot روبات جست‌و‌جوگری است که فهرستی طبقه‌بندی شده از مطالب و موضوعات گوناگون را به کاربر ارائه می‌دهد. در واقع مانند یک روبات خزنده عمل می‌کند بدین ترتیب که در بین صفحات سایت‌ها حرکت کرده و تمامی اطلاعات را در یک محل ذخیره می‌کند و برای استفاده آسان‌تر فهرستی از آنها تهیه می‌نماید.
اصطلاحا می‌گویند googlebot مانند عنکبوتی عمل می‌کند که قادر است تمامی تارهای شبکه خود را زیر نظر داشته و با سرعتی زیاد روی آنها حرکت کند. googlebot تمامی صفحات سایت‌ها را می‌پیماید و حتی تمامی پیوندهای بین صفحات را برای یافتن اطلاعات جست‌و‌جو می‌کند. به عبارتی مانند یک web browser عمل می‌کند. google از سه قسمت مجزا تشکیل شده است:
▪ ابتدا googlebot در بین شبکه‌ها حرکت می‌کند در این رفت‌وآمد بین صفحات، مطالب گوناگون را جست‌و‌جو کرده و می‌یابد.
▪ کلمات پیدا شده در روی هر صفحه در قالب فهرستی طبقه‌بندی شده ذخیره می‌شوند، بدیهی است که این فهرست بسیار بزرگ خواهد بود و در یک پایگاه اطلاعاتی بسیار بزرگ ذخیره می‌گردد. googlebot به صفحات پیمایش شده شماره‌ای مشخص می‌دهد و کلمات گوناگون را بر اساس حروف الفبا فهرست‌بندی می‌کند. با پیمایش هر صفحه، موضوعات و مطالبی جدید به این فهرست اضافه می‌شود. در هنگام جست‌و‌جو برای فهرست کردن مطالب google به طور اتوماتیک فضاهای خالی، برخی علامات و نقطه‌گذاری‌ها، کلمات تکراری و نیز واژه‌هایی از قبیل the, is, on, or, of , how, why , را حذف می‌کند و تمامی حروف را به اندازه کوچک تبدیل می‌نماید. این مسئله خود باعث سرعت بیشتر خواهد شد.
▪ آخرین مرحله، پاسخ به درخواست کاربر است. هنگامی که کاربر در رابطه با موضوعی پرسشی می‌کند یا کلمه خاصی را در محیط google تایپ می‌کند googlebot به جست‌و‌جو در فهرست تهیه شده، می‌پردازد و هر آنچه را که در پایگاه داده‌های خود ذخیره کرده است بر اساس اولویت تعیین شده در اختیار کاربر قرار می‌دهد. بدیهی است که با استفاده از این روش شاخص‌گذاری سرعت دسترسی به اطلاعات بسیار بالا می‌رود زیرا هنگام جست‌و‌جوی مطلبی خاص google ابتدا در فهرست الفبایی خود به دنبال کلمه موردنظر گشته و سپس براساس شاخص یا آدرس مشخص آن در پایگاه داده‌های خود می‌یابد. اما برای اولویت‌بندی مطالب، google چندین فاکتور را درنظر می‌گیرد که برخی از آنها عبارت است از: طراحی مناسب، داشتن پیوندهایی دقیق به سایت‌های دیگر، اعتبار و شهرت سایت و نیز میزان استقبال کاربران از آن می‌باشد.
در بین فاکتورهای تعیین کننده اولویت، آنچه از همه موارد مهم‌تر است پیوندهای مناسب صفحات یک سایت به سایت‌های دیگر می‌باشد که هر اندازه دقیق‌تر و همچنین از تعداد بیشتری برخوردار باشد آن سایت از جایگاه بالاتری در فهرست جست‌و‌جو برخوردار است. عامل مهم دیگری که باعث صدرنشینی سایتی می‌شود میزان جست‌و‌جو و دیدن آن از طرف کاربران است در واقع هر چه میزان استقبال از آن بیشتر باشد در اولویت بالاتری قرار خواهد گرفت. google این امکان را به مدیر شبکه یا طراح سایت می‌دهد که در صورت تمایل با استفاده از تمهیداتی خاص اطلاعات را در دسترس دیگران قرار دهد یا مانع از دیدن و استفاده داده‌ها و اطلاعات مربوطه شود. طراح سایت یا شبکه می‌تواند با اجرای فایل robots.txt و یا اضافه کردن عبارت زیر به صفحه سایت خود اطلاعات آن را قابل دسترس برای googlebot نماید.
روش دیگر ، معرفی سایت در آدرس www.google.com/addurl.html می‌باشد در واقع با بکاربردن چنین روش‌هایی، سایت‌های گوناگون خود را به googlebot معرفی می‌کنند تا در لیست پیمایش آن قرار گیرند و در فهرست طبقه‌بندی شده آن جایی مناسب را به خود اختصاص دهند. بدیهی است که هر چه اطلاعات و محتوای سایتی در رده‌بندی بالاتر باشد امکان دسترسی و دیده شدن بیشتر خواهد بود. بعضی از سایت‌ها با ایجاد پیوندهایی به سایت‌های مهم و شناخته شده سعی می‌کنند تا بیشتر مطرح شوند، زیرا googlebot تمامی صفحات سایت‌ها را اعم از پیوندها و صفحات مرتبط، جست‌و‌جو می‌کند و با درنظر گرفتن تعداد پیوندها، سایت موردنظر را در رده‌ای مناسب قرار می‌دهد. هنگامی که کاربر کلمه‌ای را از طریق google جست‌و‌جو می‌کند، googlebot از سرور شبکه درخواست می‌کند تا کلمه موردنظر را در فهرست طبقه‌بندی شده شناسایی کرده و اطلاعات مربوطه را بر اساس اولویت تعیین شده به نمایش درآورد.
درواقع googlebot شامل تعداد زیادی از اطلاعات وب سایت‌هاست و googlebot.com شامل آدرس‌های آنهاست. Googlebot دارای دو نوع شناخته شده است: deepbot , freshbot deepbot در سایت‌ها و شبکه‌ها جست‌و‌جو می‌کند و تمامی اطلاعات، داده‌ها و پیوندهای صفحات را بررسی کرده و بطور کامل در سرور خود بارگذاری می‌نماید. در نهایت اطلاعات ذخیره شده را طبق روش‌هایی خاص فهرست‌بندی می‌کند. deepbot در فواصل زمانی مشخص که اغلب یک ماه یک بار است، اطلاعات سایت‌ها را جست‌و‌جو کرده و آنها را در محل سرور خود ذخیره می‌نماید.
Fresh bot نیز در سایت‌ها و شبکه‌های گوناگون جست‌و‌جو کرده و اطلاعات بروز شده که تازه و جدید هستند را پیدا می‌کند و آنها را در سرور خود بار گذاری می‌کند. در واقع freshbot برای سایت‌هایی تعبیه شده است که اطلاعات و محتوای آنها دائما تغییر می‌کند به عبارتی دائما بروز رسانی می‌شوند.
google برای پیمایش صفحات دارای انواعی است که هر کدام وظایف خاصی را بر عهده دارند:
▪ Googlebot انتخاب و پیمایش صفحات سایت‌ها
▪ Mediabot این پیمایش از اهمیت بالایی برخوردار است ابتدا به تجزیه و تحلیل صفحات سایت‌ها می‌پردازد و در نهایت پیوند معنی داری بین مطالب و موضوعات مرتبط ایجاد می‌کند. این پیمایش منحصر به جنبه‌ای خاصی از موضوعات نمی‌شود، در واقع ایجاد ارتباط منطقی بین موضوعات گوناگون در هنگام جست‌و‌جوی مطالب از مواردی است که دارای اهمیت ویژه‌ای است. طراح سایت می‌تواند با اضافه کردن این عبارت user-agent:mediapartners-google* از این ویژگی استفاده نماید.
▪ Imagebot برای پیمایش صفحاتی است که تصاویری در آنها وجود دارد. رتبه‌بندی آن نیز اغلب از روی کلمات کلیدی است که هدف و مقصود تصویر را می‌رساند ولی از روی نام فایل تصویری، تیتر، زیرنویس و یا متن حاشیه عکس نیز رده‌بندی صورت می‌گیرد. از طرفی با اضافه کردن عبارت زیر و استفاده از این تکنیک از پهنای باند، استفاده بهینه می‌شود. user-agent:googlebot-image
▪ Googlebot-mobile برای پیمایش محتوای اطلاعات موبایل است. با این تکنیک محتوای سایت‌های مربوط به موبایل تجزیه و تحلیل و طبقه‌بندی می‌شود. کاربران موبایل می‌توانند سایت‌ها، مطالب و موضوعات موردنظر خود را از طریق google mobile web روی دستگاه تلفن همراه خود جست‌و‌جو نمایند. برای قرارگیری سایت در فهرست رده‌بندی، عبارت زیر لازم است. user-agent:googlebot-mobile
▪ Adsbot پیمایش و تجزیه و تحلیل کلمات نشاندار یا کلیدی در صفحات سایت‌های تبلیغاتی است. تجزیه و تحلیل محتوای سایت کمک می‌کند تا کیفیت سایت به منظور رتبه‌بندی انجام شود. البته google برای تبلیغات روش دیگری نیز دارد که آن CTR (click through rate) است که اگر سایتی در اولویت رده‌بندی قرار گیرد می‌بایست برای هر دفعه‌ای که کاربر از آن سایت دیدن می‌کند به عبارتی روی آن کلیک می‌کند تا مبلغی مشخص از طرف دارنده سایت به شرکت google واریز شود. برای وارد شدن به رده‌بندی عبارت زیر لازم است. user-agent:adsbot-google
این مسئله که چگونه googlebot در بین اطلاعات بدست آمده فهرستی تهیه می‌کند و با چه منطقی اطلاعات را اولویت‌بندی می‌کند موضوع بسیار جالبی است که شرکت google هزینه و وقت زیادی را صرف آن کرده است. این شرکت در فواصل زمانی معین روش‌های جدیدی را جایگزین شیوه‌های قدیمی می‌نماید تا از سوءاستفاده بعضی افراد که می‌خواهند مطلب یا سایت خود را در اولویت قرار دهند، جلوگیری کند. امروزه اغلب شرکت‌های تجاری دارای سایت‌هایی هستند که محصولات خود را از طریق اینترنت به عموم مردم عرضه نمایند و در دنیای تجارت امروزه تبلیغات در تمامی عرصه‌ها نقش مهمی ایفا می‌کند. شرکت‌های تجاری و بازرگانی امروزه هزینه زیادی برای تبلیغات و به بیانی دیگر مطرح شدن می‌پردازند.
واضح است هر چه نام و خدمات شرکتی در لیست جست‌و‌جو google بالاتر باشد توجه افراد بیشتری را به خود جلب می‌کند و یقینا در موفقیت آن شرکت نقش بسزایی دارد. البته خدمات ویژه‌ای در google تعبیه شده است که افراد برای تبلیغات شرکت یا محصول خود می‌توانند با پرداخت مبلغی پول بین اولین، دومین و سومین تبلیغ قرار گیرند زیرا کارشناسان این امر معتقدند که تبلیغاتی موفق‌تر است که در سه گزینه اول قرار گیرد و طبق آمار بدست آمده اولویت سه تای اول باعث می‌شود تا فروش شرکت‌ها ۳۰% افزایش یابد. در رابطه با مطالب و موضوعات متفاوت اعم از علمی، اجتماعی، سیاسی و ... به همین منوال است. در لیستی که googlebot تهیه می‌کند هر چه مطالب در بین اولین‌ها باشد، امکان دیده شدن آنها بیشتر است.
google به طور اتوماتیک و هوشمند آدرس‌هایی را حذف می‌کند که موجب اغفال کاربران می‌شوند و تنها هدفشان قرارگیری در صدر فهرست google است و حتی در شرایطی صفحات این سایت‌ها را به صفحات مرتبط با موضوع، پیوند می‌دهد و یا آنها را برای مدتی غیر قابل دسترس و غیر قابل دیدن می‌نماید. به این ترتیب سایت موردنظر در گروه فهرست‌بندی قرار نمی‌گیرد و از دامنه googlebot خارج می‌شود. موتور جست‌و‌جو google بر اساس روش پیمایش موازی طراحی شده است که این روش نسبت به روش‌های دیگر از سرعت بالاتری برخوردار است زیرا به طور همزمان در بین هزاران کامپیوتر به جست‌و‌جوی اطلاعات می‌پردازد و تمامی مطالب را روی سرور خود بارگذاری می‌کند تا در هنگام درخواست کاربران در رابطه با موضوعی یا مطلبی خاص تنها جست‌و‌جو در سرور google صورت گیرد و نیازی به کنترل کردن تمامی شبکه‌ها و سایت‌ها نباشد این ویژگی خود باعث می‌شود تا از اتلاف وقت جلوگیری شود و کاربران بتوانند در کمترین زمان ممکن اطلاعات لازم را دریافت نمایند.

هیچ نظری موجود نیست:

http://up.iranblog.com/images/0z5dgraxwa4j49a5ts77.gif http://up.iranblog.com/images/gv83ah5giec9g8jkopmc.gif