حجم وسیع اطلاعات بر روی شبكه وب باعث میگردد تا پاسخدهی به كاوشهای ارسالی از سوی كاربرن، بدون دسترسی به تمام متون و فقط با استفاده از فایلهای نمایه صورت گیرد. بدین منظور، در سطح شبكه از روشهای مختلف نمایهسازی استفاده میگردد. روش نمایهء انتهای كتاب، استفاده از ابردادهها، شاخههای موضوعی و ساختار متمركز و پراكنده در فنآوری موتورهای كاوش از روشهای دیگر میباشد.بسیاری از موتورهای كاوش از یك ساختار متمركز خزنده-نمایهساز، سود میجونید. خزندهها برنامههای نرمافزاری هستند كه عمل پیمایش وب را انجام داده و صفحات جدید و یا به روز در آمده را به سرویسدهندهای كه قرار است این صفحات در آنجا نمایه شوند، میفرستند.در ساختار پراكنده كه بسیار موءثرتر از نوع متمركز است، مشكلات ناشی از استفاده از ساختار متمركز چون:
۱) دریافت درخواست صفحات، توسط خزندههای متفاوت موتورهای كاوش، از سرویسدهندگان وب؛
۲) افزایش ترافیك در وب به علت استخراج تمام اشیا و اجزا صفحات وب و نادیده گرفتن اكثر آنها هنگام نمایهسازی؛
۳) جمعآوری اطلاعات بدون همكاری و آگاهی سایر خزندهها و موتورهای كاوش، مورد توجه قرار گرفته و مرتفع شده است.
مقدمه
از زمان پایهگذاری وب جهانی در اواخردههء ۱۹۸۰، هیچ كس نمیتوانست پیشبینی وضعیت و تأثیرات فعلی آن را بكند. رونق وب و رشد فزاینده آن بر كسی پوشیده نیست، به نحوی كه فقط میزان اطلاعات متنی قابل دسترس آن در حدود ۱ ترابایت تخمین زده میشود (Baeza-Yates, ۱۹۹۹).اندازهگیری حجم اطلاعات بر روی شبكه اینترنت به ویژه وب كار بسیار دشواری است. بر طبق آمارهایی كه گروه Cyveillance عرضه كرده است، بیش از ۱/۲ میلیارد صفحه اطلاعات، بدون تكرار و قابل دسترس تا نیمه دوم سال ۲۰۰۰ بر روی وب موجود بوده و برساس همین مطالعات نرخ رشد انفجاری صفحات وب ۷ میلیون در روز بوده است. (Pasore, ۲۰۰۰)این بدان معناست كه در حال حاضر تعداد صفحات وب، به میزان سه برابر آن افزایش یافته است و این اطلاعات، براساس آمار NetCraft (۲۰۰۲) به وسیله بیش از ۲۷ میلیون سرویسدهنده وب در اختیار مشتریان قرار میگیرد.
حجم وسیع اطلاعات بر روی شبكه وب باعث میگردد تا پاسخدهی به كاوشهای ارسالی را بدون دسترسی به تمام متون و فقط با استفاده از فایلهای نمایه صورت دهیم زیرا در غیر این صورت یا بایستی نسخهای از اطلاعات درخواستی به صورت محلی ذخیره گردد و یا تمام صفحات از راه دور و از طریق شبكه، در هنگام جستجو دسترسپذیر باشد كه این روشها بسیار گران و كند است. تمام اینها تأثیر و اهمیت، تلاش برای بهبود روشهای نمایهسازی و الگوریتمهای جستجو را مشخص میسازد.براساس استاندارد نمایهسازی بریتانیا نمایه، ترتیب اصولی از مداخل است كه به منظور قادر ساختن استفادهكنندگان برای یافتن اطلاعات خود در یك مدرك ایجاد میشود. نمایهسازی وب كار سادهای نیست و لذا برای كمك به درخواستكنندگان اطلاعات در رسیدن به آن در سطح شبكه از روشهای مختلف نمایهسازی استفاده میگردد.
روش نمایه انتهای كتاب در وب
بسیاری از سایتهای وب، برنامهای برای جستجوی سایت خود طراحی كردهاند. این برنامهها همچون جستجو در فایلهای تمام متن میتواند در نتایج جستجوی خود دارای مدارك نامرتبط و در اصطلاح همراه با ریزش كاذب باشد.اگر در چنین سایتهایی نمایهای شبیه آنچه در انتهای كتابها دیده میشود به وجود آید، مراجعهكننده میتواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان كمتری به مدارك مورد نیاز خود وحتی به مدارك مرتبط با آن نیز دسترسی یابد.سایت وب شركت نرمافزاری Adobe با داشتن نمایهای از نوع كواك(۱) و نیز موتور كاوش ویژه سایت، سعی در بالا بردن دسترسپذیری موءثر اطلاعات سایت خود نموده است.سایت دانشگاهی جورج تاون نیز نمایه موضوعی A-Z را در قسمت ابزارهای دسترسی به اطلاعات در صفحه خانگی خود قرار داده است.
ابرداده(۲) و وب
ابرداده به طور مكرر، دادهای برای داده تعریف شده است. این تعریف در عین ضروری بودن ناكافی است. ابرداده، دادهای است دربارهء داده، كه برای شرح منابع یا شیء اطلاعاتی پایهریزی شده است و دادههای منابع و روابط بین آنها را تشریح میكند. پدیدآورندگان منابع، ناشران، كتابداران و سایر متخصصان اطلاعرسانی میتوانند ابرداده را تولید كنند. ابرداده میتواند در درون منابع اطلاعاتی جاسازی(۳) و یا در كنار منبع اطلاعاتی و به طور مجزا حفظ شود. (Cleveland, ۲۰۰۱,P.۲۲۳)
قالب ابردادهای دوبلین كور نمونهای پیشنهادی از ابرداده است كه دستاورد نشست متخصصان اطلاعرسانی در دوبلین اوهایو به منظور حل مشكلات موجود در توصیف منابع اطلاعاتی موجود بر روی شبكههای كامپیوتری است. این نمونهای از مفهوم پیوند بین ابرداده و وب است.شاخصهای عنوان، پدیدآور، موضوع، ناشر، توصیف (همچون چكیده)، تاریخ ارائه، نوع مدرك، قالب(۴) (نیازهای سختافزاری و نرمافزاری جهت ارائه مدرك)، برچسب منحصر به فرد شناسایی(۵)، محل تولید مدرك، زبان اصلی مدرك، چگونگی و محل ارتباط مدرك با سایر منابع، پوشش (بیانگر دامنه، محدوده و عمق مدرك) و مدیری حق موءلف، در قالب دوبلین كور پیشنهاد گردیده است. (Cleveland, ۲۰۰۱,P.۲۲۴)
شاخههای موضوعی
بعضی از ابزارهای جستجوی وب سعی در مرور سایتها توسط افراد متخصص كرده و پس از تحلیل محتوی سایت، كلیدواژه مناسب را انتخاب و آن را در محل موضوعی، براساس لیست موضوعی ویژه خود قرار میدهند و در واقع یك راهنمای موضوعی را برای استفادهكننده فراهم میآورند. این در واقع به آن معناست است كه در زمانی كه موتور كاوش به طور معمول برای هدایت فرد به سایت، تمام صفحات آن سایت را نمایه كرده است، ولی از سوی دیگر یك راهنمای موضوعی بسیار شبیه یك پیوند به صفحه خانگی آن سایت تلقی میگردد. (Tyner, ۲۰۰۱).
سایت Open Directory و Looksmart دو نمونه بارز از این نوع سایتها میباشند.
فنآوری موتورهای كاوش
ساختار متمركز
بسیاری از موتورهای كاوش از یك ساختار متمركز خزنده-نمایهساز(۶) سود میجویند. خزندهها برنامههای نرمافزاری هستند كه عمل پیمایش وب را انجام داده و صفحات جدید و یا به روز درآمده را به سرویسدهندهای كه قرار است این صفحات در آنجا نمایه شوند، میفرستند. یك خزنده به عنوان نقطه شروع یك URL را دریافت كرده و انتقال صفحات وب را-همچون ایستگاه كاری كه صفحات را مرور میكند-به سرویسدهنده آغاز مینماید. پس از انتقال یك مدرك، سازهیاب(۷) شروع به استخراج واژههای مرتبط با متن كرده و آنها را به پایگاه داده میافزاید. هر ركورد اطلاعاتی در این پایگاه شامل واژه استخراج شده و URL مربوط به آن میباشد. قابل ذكر است، تعدادی از خزندهها واژههای موجود در بین برچسبهایی خاص نظیر،
,۱<=I<=۶) و واژههای با بسامد بالا در برچسب را استخراج میكند.خزنده WWWW واژههای موجود در عنصر URL, و (ابر پیوندهای موجود در مدرك) را نمایه میكند.در حقیقت خزنده به درون رایانه نفوذ نمیكند، بلكه بر روی یك رایانه محلی اجرا شده و درخواستهای خود را به رایانههای سرویسدهنده در نقاط مختلف ارسال میكند. عمل نمایهسازی در این روش به طور متمركز صورت میگیرد. شكل زیر ساختار نرمافزاری متمركز موتور كاوش AltaVista را نشان میدهد.اصلیترین مشكل در این نوع ساختار، به دلیل طبیعت پویای وب، جمعآوری اطلاعات، پیوندهای ارتباطی اشباع شده به سرویسدهندگان وب و سربار شدن(۸) آنهاست. مشكل دیگر حجم اطلاعاتی است كه در حقیقت ساختار متمركز نمایهسازی توان مقابله با آن را ندارد. (Baeza-Yates, ۱۹۹۹, P.۳۷۴)
در واقع به دلیل درخواستهای سریع ارسالی خزندهها، و اشغال حجم قابل توجهای از پهنای باند ارتباطی-و حتی تمام پهنای باند در حوزههای كوچك(۹)-و برای رفع این مشكل در ۳۰ ژوئن سال ۱۹۹۴ استانداردی را پدیدآوردگان برنامههای خزنده، برای محدودیت عمل برنامههای خودكار خزنده در سراسر وب به وجود آوردند. براساس این استاندارد، اگر ما میخواهیم خزندهها از سرویسدهنده ما بازدید نكنند بایستی فایلی متنی با نام robots.txt بر روی ریشه(۱۰) سرویسدهندهء وب خود قرار دهیم و براساس توافقات پدیدآوردندگان خزندگان یا روبوتها، این برنامه بایستی در اولین مرحله به دنبال این فایل در روی سرویسدهندهء وب جستجو كند و در صورت وجود به فرامین قرار داده شده در آن پاسخ داده و سپس به اعمال دیگر بپردازد.
البته با استفاده از ابربرچسب(۱۱) ROBOTS نیز میتوان از نمایه شدن صفحهء وب توسط روبوت جلوگیری كرد. (Sullivan, ۲۰۰۰)
Page I Don`t Want To Search Engines
ساختار پراكنده
این نوع ساختار بسیار موءثرتر از نوع متمركز است و مشكلات ناشی از استفاده از ساختار متمركز چون:
۱) دریافت درخواست صفحات، توسط خزندههای گوناگون موتوهای كاوش، از سرویسدهندگان وب،
۲) افزایش ترافیك در وب به علت استخراج تمام اشیا و اجزا صفحات وب و نادیده گرفتن اكثر آنها هنگام نمایهسازی؛
۳) جمعآوری اطلاعات بدون همكاری و آگاهی سایر خزندهها و موتورهای كاوش، در این ساختار مورد توجه قرار گرفته و مرتفع شده است.برای رفع مشكلات ذكر شده، Harvest یكی از مهمترین مدلها در این نوع دو عنصر اصلی را معرفی میكند: گردآورنده(۱۲) و واسط(۱۳). (Baeza-Yates, ۲۰۰۰, P.۳۷۵).گردآورنده یك نرمافزار خودكار است كه بر روی سرویسدهندهء وب اجرا میشود و عمل جمعآوری و استخراج اطلاعات لازم برای فایل نمایه را انجام میدهد. البته این نرمافزار بر روی سایر سرویسدهندهگان وب نیز میتوان اجرا شود كه این خود با ساختار Haverst در تناقض است.واسط به استخراج اطلاعات از گردآورندهها پرداخته و ضمن ایجاد یك نمایه قابل جستجو، واسط كاربری آن را نیز فراهم میكند. همان گونه كه دیده میشود، یك نرمافزار گردآورنده بر روی سرویسدهندهء وب، بدون هیچ ترافیك خارجی اجرا شده و اطلاعات جمعآوری شده به چندین واسط قابل ارسال میباشد. هر واسط میتواند بعد از فیلتر كردن اطلاعات آن را به سایر واسطها ارسال كند.یكی از اهداف Harvest ایجاد واسطهای ویژه موضوعی(۱۴) و اجتناب از حوزهء وسیع لغات و مشكلات نمایههای عمومی است.ساختار Harvest، تكراركنندهها و حافظههای نهانی اشیا(۱۵) را نیز جهت افزایش سرعت دسترسی به پایگاه دادهها فراهم میكند. امروزه برنامههای كاربردی این شیوه در مراكزی چون ناسا(۱۶) و آكادمی ملی علوم آمریكا مورد استفاده قرار میگیرد و نمونه مورد استفاده در بخش تجاری در وب، سرویسدهنده فهرست، شركت Netscape است.نمونهای از ساختار Harvest در شكل زیر دیده میشود:
نتیجهگیری
افزونی افسار گسیخته اطلاعات بر روی شبكه وب، متخصصان رایانه و اطلاعرسانی را در جهت بهبودی كارائی نظامهای نمایهسازی و به تبع آن بازیابی اطلاعات سوق میدهد.حركت از سوی نمایههای دستساز تا نمایههای خودكار و ارائهء شیوههای گوناگون آن، به جهت سرعت بخشیدن برای ارائهء اطلاعات و رفع مشكلات فنی موجود بوده است. با وجود این علیرغم خوشبینی در مورد ابزارهای نمایهساز و جستجوگر، هنوز هم بازیابی موضوعی در هر پایگاهی، بر اساس نمایهسازی كلیدواژهای صورت میگیرد و جستجو براساس منطق بولی بوده و ریزش كاذب در آن قابل توجه است.اهداف آتی در این حوزه، مطالعه هر چه بیشتر پردازش اطلاعات توسط انسان و چگونگی فهم انسان از اطلاعات و رسیدن به نظامهای هوشمند نمایهساز و بازیاب، با استفاده از تجارب و نتایج امیدواركنندهء حوزههایی نظیر هوش مصنوعی و نظامهای خبره میباشد.
پینوشتها
۱. KeyWord In Context
۲. Metadata
۳. Embedded
۴. Format
۵. Identifier
۶. Crawler-indexer
۷. Parser
۸. High load
۹. Domain
۱۰. Root
۱۱. Meta Tag
۱۲. Gathere
۱۳. Broker
۱۴. Topic-specific
۱۵. Object Cache
۱۶. NASA
منابع
۱.American Society of Indexer. Main Page: http://www.asindexing.org
۲. Baeza-Yates, Ricardo;Ribeiro-Note, Berthier (۱۹۹۹). Modern Information Rerieval. NewYork: ACM Press
۳. Cleveland, Donald B.; Cleveland, Ana D. (۲۰۰۱). Introduction to Indexing and Abstracting. Englewood: Libraries Unlimited
۴. Distributed Indexing Systems for Organizing the Web:
http://eubdl.ugr.es/temp/serbydor/g۹/know۴_i.htm
۵. George Town University website: http://www.gerogertown.edu
۶. Netcraft. Main Page: http://www.netcraft.com
۷. Open Directory Homepage: http://www.dmoz.org
۸. Pastore, Michael (۲۰۰۰). The Web: More Than ۲ Billion Pages Strong
http://cyberatlas.internet.com/big_picture/traffic_patterns/article/۰,,۵۹۳۱_۴۱۳۶۹۱,۰۰.htm
۹. Sullivan, Danny (۲۰۰۰). How to use HTML Meta Tags.
http://searchenginewatch.com/webmasters/meta.html
۱۰. Toward the automation of a routine task: Using Spidrs to index the Web:
http://eubdl.ugr.es/temp/serbydor/g۹/know۲_i.htm
۱۱. Tyner, Ross(۲۰۰۱). Sink or Swim: Internet Search Tools & Techniques.
http://www.ouc.bc.ca/libr/connect۹۶/search.html
نوشته: احمد كمیجانی
دانشجوی كارشناسی ارشد اطلاعرسانی
در واقع به دلیل درخواستهای سریع ارسالی خزندهها، و اشغال حجم قابل توجهای از پهنای باند ارتباطی-و حتی تمام پهنای باند در حوزههای كوچك(۹)-و برای رفع این مشكل در ۳۰ ژوئن سال ۱۹۹۴ استانداردی را پدیدآوردگان برنامههای خزنده، برای محدودیت عمل برنامههای خودكار خزنده در سراسر وب به وجود آوردند. براساس این استاندارد، اگر ما میخواهیم خزندهها از سرویسدهنده ما بازدید نكنند بایستی فایلی متنی با نام robots.txt بر روی ریشه(۱۰) سرویسدهندهء وب خود قرار دهیم و براساس توافقات پدیدآوردندگان خزندگان یا روبوتها، این برنامه بایستی در اولین مرحله به دنبال این فایل در روی سرویسدهندهء وب جستجو كند و در صورت وجود به فرامین قرار داده شده در آن پاسخ داده و سپس به اعمال دیگر بپردازد.
البته با استفاده از ابربرچسب(۱۱) ROBOTS نیز میتوان از نمایه شدن صفحهء وب توسط روبوت جلوگیری كرد. (Sullivan, ۲۰۰۰)
ساختار پراكنده
این نوع ساختار بسیار موءثرتر از نوع متمركز است و مشكلات ناشی از استفاده از ساختار متمركز چون:
۱) دریافت درخواست صفحات، توسط خزندههای گوناگون موتوهای كاوش، از سرویسدهندگان وب،
۲) افزایش ترافیك در وب به علت استخراج تمام اشیا و اجزا صفحات وب و نادیده گرفتن اكثر آنها هنگام نمایهسازی؛
۳) جمعآوری اطلاعات بدون همكاری و آگاهی سایر خزندهها و موتورهای كاوش، در این ساختار مورد توجه قرار گرفته و مرتفع شده است.برای رفع مشكلات ذكر شده، Harvest یكی از مهمترین مدلها در این نوع دو عنصر اصلی را معرفی میكند: گردآورنده(۱۲) و واسط(۱۳). (Baeza-Yates, ۲۰۰۰, P.۳۷۵).گردآورنده یك نرمافزار خودكار است كه بر روی سرویسدهندهء وب اجرا میشود و عمل جمعآوری و استخراج اطلاعات لازم برای فایل نمایه را انجام میدهد. البته این نرمافزار بر روی سایر سرویسدهندهگان وب نیز میتوان اجرا شود كه این خود با ساختار Haverst در تناقض است.واسط به استخراج اطلاعات از گردآورندهها پرداخته و ضمن ایجاد یك نمایه قابل جستجو، واسط كاربری آن را نیز فراهم میكند. همان گونه كه دیده میشود، یك نرمافزار گردآورنده بر روی سرویسدهندهء وب، بدون هیچ ترافیك خارجی اجرا شده و اطلاعات جمعآوری شده به چندین واسط قابل ارسال میباشد. هر واسط میتواند بعد از فیلتر كردن اطلاعات آن را به سایر واسطها ارسال كند.یكی از اهداف Harvest ایجاد واسطهای ویژه موضوعی(۱۴) و اجتناب از حوزهء وسیع لغات و مشكلات نمایههای عمومی است.ساختار Harvest، تكراركنندهها و حافظههای نهانی اشیا(۱۵) را نیز جهت افزایش سرعت دسترسی به پایگاه دادهها فراهم میكند. امروزه برنامههای كاربردی این شیوه در مراكزی چون ناسا(۱۶) و آكادمی ملی علوم آمریكا مورد استفاده قرار میگیرد و نمونه مورد استفاده در بخش تجاری در وب، سرویسدهنده فهرست، شركت Netscape است.نمونهای از ساختار Harvest در شكل زیر دیده میشود:
نتیجهگیری
افزونی افسار گسیخته اطلاعات بر روی شبكه وب، متخصصان رایانه و اطلاعرسانی را در جهت بهبودی كارائی نظامهای نمایهسازی و به تبع آن بازیابی اطلاعات سوق میدهد.حركت از سوی نمایههای دستساز تا نمایههای خودكار و ارائهء شیوههای گوناگون آن، به جهت سرعت بخشیدن برای ارائهء اطلاعات و رفع مشكلات فنی موجود بوده است. با وجود این علیرغم خوشبینی در مورد ابزارهای نمایهساز و جستجوگر، هنوز هم بازیابی موضوعی در هر پایگاهی، بر اساس نمایهسازی كلیدواژهای صورت میگیرد و جستجو براساس منطق بولی بوده و ریزش كاذب در آن قابل توجه است.اهداف آتی در این حوزه، مطالعه هر چه بیشتر پردازش اطلاعات توسط انسان و چگونگی فهم انسان از اطلاعات و رسیدن به نظامهای هوشمند نمایهساز و بازیاب، با استفاده از تجارب و نتایج امیدواركنندهء حوزههایی نظیر هوش مصنوعی و نظامهای خبره میباشد.
پینوشتها
۱. KeyWord In Context
۲. Metadata
۳. Embedded
۴. Format
۵. Identifier
۶. Crawler-indexer
۷. Parser
۸. High load
۹. Domain
۱۰. Root
۱۱. Meta Tag
۱۲. Gathere
۱۳. Broker
۱۴. Topic-specific
۱۵. Object Cache
۱۶. NASA
منابع
۱.American Society of Indexer. Main Page: http://www.asindexing.org
۲. Baeza-Yates, Ricardo;Ribeiro-Note, Berthier (۱۹۹۹). Modern Information Rerieval. NewYork: ACM Press
۳. Cleveland, Donald B.; Cleveland, Ana D. (۲۰۰۱). Introduction to Indexing and Abstracting. Englewood: Libraries Unlimited
۴. Distributed Indexing Systems for Organizing the Web:
http://eubdl.ugr.es/temp/serbydor/g۹/know۴_i.htm
۵. George Town University website: http://www.gerogertown.edu
۶. Netcraft. Main Page: http://www.netcraft.com
۷. Open Directory Homepage: http://www.dmoz.org
۸. Pastore, Michael (۲۰۰۰). The Web: More Than ۲ Billion Pages Strong
http://cyberatlas.internet.com/big_picture/traffic_patterns/article/۰,,۵۹۳۱_۴۱۳۶۹۱,۰۰.htm
۹. Sullivan, Danny (۲۰۰۰). How to use HTML Meta Tags.
http://searchenginewatch.com/webmasters/meta.html
۱۰. Toward the automation of a routine task: Using Spidrs to index the Web:
http://eubdl.ugr.es/temp/serbydor/g۹/know۲_i.htm
۱۱. Tyner, Ross(۲۰۰۱). Sink or Swim: Internet Search Tools & Techniques.
http://www.ouc.bc.ca/libr/connect۹۶/search.html
نوشته: احمد كمیجانی
دانشجوی كارشناسی ارشد اطلاعرسانی
هیچ نظری موجود نیست:
ارسال یک نظر