●مقدمه
از سال ۱۹۴۰ مساله ذخیره و بازیابی اطلاعات مورد توجه بسیار قرار گرفت. این مساله از زمانی آغاز شد كه بشر سعی كرد محیط پیرامون خود را كنترل كند یا حداقل از فشارهای خارجی كه باعث نابودی او می شدند جلوگیری كند. بشر برای ایجاد محیطی مطلوب برای ادامه بقا به اتخاذ تصمیمات سریع، صحیح، دقیق نیاز داشت. كیفیت این تصمیمات به توانایی تصمیم گیرنده در حل مسایل وابسته بود ولی قبل از آن به میزان ارتباط كیفیت اطلاعاتی وابسته بود كه تصمیم گیرنده برای حل مشكل فراهم آورده بود. بتدریج در طول تاریخ جمع آوری، سازماندهی و نگهداری امری متداول و مرسوم شد.
در چند دهه اخیر بازیابی رایانه ای مورد توجه خاصی قرار گرفته كه علت آن را می توان ۴ عامل دانست: افزایش اهمیت زمان، تغییر در كمیت و كیفیت اطلاعات، تغییر در ماهیت نیازهای اطلاعاتی، تغییر در اهمیت منابع اطلاعاتی. این عوامل تغییر و توسعه در سیستم های بازیابی اطلاعات را به دنبال داشته و موجب مطرح شدن بحث هایی از جمله لزوم تغییر در ابزارهای اطلاعاتی، ایجاد سیستم های ارتباطی جدید و استفاده از آنها و تغییر معانی اشاعه اطلاعات شده اند.
امروزه رشد اهمیت حیاتی اطلاعات، لزوم صرفه جویی در وقت و هزینه جستجوكنندگان، جوان بودن شبكه های گسترده بخصوص از لحاظ سرعت، لزوم دستیابی سریع، جامع و مانع به اطلاعات خاص مورد نیاز از جمله مسایل مهمی هستند كه اهمیت یك فرایند بازیابی حساب شده، كنترل شده و كامل را آشكار می سازند.
می توان گفت هنوز هم مساله بازیابی موثر همچنان در حد وسیعی بصورت حل نشده باقی مانده است و هدف یك استراتژی اتوماتیك بازیابی، بدست آوردن تمام مدارك مربوط و در عین حال بازیابی كمترین مدارك نامربوط تا حد امكان است، بعبارتی مفهوم ربط در مركز مساله بازیابی اطلاعات قراردارد. میتوان با یك نمودار سیستم بازیابی اطلاعات را به صورت زیر نمایش داد:
با توجه به مدل ارائه شده هر سیستم بر سه محور سازماندهی، بازیابی و نمایش اطلاعات استوار است و چرخه عمل بازیابی اطلاعات شامل ۷ مرحله زیر است:
۱. انتخاب یك بانك اطلاعاتی برای انجام جستجو: بر مبنای بانكهای موجود و نیاز اطلاعاتی كاربر، یك بانك اطلاعاتی انتخاب می شود آنگاه سیستم خلاصه ای از اطلاعات، محدوده تاریخی ركوردها، تعداد ركوردها، قیمت و … را در اختیار كاربر قرار می دهد.
۲. جستجو برای واژه های مورد نظر در بانك واژگان: قبل از انجام جستجو برای فرمول بندی جستجو، كاربر می تواند هریك از واژه نامه های موجود در سیستم را مورد استفاده قرار دهد. واژه نامه ها نقش بسیار مهمی در بازیابی اطلاعات ایفا می كنند. حداقل استفاده ای كه از بانك واژگان بعمل می آید این است كه كاربر خواهد فهمید كه آیا واژه های كورد نظر او در بانك اطلاعاتی وجود دارند؟ شكل صحیح آنها به چه صورت است و ....
۳. ایجاد فرمول جستجو و انجام جستجو: فرمول بندی صحیح و دقیق نیازهای اطلاعاتی كاربران وابسته به امكانات بازیابی اطلاعات برای فرمول بندی می باشد. هرچه قابلیتهای بیشتری فراهم آورده شود، كاربر راحتتر و آسانتر می تواند به بیان نیازهای خود بپردازد. امكانات لازم برای فرمول بندی جستجو در یك سیستم بهینه شامل امكان استفاده از عملگرهای بولی، عملگرهای جستجوی املایی و ... می باشد.
۴. نمایش و بازبینی ركوردها: بازخورد خوب سیستم در این قسمت نقش مهمی در هدایت كاربر برای رسیدن به اطلاعات مورد نظرش دارد. در این قسمت سیستم باید بتواند به سوالات زیر پاسخ دهد:
- چه ركوردهایی با نیاز اطلاعاتی كاربر مطابقت دارند؟- آیا مجموعه ركوردهای بازیابی شده با نیازهای اطلاعاتی كاربر مطابقت دارند؟ و ....
۵. سفارش مدرك
۶. درخواست برای اطلاعاتی درباره سیستم بازیابی اطلاعات
۷. برقراری پارامترهای نمایشی و ارتباطی در مجموعه: كه چهار مقوله باید به عنوان مهم ترین اهداف مدنظر طراحان سیستمهای بازیابی اطلاعات قرار گیرند: بهینه سازی انتخاب واژكان جستجو توسط كاربران، بهینه سازی فرمول جستجوی كاربران، بهینه سازی تعداد ركوردهای بازیابی شده، بهینه سازی ضریب دقت و بازیابی یا بهینه سازی كلی بازیابی اطلاعات.
در نهایت باید این نكته را خاطرنشان كرد كه جستجوگران باتجربه و متخصصان بازیابی این نكته را میدانند كه جستجو مستلزم صرف وقت و هزینه است و در این مسیر باید با اصلاح، بازنویسی و تكرار چرخه جستجو به نتایج دلخواه دست یافت.
●ارزیابی بازیابی اطلاعات
ایجاد نظامهای بازیابی اطلاعات در مقیاس وسیع بسیار پرهزینه است. هزینه های كاوش قابل ملاحظه هستند و زمان قابل توجهی برای جستجوی اطلاعات در پایگاهها توسط متخصصان اطلاع رسانی و كاربران نهایی صرف می شود، و از همه مهمتر اینكه یك كاوش در بهترین حالت ممكن می تواند آنچه را كه مورد جستجو است بیابد. درحالیكه اطلاعات دیگر حذف می شوند. و در بدترین حالت جستجو می تواند اطلاعات بی ارزش را ارائه دهد و در عین حال موارد مورد نیاز را از دست بدهد. بنابراین مهم است بدانیم كدام نظامها و كاوشها و جستجوگران بیش از همه موثرند.
تحقیقات و تلاشهای بسیاری در جهت حل مساله ارزیابی سیستمهای بازیابی اطلاعات صورت گرفته است و گفته می شود كه بسیاری از افرادی كه در زمینه ذخیره و بازیابی اطلاعات فعالیت دارند احساس می كنند كه این مساله تا حل شدن فاصله زیادی دارد.
اطلاع یابی فعالیتی عملی با هدفی بسیار دقیق و مشخص است با وجود این، تلاشهایی كه در جهت ارزیابی این فعالیت انجام شده برگرفته از كاوشهای واقعی توسط جستجوگران واقعی برای پاسخ به نیاز اطلاعاتی واقعی بوده است.
اغلب متفكران علم اطلاع رسانی درگیر این مساله هستند كه چگونه می توان بازیابی اطلاعاتی را به بهترین وجه ارزیابی كرد.
برای قرار دادن مساله ارزیابی در یك چشمانداز می توان سه سوال را مطرح نمود: ۱) چرا ارزیابی می كنیم؟ ۲) چه چیزی را باید ارزیابی كرد؟ ۳) چگونه باید ارزیابی كرد؟ كه پاسخ به این سوالات به خوبی زمیته ارزیابی را پوشش خواهد داد.
پاسخ به سوال اول جنبه اجتماعی و اقتصادی دارد. جنبه اجتماعی آن اساسا وابسته به طراحی برای ایجاد یك معیار سنجش اثربخشی در سیستم های بازیابی اطلاعات است. برای مثال كاربران از تعویض منابع سنتی اطلاعات با یك سیستم كاملا اتوماتیك و تعاملی بازیابی اطلاعات چه سود یا زیانی خواهند برد؟ مطالعات در این زمینه در حال انجامند اما به نتیجه رسیدن كمی دشوار است چرا كه برای برخی از سیستمهای بازیابی، اثربخشی ممكن است راحت تر از سایر سیستمها اندازه گیری شود.
جنبه اقتصادی به این امر وابسته است كه استفاده از یكی از این سیستمها چقدر برای شما هزینه دارد و آیا اصلا ارزش این میزان هزینه را دارد یا نه؟ كه در این مورد هم به نتیجه رسیدن دشوار است چرا كه مثلا هزینه های كامپیوتری به راحتی اندازه گیری می شوند اما دستیابی به هزینه نیروی انسانی فعال در این زمینه مشكل تر است. بنابراین ارزشمند بودن یا نبودن بستگی به خود كاربر دارد.
اكنون مشخص شد كه در ارزیابی یك سیستم بازیابی اطلاعات اساسا با تهیه اطلاعات مواجهیم و كاربر است كه می تواند تصمیم گیری كند كه ۱) آیا آن سیستم را می خواهد؟ (جنبه اجتماعی) و ۲) آیا از نظر اقتصادی این سیستم ارزشمند است یا خیر؟ بعبارت دیگر وقتی كه درخواستی مطرح می شود و استراتژی جستجو شكل می گیرد، معیارهای ارزیابی مشخص كننده این هستند كه آیا این درخواست از نوع ارزشمند است.
سوال دوم (چه چیزی را باید ارزیابی كنیم؟) ما را به این سمت هدایت می كند كه چه چیزهایی را می توانیم اندازه گیری كنیم كه نشاندهنده توانایی سیستم در برآوردن نیازهای كاربر باشد. در این مورد ۶ كمیت ذكر شده اند كه عبارتند از:
۱) پوشش مجموعه كه دامنه شمول منابع مرتبط در سیستم است.
۲) عقب ماندگی زمان كه میانگین مدتی است میان زمانی كه درخواست جستجو شكل می گیرد و زمانی كه پاسخی ارائه می شود.
۳) شكل ارائه برونداد.
۴) تلاشی كه از سوی كاربر برای بدست آوردن پاسخ به نیاز اطلاعاتی اش صورت می گیرد.
۵) جامعیت سیستم كه نسبت منابع مرتبطی است كه به صورت واقعی برای پاسخگویی به یك درخواست جستجو بازیابی می شوند.
۶) مانعیت سیستم كه نسبت آن دسته از مواد بازیابی شده ای هستند كه واقعا مرتبط با درخواست كاربر می باشند.
ادعا شده كه موارد ۱ تا ۴ بسهولت قابل تشخیص اند و جامعیت و مانعیت هستند كه در آنچه كه ما آن را بازیابی كارآمد سیستم می نامیم موثر هستند. بعبارت دیگر بازیابی مدارك مرتبط و در عین حال جلوگیری از بازیابی مدارك نامربوط مقیاسی است برای سنجش تواناییهای سیستم. امروزه مشخص شده است كه هرچه سیستم كارآمدتر باشد بیشتر استفاده كنندگان را راضی خواهد كرد، همچنین مشخص شده است كه جامغیت و مانعیت برای سنجش كارآمدی یك سیستم كمیتهایی مناسب و در عین حال كافی هستند.
افزایش فزاینده موتورهای كاوش وب، كتابخانه های دیجیتالی و سیستمهای بازیابی اطلاعات و توسعه ابزارهای جدید كاوش وب، نیازمند توسعه مقیاسهای ارزیابی جدیدتر و بیشتر ارزیابی اطلاعات است. در گذشته بحث های بسیاری در مورد اینكه آیا جامعیت و مانعیت كمیتهای مناسبی برای اندازه گیری كارایی هستند یا خیر، وجود داشت. یكی از معیارهای اینچنینی بازیافت و ریزش بود، با وجود این هریك از این معیارها نیز امروزه در برخی از جنبه ها كارایی دارند. مزایای پایه ریزی ارزیابی بر جامعیت و مانعیت عبارتند از:
۱) جفت كلماتی هستند كه بیشترین استفاده را دارند.
۲) كمیتهایی هستند كه معنی آنها به خوبی درك شده است.
سوال آخر (چگونه ارزیابی می كنیم؟) پاسخ های تكنیكی بسیاری دارد، ولی جالب است یادآوری شود كه تكنیكهای سنجش كارایی بازیابی تا حد بسیار تحت تاثیر استراتژی بازیابی اتخاذ شده و شكل برونداد آن قرار دارد.
●معیارهایی برای سنجش ارزیابی بازیابی اطلاعات
پیشنهاد شده است كه سنجش معنادار ارزیابی بازیابی اطلاعات بایستی برای محققان و طراحان سیستمهای بازیابی اطلاعات سودمند باشد. همچنین برای افرادی كه از سیستمهای بازیابی اطلاعات استفاده می كنند معنادار باشد. بعبارتی:
۱) معیارهای ارزیابی بازیابی اطلاعات بایستی برای جویندگان اطلاعات حائز اهمیت و معنادار باشد.
۲) آنچه كه برای جویندگان اطلاعات مهم است در نهایت حل شدن مشكلات اطلاعاتی شان است.
۳) جویندگان اطلاعات برای رفع مشكل اطلاعاتی خود، در میان فرایندهای جستجوی اطلاعات تغییر مكان می دهند.
۴) اگر جویندگان اطلاعات با سیستمهای بازیابی اطلاعات در تعامل باشند سنجش ارزیابی بازیابی اطلاعات بایستی در رابطه با تاثیر سیستم بر كاربران و نیازهای اطلاعاتی آنها باشد.
۵) معیار ارزیابی بازیابی اطلاعات بایستی یك ابزار خودارزیابی باشد.
قبل از پرداختن به بحث در مورد جامعیت و مانعیت لازم است در مورد مفهوم ربط توضیح مختصری داده شود:
●ربط
ربط یك مفهوم فردی است. كاربران مختلف ممكن است در مورد مربوط یا نامربوط بودن یك مدرك خاص به سوالات مطرح شده اختلاف نظر داشته باشند. با این وجود این اختلاف نظر به حدی نیست كه نتایج آزمایشهایی را كه بر روی مجموعه مدارك برای تشخیص ربط با سوالات انجام شده اند را باطل كند. این سوالات معمولا از كاربران واجد شرایط استخراج می شوند كه اینها كاربرانی هستند در موقعیت خاص كه نیاز اطلاعاتی دارند.
ربط یك مفهوم اساسی در اطلاع رسانی است و به عنوان معیار اصلی ارزیابی اثربخشی بازیابی اطلاعات و عامل تاثیر گذار بر طرح عملی و ارزیابی نظامهای بازیابی اطلاعات عمل می كند. ربط مفهومی پیچیده دارد و در اواخر دهه ۱۹۵۰ به وضوح مشخص شد كه انواع مختلف ربط وجود دارد. مفهومی از ربط وجود دارد كه می توان گفت عینی و قابل توجه است. این مفهوم از ربط توسط كوپر مشخص شد و بطرزی شایسته ربط منطقی نام گرفت. استفاده از این مفهوم در سیستمهای بازیابی امروزه محدود است و بیشتر در سوالاتی كه به پاسخ بله یا خیر محدود می شوند كارایی دارد.ربط معنی دار بودن جملات است، گرچه كه ربط منطقی در ابتدا بین جملات مشخص می شد ولی به راحتی می توان آن را در مورد مدارك ذخیره شده گسترش داد. یك مدرك به یك نیاز اطلاعاتی مربوط است اگر و تنها اگر محتویات آن در نهایت یك پاسخ مرتبط با آن نیاز باشد.●مقیاسهای جامعیت و مانعیت
نخستین آزمونهای نظامهای بازیابی اطلاعات به طور جداگانه در آمریكا و انگلستان در سال ۱۹۵۳ انجام شد، ولی مطالعات ارزیابی در مقیاس وسیع در اواخر دهه ۱۹۵۰ در كالج فضانوردی كرنفیلد در انگلستان آغاز شد. در پروژه كرنفیلد تاثیرات گوناگون نمایه سازی با زبان كنترل شده و زبان طبیعی بر بازیابی اطلاعات مورد آزمایش قرار گرفت. برای انجام این كار آنها نه تنها استانداردی برای یك طرح تجربی برای ارزیابی عملكرد بازیابی اطلاعات ایجاد كردند، بلكه بحثی را برای روش شناسی ارزیابی بنا نهاده اند كه تا امروز ادامه دارد.
در این پروژه برای نظام بازیابی اطلاعات دو مقیاس به كار گرفته شده است: جامعیت و مانعیت. دلیل استفاده از این معیارها این است كه كاربران به طور متوسط تمایل به بازیابی مقادیر زیادی از موضوعهای مربوط به هم دارند (كه جامعیت بالایی را ایجاد می كند) این در حالی است كه مایلند به طور همزمان بخش اعظمی از موضوعهای غیر مرتبط (كه مانعیت بالایی را ایجاد می كند) حذف شود.
●جامعیت (بازیافت)
جامعیت مقیاسی از اثر بخشی در بازیابی كلیه اطلاعات جستجو شده در یك پایگاه اطلاعاتی است. یعنی كاوش و جستجوی كامل و مبسوط. هنگامی جامعیت كامل محقق می شود كه هر پیشینه منفرد كه می بایست در رابطه با یك پرسش خاص یافت شود حتما ردیابی گردد.
تعداد پیشینه های مرتبط بازیابی شده
۱۰۰ * ــــــــــــــــــــــــــــــــــــــــ = نسبت جامعیت
تعداد پیشینه های مرتبط موجود
●مانعیت (دقت)
مانعیت، صحت یك جستجو را می سنجد. كاوش در صورتی به مانعیت كامل دست می یابد كه هر پیشینه بازیابی شده در رابطه با یك پرسش، لزوما به آن پرسش مربوط باشد.
عداد پیشینه های بازیابی شده در جستجو
۱۰۰ * ــــــــــــــــــــــــــــــــــــــــ = نسبت مانعیت
تعداد پیشینه های مرتبط بازیابی شده
●رابطه بین جامعیت و مانعیت
نمایش رابطه بین جامعیت و مانعیت با استفاده از یك ماتریس دو در دو امكان پذیر است. یك پیشینه ممكن است بازیابی شده و مرتبط، یا بازیابی شده و غیر مرتبط، بازیابی نشده و مرتبط یا بازیابی نشده و غیر مرتبط باشد.
یك كاوش كامل تنها پیشینه هایی را خواهد داشت كه بازیابی شده و مرتبط و یا بازیابی نشده و غیر مرتبط باشند. پیشینه های بازیابی شده و غیر مرتبط مانعیت و پیشینه های بازیابی نشده و مرتبط جامعیت را كاهش می دهند.
از این جدول می توان به تعدادی از معیارهای سنجش سودمندی دست یافت كه عبارتند از:
یك رابطه كاركردی بین این سه پارامتر وجود دارد كه Generality نامیده می شود و میزان مدارك مرتبط در مجموعه است. این رابطه را می توان به صورت زیر نمایش داد:
برای هر درخواستی كه به یك سیستم بازیابی ارائه می شود یكی از این جداول كاربرد دارد. بر پایه هریك از این جداول یك ارزش دقت ـ بازیافت قابل محاسبه است.
●كاربرد جامعیت و مانعیت
در آزمایشهای كرنفیلد بین جامعیت و مانعیت نسبت معكوس یافت شد. تلاش برای افزایش یكی به كاهش دیگری منجر می شود و جامعیت بیشتر فقط به ازای كاهش مانعیت امكان پذیر است. اگر هدف یك استراتژی بازیابی هرچه بیشتر مدارك مربوط به موضوع باشد، احتمال بازیابی پیشینه های نامربوط بیشتر نیز وجود دارد بعبارتی افزایش مانعیت منجر به كاهش جامعیت می شود. در این ارتباط معكوس منطقی حاكم است كه نه در همه بلكه در بسیاری از آزمونهای ارزیابی نشان داده شده است. كلوردن از توسعه و همه گیر شدن استفاده از این نسبت معكوس به عنوان نوعی قانون عمومی كه در تمام موارد و شرایط قابل اجراست ناخشنود می باشد. با این حال اغلب چنین ارتباط معكوسی بین جامعیت و مانعیت در نتایج حاصله توسط جستجوگران مشاهده می شود.
اقدام جهت یافتن هرچه بیشتر پیشینه های مرتبط منجر به احتمال كاهش مانعیت خواهد شد و چنان كه راهبرد كاوش افزایش مانعیت باشد در این صورت تعداد مدارك یافت شده عموما كاهش می یابد.
آزمایش این مطالب در هر نوع كاوش در دیسك فشرده پایگاه اطلاعاتی پیوسته، اوپك و شبكه جهانی وب میسر است. فنونی از قبیل كاهش تعداد مفاهیم مختلف در یك كاوش، افزایش واژه های مترادف جهت بازنمایی مفاهیم كاوش و كوتاه كردن عبارات موجب افزایش جامعیت و كاهش مانعیت می شود. اضافه كردن مفاهیم منحصر به فرد، كاهش تعداد واژه های مترادف، استفاده از عملگرهای مجاورت و منحصر كردن كاوش به میدانهای خاص در پیشینه ها به طور معمول منجر به افزایش مانعیت و كاهش جامعیت می شود.
جامعیت و مانعیت از زمان كرنفیلد در آزمونهای بسیاری به عنوان مقیاس به كار گرفته شده اند. به عنوان نمونه در ارزیابی لنكستر از پایگاه اطلاعاتی مدلارز در اواخر دهه ۶۰ معلوم شد كه بطور متوسط جامعیت كمتر از ۶۰ درصد و مانعیت در حدود ۵۰ درصد می باشد.
لنكستر و وارنر خاطر نشان می كنند كه مانعیت در درجات پایین ممكن است در یك پایگاه اطلاعاتی كوچكتر قابل تحمل تر از یك پایگاه اطلاعاتی بزرگتر باشد. یك كاربر ممكن است مایل باشد برای یافتن ۲۰ پیشینه مفید ۶۰ پیشینه بازیابی شده را ارزیابی كند، ولی مسلما برای یافتن ۲۰۰ پیشینه از میان ۶۰۰ پیشینه تمایل كمتری خواهد داشت هرچند كه در هر دو مورد نسبت مانعیت همان ۲۳ درصد است.
كلارك و ویلت سه موتور كاوش وب را با استفاده از مقیاسهای جامعیت و مانعیت مقایسه كرده اند. آنها به هیچگونه تفاوت اساسی و مهم در جامعیت مابین موتورهای كاوش اكسایت، لایكوز و آلتاویستا دست نیافتند، ولی در آلتاویستا مانعیت مشخصا بر لایكوز برتری داشت. هر سه موتور امتیاز بیشتری در جامعیت در مقایسه با مانعیت كسب كرده اند. این امر به ویژه در لایكوز قابل توجه بود.
●ارتباط ریزش كاذب با جامعیت و مانعیت
معمولاً ریزش كاذب درصد كمی از مدارك بازیابی شده را شامل می شود؛ چرا كه برخی از خطاهای بازیابی گریز ناپذیرند، بویژه هنگامی كه به منظور دستیابی به جامعیت بالا، كاوش را گسترده كنیم. یعنی هر چه كاوش را گسترده تر كنیم و بخواهیم جامعیت را بالا ببریم، در مانعیت دچار مشكل میشویم و ركوردهای ناخواستهٔ بازیابی شده زیاد می شود كه همان ریزش كاذب است. در نتیجه، هر چه میزان جامعیت بیش تر باشد، میزان ریزش كاذب نیز زیاد می شود و هر چه میزان مانعیت زیاد باشد، میزان ریزش كاذب كاهش می یابد.
بنابراین, فرمول زیر برای ریزش كاذب، جامعیت و مانعیت ارائه می شود
:ریزش كاذب – تعداد كل مدارك بازیابی شده= مانعیت
ریزش كاذب در بانك های اطلاعاتی
ریزش كاذب در بانك های اطلاعاتی ممكن است به علل زیر اتفاق بیفتد:
۱- اشتباه و خطا در بیان پرسش, كه مهم ترین مرحله است؛ زیرا اگر در این مرحله اشتباه صورت پذیرد, در بقیه مراحل نیز دچار خطا خواهیم شد.
۲- اشتباه در تحلیل پرسش؛
۳- اشتباه در انتخاب فایل و پایگاه اطلاعاتی مناسب؛
۴- اشتباه در تدوین راهبرد كاوش؛
۵- اشتباه در ساختار زبانی و ساختار كلمه ؛
۶- استفاده از زبان كنترل شده؛
۷- استفاده از كلیدواژهٔ كنترل نشده؛
۸- كاوش كلمه ای در كلیه فیلدها، فیلد آزاد، یا متن آزاد ؛
۹- نبودن اصطلاحنامه در پایگاه اطلاعاتی یا ضعیف بودن آن؛
۱۰- بازیابی ناخواستهٔ هم نویسه ها, بویژه در سرنام ها؛ مانند: Aids و AIDS كه اولی به معنی وسایل و ابزار كمكی است و دومی حروف آغازین كلمات Acquired Deficiency Syndrome Immune یا SDI كه هم مختصر Selective Dissemination of Information است و هم مختصر Strategic Defense Initiative.
برای جلوگیری از ریزش كاذب در بانك های اطلاعاتی، استفاده از شیوه های زیر توصیه می شود:
۱- آشنایی كامل با بانك اطلاعاتی مورد نظر، شیوه های كاوش، پوشش موضوعی و امثال آن؛
۲- استفاده از عملگر AND برای اخص كردن مدارك بازیابی شده و افزایش مانعیت؛
۳- استفاده از عملگر NOT برای حذف ركوردهای ناخواسته؛
۴- استفاده از زبان كنترل شده و اصطلاحنامه؛
۵- كاوش كلمهٔ مورد نظر در متن آزاد و بدون استفاده از زبان كنترل شده (در موارد استثنایی).
معمولاً استفاده از زبان كنترل شده باعث رفع بسیاری از ریزش های كاذب می شود. با وجود این، اطلاعات جدید و بسیار جزئی و اخص، كه معمولاً اصطلاحنامه و كنترل واژگان وجود ندارد، اغلب اوقات فقط از طریق كاوش كلمه در متن قابل بازیابی و دستیابی هستند و اگر در چنین مواردی از زبان كنترل شده استفاده كنیم، ریزش كاذب خواهیم داشت.
●نقد مقیاسهای جامعیت و مانعیت
علی رغم كاربرد گسترده جامعیت و مانعیت به عنوان مقیاس اثربخشی بازیابی، به دلیل پاره ای كمبودهای جدی و مهم این مقیاسها مكررا مورد انتقاد واقع می شوند. حتی اگر این مقیاس ها از اعتبار برخوردار باشند، حداقل از نقطه نظر جستجوگران این مقیاس ها ارزیابی ناقص از بازیابی اطلاعات ارائه می كنند. جستجوگران ممكن است جامعیت و مانعیت را به حداكثر برسانند ولی این تنها روش قابل اجرا در ارزیابی یك كاوش موفق نیست. عواملی از قبیل مخارج و هزینه های لازم جهت تكمیل كاوش، مدت زمان صرف شده و سهولت اجرای آن از طریق رابط نظام، ممكن است مهم و موثر باشند. به غیر از نیاز به محیط تجربی خاص اینها واقعیتهایی هستند كه جویندگان اطلاعات با آن درگیر می باشند.یك نظام بازیابی با نسبت های جامعیت و مانعیت موثر و قابل توجه، اگر هزینه های زیاد در بر داشته باشند، طرفداران كمی خواهند داشت. صرف زمان طولانی و لزوم استفاده از میانجی های غیر مفید نیز از عوامل موثر در انتخاب روش تلقی می شود. لنكستر و وارنر گزارش می كنند كه مطالعات بطور مداوم نشان داده اند كه سهولت استفاده و دسترس پذیری از نخستین عوامل موثر در انتخاب منابع اطلاعاتی میباشند.
●ارزیابی پایگاههای اطلاعاتی
ملاحظات مربوط به نظام كاوش، فرآیند جستجو و جستجوگر در عین اهمیت بدیهی آن تنها ملاك های تعیین موفقیت یا شكست جستجوی اطلاعات نیست. خود پایگاه اطلاعاتی، روزآمد بودن آن، پوشش و اعتبار آن نیز برای نتیجه جستجو سرنوشت ساز است.
نظام بازیابی اطلاعات نوعی پیوند حیاتی در یك زنجیره است كه با نیاز اطلاعاتی كاربر شروع و به اطلاعاتی كه نیازش را مرتفع خواهد كرد، ختم می شود. به همین دلیل طراحی نظامهایی كه تا حد امكان به طور موثر عمل می كنند و آموزش كاربران ضروری است.
متاسفانه كیفیت پایگاه اطلاعاتی نمی تواند به عنوان یك امر مسلم در نظر گرفته شود. اطلاعات ذخیره شده به شكل الكترونیكی دقیق تر از سایر اطلاعات نیست. بنابراین این پایگاهها نیز نیاز به ارزیابی دارند.
●معیارهای ارزیابی
تعدادی از نویسندگان معیارهای ارزیابی پایگاههای اطلاعاتی را پیشنهاد كرده اند. گروه كاربران پیوسته كالیفرنیای جنوبی در سال ۱۹۹۰ سیاهه ای از معیارهای ارزیابی به شرح زیر ارائه كرد:
- سازگاری: آیا پایگاه اطلاعاتی در پوشش، روزآمد بودن و ... رعایت سازگاری را می كند؟
- پوشش / دامنه: آیا پوشش و دامنه با اهداف بیان شده پایگاه اطلاعات مطابقت دارد؟
- نسبت خطا / صحت: اطلاعات تا چه میزان از دقت برخوردار است؟
- خروجی: چه قالبی از خروجی قابل دسترس است؟
- آموزش و پشتیبانی مشتری: آیا آموزش اولیه و آموزش مستمر وجود دارد؟
- سهولت استفاده: نرم افزار تا چه حد كاربر پسند است؟
- به هنگام بودن: آیا پایگاه اطلاعاتی به همان سرعتی كه ادعا می كند و به همان میزانی كه داده ها ایجاب می كند روزآمد می شود؟
- مستندسازی: آیا مستندسازی چاپی یا پیوسته به شكل جامع، جاری و با سازماندهی مناسب ارائه می شود؟
- ارزش / هزینه: آیا پایگاه اطلاعاتی ارزش مالی مناسبی از نظر مالی ارائه می دهد.
●●نتیجه گیری
علی رغم تمام ناكامی ها و موانعی كه در بازیابی اطلاعات وجود دارد، اهمیت اقتصادی، سیاسی و اجتماعی یافتن اطلاعات مرتبط در زمان، مكان و برای فرد مورد نظر، ضامن تلاشهای آینده برای توسعه نظامهای بازیابی است. با افزایش حجم اطلاعات اهمیت نظامهای بازیابی كارآمد هنوز هم بیشتر می شود. توجه كنونی به مسایل بازیابی روی وب آخرین جلوه این پدیده است. به منظور توسعه نظامهای بهتر، ایجاد فنون ارزیابی موثر ضروری است.
ربط ممكن است در معنی وسیع آن ”درمورد“ و یا ”مناسب بودن“ معنا شود اما در نهایت مفهوم ربط قوی اما دست نخورده باقی مانده است. مشكل اصلی طبق نظر منتقدان، ذهنی بودن آن است. آنها معتقدند كه ربط بازتابی از نظر مشاهده كننده است زیرا تنها جستجوگر می تواند تعیین كند كه آیا مدرك بازیابی شده مرتبط با نیاز اطلاعاتی او هست یا خیر. از نظر تجربی، قضاوتهای ربط اساسا به مقایسه بین محتوای موضوعی مدرك بازیابی شده و نیاز اولیه ای كه جستجو را به دنبال دارد بستگی دارد. نكته قابل بحث اینكه تصمیم گیری در مورد ربط موضوعی، یا بعبارت دیگر موضوعیت، از طریق متخصصان موضوعی امكان پذیر است.
قضاوت در خلال جستجو درباره میزان ربط، نتایج میانی و در نهایت استفاده از این قضاوتها برای تجدید نظر در راهبرد جستجو اصطلاحا بازخورد ربط نامیده می شود برخی از نظامهای بازیابی اطلاعات به سادگی به جستجوگر برای آغاز بازخورد اتكا نمی كنند. بعنوان مثال خود نظام ممكن است به صورت خودكار در جستجوی یافتن پیشینه های بیشتری باشد كه عبارات نمایه مشترك با مداركی داشته باشد كه توسط كاربر مربوط تشخیص داده شده است.
از سال ۱۹۴۰ مساله ذخیره و بازیابی اطلاعات مورد توجه بسیار قرار گرفت. این مساله از زمانی آغاز شد كه بشر سعی كرد محیط پیرامون خود را كنترل كند یا حداقل از فشارهای خارجی كه باعث نابودی او می شدند جلوگیری كند. بشر برای ایجاد محیطی مطلوب برای ادامه بقا به اتخاذ تصمیمات سریع، صحیح، دقیق نیاز داشت. كیفیت این تصمیمات به توانایی تصمیم گیرنده در حل مسایل وابسته بود ولی قبل از آن به میزان ارتباط كیفیت اطلاعاتی وابسته بود كه تصمیم گیرنده برای حل مشكل فراهم آورده بود. بتدریج در طول تاریخ جمع آوری، سازماندهی و نگهداری امری متداول و مرسوم شد.
در چند دهه اخیر بازیابی رایانه ای مورد توجه خاصی قرار گرفته كه علت آن را می توان ۴ عامل دانست: افزایش اهمیت زمان، تغییر در كمیت و كیفیت اطلاعات، تغییر در ماهیت نیازهای اطلاعاتی، تغییر در اهمیت منابع اطلاعاتی. این عوامل تغییر و توسعه در سیستم های بازیابی اطلاعات را به دنبال داشته و موجب مطرح شدن بحث هایی از جمله لزوم تغییر در ابزارهای اطلاعاتی، ایجاد سیستم های ارتباطی جدید و استفاده از آنها و تغییر معانی اشاعه اطلاعات شده اند.
امروزه رشد اهمیت حیاتی اطلاعات، لزوم صرفه جویی در وقت و هزینه جستجوكنندگان، جوان بودن شبكه های گسترده بخصوص از لحاظ سرعت، لزوم دستیابی سریع، جامع و مانع به اطلاعات خاص مورد نیاز از جمله مسایل مهمی هستند كه اهمیت یك فرایند بازیابی حساب شده، كنترل شده و كامل را آشكار می سازند.
می توان گفت هنوز هم مساله بازیابی موثر همچنان در حد وسیعی بصورت حل نشده باقی مانده است و هدف یك استراتژی اتوماتیك بازیابی، بدست آوردن تمام مدارك مربوط و در عین حال بازیابی كمترین مدارك نامربوط تا حد امكان است، بعبارتی مفهوم ربط در مركز مساله بازیابی اطلاعات قراردارد. میتوان با یك نمودار سیستم بازیابی اطلاعات را به صورت زیر نمایش داد:
با توجه به مدل ارائه شده هر سیستم بر سه محور سازماندهی، بازیابی و نمایش اطلاعات استوار است و چرخه عمل بازیابی اطلاعات شامل ۷ مرحله زیر است:
۱. انتخاب یك بانك اطلاعاتی برای انجام جستجو: بر مبنای بانكهای موجود و نیاز اطلاعاتی كاربر، یك بانك اطلاعاتی انتخاب می شود آنگاه سیستم خلاصه ای از اطلاعات، محدوده تاریخی ركوردها، تعداد ركوردها، قیمت و … را در اختیار كاربر قرار می دهد.
۲. جستجو برای واژه های مورد نظر در بانك واژگان: قبل از انجام جستجو برای فرمول بندی جستجو، كاربر می تواند هریك از واژه نامه های موجود در سیستم را مورد استفاده قرار دهد. واژه نامه ها نقش بسیار مهمی در بازیابی اطلاعات ایفا می كنند. حداقل استفاده ای كه از بانك واژگان بعمل می آید این است كه كاربر خواهد فهمید كه آیا واژه های كورد نظر او در بانك اطلاعاتی وجود دارند؟ شكل صحیح آنها به چه صورت است و ....
۳. ایجاد فرمول جستجو و انجام جستجو: فرمول بندی صحیح و دقیق نیازهای اطلاعاتی كاربران وابسته به امكانات بازیابی اطلاعات برای فرمول بندی می باشد. هرچه قابلیتهای بیشتری فراهم آورده شود، كاربر راحتتر و آسانتر می تواند به بیان نیازهای خود بپردازد. امكانات لازم برای فرمول بندی جستجو در یك سیستم بهینه شامل امكان استفاده از عملگرهای بولی، عملگرهای جستجوی املایی و ... می باشد.
۴. نمایش و بازبینی ركوردها: بازخورد خوب سیستم در این قسمت نقش مهمی در هدایت كاربر برای رسیدن به اطلاعات مورد نظرش دارد. در این قسمت سیستم باید بتواند به سوالات زیر پاسخ دهد:
- چه ركوردهایی با نیاز اطلاعاتی كاربر مطابقت دارند؟- آیا مجموعه ركوردهای بازیابی شده با نیازهای اطلاعاتی كاربر مطابقت دارند؟ و ....
۵. سفارش مدرك
۶. درخواست برای اطلاعاتی درباره سیستم بازیابی اطلاعات
۷. برقراری پارامترهای نمایشی و ارتباطی در مجموعه: كه چهار مقوله باید به عنوان مهم ترین اهداف مدنظر طراحان سیستمهای بازیابی اطلاعات قرار گیرند: بهینه سازی انتخاب واژكان جستجو توسط كاربران، بهینه سازی فرمول جستجوی كاربران، بهینه سازی تعداد ركوردهای بازیابی شده، بهینه سازی ضریب دقت و بازیابی یا بهینه سازی كلی بازیابی اطلاعات.
در نهایت باید این نكته را خاطرنشان كرد كه جستجوگران باتجربه و متخصصان بازیابی این نكته را میدانند كه جستجو مستلزم صرف وقت و هزینه است و در این مسیر باید با اصلاح، بازنویسی و تكرار چرخه جستجو به نتایج دلخواه دست یافت.
●ارزیابی بازیابی اطلاعات
ایجاد نظامهای بازیابی اطلاعات در مقیاس وسیع بسیار پرهزینه است. هزینه های كاوش قابل ملاحظه هستند و زمان قابل توجهی برای جستجوی اطلاعات در پایگاهها توسط متخصصان اطلاع رسانی و كاربران نهایی صرف می شود، و از همه مهمتر اینكه یك كاوش در بهترین حالت ممكن می تواند آنچه را كه مورد جستجو است بیابد. درحالیكه اطلاعات دیگر حذف می شوند. و در بدترین حالت جستجو می تواند اطلاعات بی ارزش را ارائه دهد و در عین حال موارد مورد نیاز را از دست بدهد. بنابراین مهم است بدانیم كدام نظامها و كاوشها و جستجوگران بیش از همه موثرند.
تحقیقات و تلاشهای بسیاری در جهت حل مساله ارزیابی سیستمهای بازیابی اطلاعات صورت گرفته است و گفته می شود كه بسیاری از افرادی كه در زمینه ذخیره و بازیابی اطلاعات فعالیت دارند احساس می كنند كه این مساله تا حل شدن فاصله زیادی دارد.
اطلاع یابی فعالیتی عملی با هدفی بسیار دقیق و مشخص است با وجود این، تلاشهایی كه در جهت ارزیابی این فعالیت انجام شده برگرفته از كاوشهای واقعی توسط جستجوگران واقعی برای پاسخ به نیاز اطلاعاتی واقعی بوده است.
اغلب متفكران علم اطلاع رسانی درگیر این مساله هستند كه چگونه می توان بازیابی اطلاعاتی را به بهترین وجه ارزیابی كرد.
برای قرار دادن مساله ارزیابی در یك چشمانداز می توان سه سوال را مطرح نمود: ۱) چرا ارزیابی می كنیم؟ ۲) چه چیزی را باید ارزیابی كرد؟ ۳) چگونه باید ارزیابی كرد؟ كه پاسخ به این سوالات به خوبی زمیته ارزیابی را پوشش خواهد داد.
پاسخ به سوال اول جنبه اجتماعی و اقتصادی دارد. جنبه اجتماعی آن اساسا وابسته به طراحی برای ایجاد یك معیار سنجش اثربخشی در سیستم های بازیابی اطلاعات است. برای مثال كاربران از تعویض منابع سنتی اطلاعات با یك سیستم كاملا اتوماتیك و تعاملی بازیابی اطلاعات چه سود یا زیانی خواهند برد؟ مطالعات در این زمینه در حال انجامند اما به نتیجه رسیدن كمی دشوار است چرا كه برای برخی از سیستمهای بازیابی، اثربخشی ممكن است راحت تر از سایر سیستمها اندازه گیری شود.
جنبه اقتصادی به این امر وابسته است كه استفاده از یكی از این سیستمها چقدر برای شما هزینه دارد و آیا اصلا ارزش این میزان هزینه را دارد یا نه؟ كه در این مورد هم به نتیجه رسیدن دشوار است چرا كه مثلا هزینه های كامپیوتری به راحتی اندازه گیری می شوند اما دستیابی به هزینه نیروی انسانی فعال در این زمینه مشكل تر است. بنابراین ارزشمند بودن یا نبودن بستگی به خود كاربر دارد.
اكنون مشخص شد كه در ارزیابی یك سیستم بازیابی اطلاعات اساسا با تهیه اطلاعات مواجهیم و كاربر است كه می تواند تصمیم گیری كند كه ۱) آیا آن سیستم را می خواهد؟ (جنبه اجتماعی) و ۲) آیا از نظر اقتصادی این سیستم ارزشمند است یا خیر؟ بعبارت دیگر وقتی كه درخواستی مطرح می شود و استراتژی جستجو شكل می گیرد، معیارهای ارزیابی مشخص كننده این هستند كه آیا این درخواست از نوع ارزشمند است.
سوال دوم (چه چیزی را باید ارزیابی كنیم؟) ما را به این سمت هدایت می كند كه چه چیزهایی را می توانیم اندازه گیری كنیم كه نشاندهنده توانایی سیستم در برآوردن نیازهای كاربر باشد. در این مورد ۶ كمیت ذكر شده اند كه عبارتند از:
۱) پوشش مجموعه كه دامنه شمول منابع مرتبط در سیستم است.
۲) عقب ماندگی زمان كه میانگین مدتی است میان زمانی كه درخواست جستجو شكل می گیرد و زمانی كه پاسخی ارائه می شود.
۳) شكل ارائه برونداد.
۴) تلاشی كه از سوی كاربر برای بدست آوردن پاسخ به نیاز اطلاعاتی اش صورت می گیرد.
۵) جامعیت سیستم كه نسبت منابع مرتبطی است كه به صورت واقعی برای پاسخگویی به یك درخواست جستجو بازیابی می شوند.
۶) مانعیت سیستم كه نسبت آن دسته از مواد بازیابی شده ای هستند كه واقعا مرتبط با درخواست كاربر می باشند.
ادعا شده كه موارد ۱ تا ۴ بسهولت قابل تشخیص اند و جامعیت و مانعیت هستند كه در آنچه كه ما آن را بازیابی كارآمد سیستم می نامیم موثر هستند. بعبارت دیگر بازیابی مدارك مرتبط و در عین حال جلوگیری از بازیابی مدارك نامربوط مقیاسی است برای سنجش تواناییهای سیستم. امروزه مشخص شده است كه هرچه سیستم كارآمدتر باشد بیشتر استفاده كنندگان را راضی خواهد كرد، همچنین مشخص شده است كه جامغیت و مانعیت برای سنجش كارآمدی یك سیستم كمیتهایی مناسب و در عین حال كافی هستند.
افزایش فزاینده موتورهای كاوش وب، كتابخانه های دیجیتالی و سیستمهای بازیابی اطلاعات و توسعه ابزارهای جدید كاوش وب، نیازمند توسعه مقیاسهای ارزیابی جدیدتر و بیشتر ارزیابی اطلاعات است. در گذشته بحث های بسیاری در مورد اینكه آیا جامعیت و مانعیت كمیتهای مناسبی برای اندازه گیری كارایی هستند یا خیر، وجود داشت. یكی از معیارهای اینچنینی بازیافت و ریزش بود، با وجود این هریك از این معیارها نیز امروزه در برخی از جنبه ها كارایی دارند. مزایای پایه ریزی ارزیابی بر جامعیت و مانعیت عبارتند از:
۱) جفت كلماتی هستند كه بیشترین استفاده را دارند.
۲) كمیتهایی هستند كه معنی آنها به خوبی درك شده است.
سوال آخر (چگونه ارزیابی می كنیم؟) پاسخ های تكنیكی بسیاری دارد، ولی جالب است یادآوری شود كه تكنیكهای سنجش كارایی بازیابی تا حد بسیار تحت تاثیر استراتژی بازیابی اتخاذ شده و شكل برونداد آن قرار دارد.
●معیارهایی برای سنجش ارزیابی بازیابی اطلاعات
پیشنهاد شده است كه سنجش معنادار ارزیابی بازیابی اطلاعات بایستی برای محققان و طراحان سیستمهای بازیابی اطلاعات سودمند باشد. همچنین برای افرادی كه از سیستمهای بازیابی اطلاعات استفاده می كنند معنادار باشد. بعبارتی:
۱) معیارهای ارزیابی بازیابی اطلاعات بایستی برای جویندگان اطلاعات حائز اهمیت و معنادار باشد.
۲) آنچه كه برای جویندگان اطلاعات مهم است در نهایت حل شدن مشكلات اطلاعاتی شان است.
۳) جویندگان اطلاعات برای رفع مشكل اطلاعاتی خود، در میان فرایندهای جستجوی اطلاعات تغییر مكان می دهند.
۴) اگر جویندگان اطلاعات با سیستمهای بازیابی اطلاعات در تعامل باشند سنجش ارزیابی بازیابی اطلاعات بایستی در رابطه با تاثیر سیستم بر كاربران و نیازهای اطلاعاتی آنها باشد.
۵) معیار ارزیابی بازیابی اطلاعات بایستی یك ابزار خودارزیابی باشد.
قبل از پرداختن به بحث در مورد جامعیت و مانعیت لازم است در مورد مفهوم ربط توضیح مختصری داده شود:
●ربط
ربط یك مفهوم فردی است. كاربران مختلف ممكن است در مورد مربوط یا نامربوط بودن یك مدرك خاص به سوالات مطرح شده اختلاف نظر داشته باشند. با این وجود این اختلاف نظر به حدی نیست كه نتایج آزمایشهایی را كه بر روی مجموعه مدارك برای تشخیص ربط با سوالات انجام شده اند را باطل كند. این سوالات معمولا از كاربران واجد شرایط استخراج می شوند كه اینها كاربرانی هستند در موقعیت خاص كه نیاز اطلاعاتی دارند.
ربط یك مفهوم اساسی در اطلاع رسانی است و به عنوان معیار اصلی ارزیابی اثربخشی بازیابی اطلاعات و عامل تاثیر گذار بر طرح عملی و ارزیابی نظامهای بازیابی اطلاعات عمل می كند. ربط مفهومی پیچیده دارد و در اواخر دهه ۱۹۵۰ به وضوح مشخص شد كه انواع مختلف ربط وجود دارد. مفهومی از ربط وجود دارد كه می توان گفت عینی و قابل توجه است. این مفهوم از ربط توسط كوپر مشخص شد و بطرزی شایسته ربط منطقی نام گرفت. استفاده از این مفهوم در سیستمهای بازیابی امروزه محدود است و بیشتر در سوالاتی كه به پاسخ بله یا خیر محدود می شوند كارایی دارد.ربط معنی دار بودن جملات است، گرچه كه ربط منطقی در ابتدا بین جملات مشخص می شد ولی به راحتی می توان آن را در مورد مدارك ذخیره شده گسترش داد. یك مدرك به یك نیاز اطلاعاتی مربوط است اگر و تنها اگر محتویات آن در نهایت یك پاسخ مرتبط با آن نیاز باشد.●مقیاسهای جامعیت و مانعیت
نخستین آزمونهای نظامهای بازیابی اطلاعات به طور جداگانه در آمریكا و انگلستان در سال ۱۹۵۳ انجام شد، ولی مطالعات ارزیابی در مقیاس وسیع در اواخر دهه ۱۹۵۰ در كالج فضانوردی كرنفیلد در انگلستان آغاز شد. در پروژه كرنفیلد تاثیرات گوناگون نمایه سازی با زبان كنترل شده و زبان طبیعی بر بازیابی اطلاعات مورد آزمایش قرار گرفت. برای انجام این كار آنها نه تنها استانداردی برای یك طرح تجربی برای ارزیابی عملكرد بازیابی اطلاعات ایجاد كردند، بلكه بحثی را برای روش شناسی ارزیابی بنا نهاده اند كه تا امروز ادامه دارد.
در این پروژه برای نظام بازیابی اطلاعات دو مقیاس به كار گرفته شده است: جامعیت و مانعیت. دلیل استفاده از این معیارها این است كه كاربران به طور متوسط تمایل به بازیابی مقادیر زیادی از موضوعهای مربوط به هم دارند (كه جامعیت بالایی را ایجاد می كند) این در حالی است كه مایلند به طور همزمان بخش اعظمی از موضوعهای غیر مرتبط (كه مانعیت بالایی را ایجاد می كند) حذف شود.
●جامعیت (بازیافت)
جامعیت مقیاسی از اثر بخشی در بازیابی كلیه اطلاعات جستجو شده در یك پایگاه اطلاعاتی است. یعنی كاوش و جستجوی كامل و مبسوط. هنگامی جامعیت كامل محقق می شود كه هر پیشینه منفرد كه می بایست در رابطه با یك پرسش خاص یافت شود حتما ردیابی گردد.
تعداد پیشینه های مرتبط بازیابی شده
۱۰۰ * ــــــــــــــــــــــــــــــــــــــــ = نسبت جامعیت
تعداد پیشینه های مرتبط موجود
●مانعیت (دقت)
مانعیت، صحت یك جستجو را می سنجد. كاوش در صورتی به مانعیت كامل دست می یابد كه هر پیشینه بازیابی شده در رابطه با یك پرسش، لزوما به آن پرسش مربوط باشد.
عداد پیشینه های بازیابی شده در جستجو
۱۰۰ * ــــــــــــــــــــــــــــــــــــــــ = نسبت مانعیت
تعداد پیشینه های مرتبط بازیابی شده
●رابطه بین جامعیت و مانعیت
نمایش رابطه بین جامعیت و مانعیت با استفاده از یك ماتریس دو در دو امكان پذیر است. یك پیشینه ممكن است بازیابی شده و مرتبط، یا بازیابی شده و غیر مرتبط، بازیابی نشده و مرتبط یا بازیابی نشده و غیر مرتبط باشد.
یك كاوش كامل تنها پیشینه هایی را خواهد داشت كه بازیابی شده و مرتبط و یا بازیابی نشده و غیر مرتبط باشند. پیشینه های بازیابی شده و غیر مرتبط مانعیت و پیشینه های بازیابی نشده و مرتبط جامعیت را كاهش می دهند.
از این جدول می توان به تعدادی از معیارهای سنجش سودمندی دست یافت كه عبارتند از:
یك رابطه كاركردی بین این سه پارامتر وجود دارد كه Generality نامیده می شود و میزان مدارك مرتبط در مجموعه است. این رابطه را می توان به صورت زیر نمایش داد:
برای هر درخواستی كه به یك سیستم بازیابی ارائه می شود یكی از این جداول كاربرد دارد. بر پایه هریك از این جداول یك ارزش دقت ـ بازیافت قابل محاسبه است.
●كاربرد جامعیت و مانعیت
در آزمایشهای كرنفیلد بین جامعیت و مانعیت نسبت معكوس یافت شد. تلاش برای افزایش یكی به كاهش دیگری منجر می شود و جامعیت بیشتر فقط به ازای كاهش مانعیت امكان پذیر است. اگر هدف یك استراتژی بازیابی هرچه بیشتر مدارك مربوط به موضوع باشد، احتمال بازیابی پیشینه های نامربوط بیشتر نیز وجود دارد بعبارتی افزایش مانعیت منجر به كاهش جامعیت می شود. در این ارتباط معكوس منطقی حاكم است كه نه در همه بلكه در بسیاری از آزمونهای ارزیابی نشان داده شده است. كلوردن از توسعه و همه گیر شدن استفاده از این نسبت معكوس به عنوان نوعی قانون عمومی كه در تمام موارد و شرایط قابل اجراست ناخشنود می باشد. با این حال اغلب چنین ارتباط معكوسی بین جامعیت و مانعیت در نتایج حاصله توسط جستجوگران مشاهده می شود.
اقدام جهت یافتن هرچه بیشتر پیشینه های مرتبط منجر به احتمال كاهش مانعیت خواهد شد و چنان كه راهبرد كاوش افزایش مانعیت باشد در این صورت تعداد مدارك یافت شده عموما كاهش می یابد.
آزمایش این مطالب در هر نوع كاوش در دیسك فشرده پایگاه اطلاعاتی پیوسته، اوپك و شبكه جهانی وب میسر است. فنونی از قبیل كاهش تعداد مفاهیم مختلف در یك كاوش، افزایش واژه های مترادف جهت بازنمایی مفاهیم كاوش و كوتاه كردن عبارات موجب افزایش جامعیت و كاهش مانعیت می شود. اضافه كردن مفاهیم منحصر به فرد، كاهش تعداد واژه های مترادف، استفاده از عملگرهای مجاورت و منحصر كردن كاوش به میدانهای خاص در پیشینه ها به طور معمول منجر به افزایش مانعیت و كاهش جامعیت می شود.
جامعیت و مانعیت از زمان كرنفیلد در آزمونهای بسیاری به عنوان مقیاس به كار گرفته شده اند. به عنوان نمونه در ارزیابی لنكستر از پایگاه اطلاعاتی مدلارز در اواخر دهه ۶۰ معلوم شد كه بطور متوسط جامعیت كمتر از ۶۰ درصد و مانعیت در حدود ۵۰ درصد می باشد.
لنكستر و وارنر خاطر نشان می كنند كه مانعیت در درجات پایین ممكن است در یك پایگاه اطلاعاتی كوچكتر قابل تحمل تر از یك پایگاه اطلاعاتی بزرگتر باشد. یك كاربر ممكن است مایل باشد برای یافتن ۲۰ پیشینه مفید ۶۰ پیشینه بازیابی شده را ارزیابی كند، ولی مسلما برای یافتن ۲۰۰ پیشینه از میان ۶۰۰ پیشینه تمایل كمتری خواهد داشت هرچند كه در هر دو مورد نسبت مانعیت همان ۲۳ درصد است.
كلارك و ویلت سه موتور كاوش وب را با استفاده از مقیاسهای جامعیت و مانعیت مقایسه كرده اند. آنها به هیچگونه تفاوت اساسی و مهم در جامعیت مابین موتورهای كاوش اكسایت، لایكوز و آلتاویستا دست نیافتند، ولی در آلتاویستا مانعیت مشخصا بر لایكوز برتری داشت. هر سه موتور امتیاز بیشتری در جامعیت در مقایسه با مانعیت كسب كرده اند. این امر به ویژه در لایكوز قابل توجه بود.
●ارتباط ریزش كاذب با جامعیت و مانعیت
معمولاً ریزش كاذب درصد كمی از مدارك بازیابی شده را شامل می شود؛ چرا كه برخی از خطاهای بازیابی گریز ناپذیرند، بویژه هنگامی كه به منظور دستیابی به جامعیت بالا، كاوش را گسترده كنیم. یعنی هر چه كاوش را گسترده تر كنیم و بخواهیم جامعیت را بالا ببریم، در مانعیت دچار مشكل میشویم و ركوردهای ناخواستهٔ بازیابی شده زیاد می شود كه همان ریزش كاذب است. در نتیجه، هر چه میزان جامعیت بیش تر باشد، میزان ریزش كاذب نیز زیاد می شود و هر چه میزان مانعیت زیاد باشد، میزان ریزش كاذب كاهش می یابد.
بنابراین, فرمول زیر برای ریزش كاذب، جامعیت و مانعیت ارائه می شود
:ریزش كاذب – تعداد كل مدارك بازیابی شده= مانعیت
ریزش كاذب در بانك های اطلاعاتی
ریزش كاذب در بانك های اطلاعاتی ممكن است به علل زیر اتفاق بیفتد:
۱- اشتباه و خطا در بیان پرسش, كه مهم ترین مرحله است؛ زیرا اگر در این مرحله اشتباه صورت پذیرد, در بقیه مراحل نیز دچار خطا خواهیم شد.
۲- اشتباه در تحلیل پرسش؛
۳- اشتباه در انتخاب فایل و پایگاه اطلاعاتی مناسب؛
۴- اشتباه در تدوین راهبرد كاوش؛
۵- اشتباه در ساختار زبانی و ساختار كلمه ؛
۶- استفاده از زبان كنترل شده؛
۷- استفاده از كلیدواژهٔ كنترل نشده؛
۸- كاوش كلمه ای در كلیه فیلدها، فیلد آزاد، یا متن آزاد ؛
۹- نبودن اصطلاحنامه در پایگاه اطلاعاتی یا ضعیف بودن آن؛
۱۰- بازیابی ناخواستهٔ هم نویسه ها, بویژه در سرنام ها؛ مانند: Aids و AIDS كه اولی به معنی وسایل و ابزار كمكی است و دومی حروف آغازین كلمات Acquired Deficiency Syndrome Immune یا SDI كه هم مختصر Selective Dissemination of Information است و هم مختصر Strategic Defense Initiative.
برای جلوگیری از ریزش كاذب در بانك های اطلاعاتی، استفاده از شیوه های زیر توصیه می شود:
۱- آشنایی كامل با بانك اطلاعاتی مورد نظر، شیوه های كاوش، پوشش موضوعی و امثال آن؛
۲- استفاده از عملگر AND برای اخص كردن مدارك بازیابی شده و افزایش مانعیت؛
۳- استفاده از عملگر NOT برای حذف ركوردهای ناخواسته؛
۴- استفاده از زبان كنترل شده و اصطلاحنامه؛
۵- كاوش كلمهٔ مورد نظر در متن آزاد و بدون استفاده از زبان كنترل شده (در موارد استثنایی).
معمولاً استفاده از زبان كنترل شده باعث رفع بسیاری از ریزش های كاذب می شود. با وجود این، اطلاعات جدید و بسیار جزئی و اخص، كه معمولاً اصطلاحنامه و كنترل واژگان وجود ندارد، اغلب اوقات فقط از طریق كاوش كلمه در متن قابل بازیابی و دستیابی هستند و اگر در چنین مواردی از زبان كنترل شده استفاده كنیم، ریزش كاذب خواهیم داشت.
●نقد مقیاسهای جامعیت و مانعیت
علی رغم كاربرد گسترده جامعیت و مانعیت به عنوان مقیاس اثربخشی بازیابی، به دلیل پاره ای كمبودهای جدی و مهم این مقیاسها مكررا مورد انتقاد واقع می شوند. حتی اگر این مقیاس ها از اعتبار برخوردار باشند، حداقل از نقطه نظر جستجوگران این مقیاس ها ارزیابی ناقص از بازیابی اطلاعات ارائه می كنند. جستجوگران ممكن است جامعیت و مانعیت را به حداكثر برسانند ولی این تنها روش قابل اجرا در ارزیابی یك كاوش موفق نیست. عواملی از قبیل مخارج و هزینه های لازم جهت تكمیل كاوش، مدت زمان صرف شده و سهولت اجرای آن از طریق رابط نظام، ممكن است مهم و موثر باشند. به غیر از نیاز به محیط تجربی خاص اینها واقعیتهایی هستند كه جویندگان اطلاعات با آن درگیر می باشند.یك نظام بازیابی با نسبت های جامعیت و مانعیت موثر و قابل توجه، اگر هزینه های زیاد در بر داشته باشند، طرفداران كمی خواهند داشت. صرف زمان طولانی و لزوم استفاده از میانجی های غیر مفید نیز از عوامل موثر در انتخاب روش تلقی می شود. لنكستر و وارنر گزارش می كنند كه مطالعات بطور مداوم نشان داده اند كه سهولت استفاده و دسترس پذیری از نخستین عوامل موثر در انتخاب منابع اطلاعاتی میباشند.
●ارزیابی پایگاههای اطلاعاتی
ملاحظات مربوط به نظام كاوش، فرآیند جستجو و جستجوگر در عین اهمیت بدیهی آن تنها ملاك های تعیین موفقیت یا شكست جستجوی اطلاعات نیست. خود پایگاه اطلاعاتی، روزآمد بودن آن، پوشش و اعتبار آن نیز برای نتیجه جستجو سرنوشت ساز است.
نظام بازیابی اطلاعات نوعی پیوند حیاتی در یك زنجیره است كه با نیاز اطلاعاتی كاربر شروع و به اطلاعاتی كه نیازش را مرتفع خواهد كرد، ختم می شود. به همین دلیل طراحی نظامهایی كه تا حد امكان به طور موثر عمل می كنند و آموزش كاربران ضروری است.
متاسفانه كیفیت پایگاه اطلاعاتی نمی تواند به عنوان یك امر مسلم در نظر گرفته شود. اطلاعات ذخیره شده به شكل الكترونیكی دقیق تر از سایر اطلاعات نیست. بنابراین این پایگاهها نیز نیاز به ارزیابی دارند.
●معیارهای ارزیابی
تعدادی از نویسندگان معیارهای ارزیابی پایگاههای اطلاعاتی را پیشنهاد كرده اند. گروه كاربران پیوسته كالیفرنیای جنوبی در سال ۱۹۹۰ سیاهه ای از معیارهای ارزیابی به شرح زیر ارائه كرد:
- سازگاری: آیا پایگاه اطلاعاتی در پوشش، روزآمد بودن و ... رعایت سازگاری را می كند؟
- پوشش / دامنه: آیا پوشش و دامنه با اهداف بیان شده پایگاه اطلاعات مطابقت دارد؟
- نسبت خطا / صحت: اطلاعات تا چه میزان از دقت برخوردار است؟
- خروجی: چه قالبی از خروجی قابل دسترس است؟
- آموزش و پشتیبانی مشتری: آیا آموزش اولیه و آموزش مستمر وجود دارد؟
- سهولت استفاده: نرم افزار تا چه حد كاربر پسند است؟
- به هنگام بودن: آیا پایگاه اطلاعاتی به همان سرعتی كه ادعا می كند و به همان میزانی كه داده ها ایجاب می كند روزآمد می شود؟
- مستندسازی: آیا مستندسازی چاپی یا پیوسته به شكل جامع، جاری و با سازماندهی مناسب ارائه می شود؟
- ارزش / هزینه: آیا پایگاه اطلاعاتی ارزش مالی مناسبی از نظر مالی ارائه می دهد.
●●نتیجه گیری
علی رغم تمام ناكامی ها و موانعی كه در بازیابی اطلاعات وجود دارد، اهمیت اقتصادی، سیاسی و اجتماعی یافتن اطلاعات مرتبط در زمان، مكان و برای فرد مورد نظر، ضامن تلاشهای آینده برای توسعه نظامهای بازیابی است. با افزایش حجم اطلاعات اهمیت نظامهای بازیابی كارآمد هنوز هم بیشتر می شود. توجه كنونی به مسایل بازیابی روی وب آخرین جلوه این پدیده است. به منظور توسعه نظامهای بهتر، ایجاد فنون ارزیابی موثر ضروری است.
ربط ممكن است در معنی وسیع آن ”درمورد“ و یا ”مناسب بودن“ معنا شود اما در نهایت مفهوم ربط قوی اما دست نخورده باقی مانده است. مشكل اصلی طبق نظر منتقدان، ذهنی بودن آن است. آنها معتقدند كه ربط بازتابی از نظر مشاهده كننده است زیرا تنها جستجوگر می تواند تعیین كند كه آیا مدرك بازیابی شده مرتبط با نیاز اطلاعاتی او هست یا خیر. از نظر تجربی، قضاوتهای ربط اساسا به مقایسه بین محتوای موضوعی مدرك بازیابی شده و نیاز اولیه ای كه جستجو را به دنبال دارد بستگی دارد. نكته قابل بحث اینكه تصمیم گیری در مورد ربط موضوعی، یا بعبارت دیگر موضوعیت، از طریق متخصصان موضوعی امكان پذیر است.
قضاوت در خلال جستجو درباره میزان ربط، نتایج میانی و در نهایت استفاده از این قضاوتها برای تجدید نظر در راهبرد جستجو اصطلاحا بازخورد ربط نامیده می شود برخی از نظامهای بازیابی اطلاعات به سادگی به جستجوگر برای آغاز بازخورد اتكا نمی كنند. بعنوان مثال خود نظام ممكن است به صورت خودكار در جستجوی یافتن پیشینه های بیشتری باشد كه عبارات نمایه مشترك با مداركی داشته باشد كه توسط كاربر مربوط تشخیص داده شده است.
هیچ نظری موجود نیست:
ارسال یک نظر