۹.۲۹.۱۳۸۹

آینده موتورهای جست‌وجو کجاست؟

مرحله بعدی در تکامل موتورهای جست‌وجوگر در اینترنت چیست؟
آلتا ویستا Alta Vista نشان داد که فهرست کردن جهان وسیع وب امکان‌پذیر است. موفقیت در گوگل ناشی از توانایی عجیب و غریب این کمپانی برای تمیز نگهداشتن صفحات وب از زوائد است. اما یقینا جایزه واقعی به کسی داده می‌شود که بتواند از وب برای دادن پاسخی دقیق و روشن برای یک سوال مشخص و دقیق استفاده کند. واریک بریل Brill محققی از مایکروسافت درصدد است تا کمپانی او بتواند اولین کمپانی باشد که این کار را انجام می‌دهد.
بریل راه حل ابتدایی برای این مساله را سیستمی که MSR ASK نامیده می‌شود، می‌داند MSR.، مخفف Microsoft Research است.
این برنامه برای اطلاعات روی صفحات وب استفاده می‌شود که به سوالاتی که جواب آنها یک کلمه‌ یا عبارت است - مانند در چه تاریخی مریلین مونرو متولد شد؟ - پاسخ دهد. سیستم MSR ASK دو سوال را به شیوه‌های مختلف تغییر می‌دهد، برای مثال، با شناخت و تشخیص فعل و سپس زمان آن را به صورت‌های مختلف جمله تغییر می‌دهد (مثلا Marilyn Was Monroe born یا Marilyn Monroe Was born و ...). جملاتی که به این ترتیب ساخته می‌شود به موتور جست‌وجو گر داده می‌شود و اسنادی که زنجیره و رشته‌ای از کلمات مشابه و همانند را در بر می‌گیرد، بازیابی می‌شود. این به نظر یک استراتژی بی‌هدف و حساب‌نشده می‌آید، اما همچنان‌که دکتر بریل می‌گوید، اشتباه بودن خیلی ارزان است و جملات نامفهوم چندین چیز مشابه تولید می‌کند.
وقتی نتایج جست‌وجو جمع شد، مجموعه اسناد و پاسخ‌ها برای پاسخ‌های احتمالی اسکن بلافاصله درجه‌بندی می‌شود. در عمل، پاسخ صحیح در یکی از سه جواب اول ظرف کمتر از یک دقیقه ظاهر می‌شود. این ممکن است به نظر خیلی خوب نیاید، اما هوش انسان خود یک فیلتر مجددی ایجاد می‌کند، به همین دلیل پاسخ‌های‌ اشتباه اغلب آشکار و معلوم است. اگر شما بپرسید که چند بار بیون بورگ فاتح ویمبلدون شده است، حتما پاسخ «۱۹۸۰» اشتباه است و «۵» صحیح است. اگر دراین باره هم شک وجود داشت برروی یک پاسخ کلیک کنید که فهرستی از لینک‌های متعدد که در واقع آن پاسخ را تقویت می‌کنند در دسترس شما قرار خواهد گرفت.
سیستم‌« ASK MSR» هنوز یک نمونه اولیه است، اگرچه مایکروسافت تلاش دارد تا آن را بهبود و توسعه بخشیده و تحت نام‌ Answer BoT وارد بازار کند. بدین ترتیب دکتر بریل کار سختی برعهده دارد. یکی از تحقیقاتی که اخیرا او با همکاری‌ Rada Soricut از دانشگاه کالیفرنیا جنوبی انجام داده است، فراتر از ‌«حقیقت‌‌سازی‌‌» beyond the factoid نام دارد. او تلاش‌های خود را برای ساختن سیستمی که قادر باشد به سوالات ۵۰ کلمه‌ای مانند «چه قواعد و قوانینی برای احراز جوایز آکادمی وجود دارد؟» پاسخ گوید را تشریح می‌کند. این بسیار مشکل‌تر از سوالاتی است که پاسخ یک کلمه‌ای دارد، اما دکتر بریل فکر می‌کند، این مساله باید با استفاده از مدلی که «کانال پرسروصدا و شلوغ‌» noisy channel نامیده می‌شود، ممکن و میسر باشد.
چنین مدل‌هایی در حال حاضر درسیستم‌های کنترل املا و غلط املایی به هنگام تایپ و شناخت صدا و سخن استفاده می‌شود. اینها با نمونه‌سازی و طراحی انتقال میان آنچه منظور کاربر است (در کنترل املاء، کلمه‌ای که او دارد تایپ می‌کند) و آنچه او می‌نویسد (کلمه‌ای که او به اشتباه می‌نویسد)، کارمی‌کند. درست مثل یک خط تلفن که صدای فرد را در آن سوی خط مخدوش می‌‌کند، این فرآیند می‌تواند به عنوان یک «کانال شلوغ» در نظر گرفته شود که نیت و قصد کاربران را به چیزهای مختلف تعبیر کرده و انتقال می‌دهد تا جواب و پاسخ دقیق را از میان آن چیزهای شبیه به یکدیگر بتوان پیدا کرد
با تحلیل و بررسی کلمات صحیح و غلط با استفاده از تکنیک‌های آماری، می‌توان پیش‌بینی کرد که این انتقال در موارد کلی‌تر و عمومی‌تر چگونه عمل می‌کند؟
پس سیستمی می‌‌تواند طراحی شود که کمبودها و نقایص این پروسه را جبران کند. وقتی یک کلمه به اشتباه تایپ می‌شود، می‌توان حدس زد که این کلمه در اصل چه بوده که اشتباه تایپ شده است.
سیستم پرسش - پاسخ دکتر بریل، هم شبیه به همان عمل می‌کند. بسیاری از پرسش‌ها و پاسخ‌ها در وب به شکل صفحات «سوالاتی که بی‌درنگ و فوری (FAQ) پرسیده شدند» وجود دارند. دکتر بریل میلیون‌ها از این جفت‌ها را درون سیستم خود گنجانده است تا مدلی را بسازد که با دادن یک سوال می‌تواند ساختارهای مختلفی که پاسخ را می‌سازد، جمع و جور و ارائه کند. این ساختارها به طور معمول سوالات جست‌وجو را تولید کرده و اسناد و پاسخ‌های مشابه را در وب یافته و به عنوان پاسخ‌های احتمالی اسکن نماید.
نمونه‌ای که در حال حاضر ساخته و آزمایش شده است پاسخ‌های مناسب را کمتر از یک دقیقه آماده می‌کند. خیلی فوق‌العاده نیست، اما خیلی هم بد نیست و به تدریج به همان اندازه که وب گسترش پیدا می‌کند، این سیستم هم گسترش پیدا کند. به جای اتکا بر رهیافت هوشمندی مصنوعی و جملات به هم چسبیده شده تا یک معنای مشخص تولید کند تا پاسخ مورد نظر را یافت، استفاده از این سیستم سریع و شلوغ و در هم ریخته کمک به رشد هوشمندی کلی خود وب می‌نماید و جست‌وجوگر را به پاسخ مورد نظر نزدیک‌تر می‌سازد.

هیچ نظری موجود نیست:

http://up.iranblog.com/images/0z5dgraxwa4j49a5ts77.gif http://up.iranblog.com/images/gv83ah5giec9g8jkopmc.gif