مرحله بعدی در تکامل موتورهای جستوجوگر در اینترنت چیست؟
آلتا ویستا Alta Vista نشان داد که فهرست کردن جهان وسیع وب امکانپذیر است. موفقیت در گوگل ناشی از توانایی عجیب و غریب این کمپانی برای تمیز نگهداشتن صفحات وب از زوائد است. اما یقینا جایزه واقعی به کسی داده میشود که بتواند از وب برای دادن پاسخی دقیق و روشن برای یک سوال مشخص و دقیق استفاده کند. واریک بریل Brill محققی از مایکروسافت درصدد است تا کمپانی او بتواند اولین کمپانی باشد که این کار را انجام میدهد.
بریل راه حل ابتدایی برای این مساله را سیستمی که MSR ASK نامیده میشود، میداند MSR.، مخفف Microsoft Research است.
این برنامه برای اطلاعات روی صفحات وب استفاده میشود که به سوالاتی که جواب آنها یک کلمه یا عبارت است - مانند در چه تاریخی مریلین مونرو متولد شد؟ - پاسخ دهد. سیستم MSR ASK دو سوال را به شیوههای مختلف تغییر میدهد، برای مثال، با شناخت و تشخیص فعل و سپس زمان آن را به صورتهای مختلف جمله تغییر میدهد (مثلا Marilyn Was Monroe born یا Marilyn Monroe Was born و ...). جملاتی که به این ترتیب ساخته میشود به موتور جستوجو گر داده میشود و اسنادی که زنجیره و رشتهای از کلمات مشابه و همانند را در بر میگیرد، بازیابی میشود. این به نظر یک استراتژی بیهدف و حسابنشده میآید، اما همچنانکه دکتر بریل میگوید، اشتباه بودن خیلی ارزان است و جملات نامفهوم چندین چیز مشابه تولید میکند.
وقتی نتایج جستوجو جمع شد، مجموعه اسناد و پاسخها برای پاسخهای احتمالی اسکن بلافاصله درجهبندی میشود. در عمل، پاسخ صحیح در یکی از سه جواب اول ظرف کمتر از یک دقیقه ظاهر میشود. این ممکن است به نظر خیلی خوب نیاید، اما هوش انسان خود یک فیلتر مجددی ایجاد میکند، به همین دلیل پاسخهای اشتباه اغلب آشکار و معلوم است. اگر شما بپرسید که چند بار بیون بورگ فاتح ویمبلدون شده است، حتما پاسخ «۱۹۸۰» اشتباه است و «۵» صحیح است. اگر دراین باره هم شک وجود داشت برروی یک پاسخ کلیک کنید که فهرستی از لینکهای متعدد که در واقع آن پاسخ را تقویت میکنند در دسترس شما قرار خواهد گرفت.
سیستم« ASK MSR» هنوز یک نمونه اولیه است، اگرچه مایکروسافت تلاش دارد تا آن را بهبود و توسعه بخشیده و تحت نام Answer BoT وارد بازار کند. بدین ترتیب دکتر بریل کار سختی برعهده دارد. یکی از تحقیقاتی که اخیرا او با همکاری Rada Soricut از دانشگاه کالیفرنیا جنوبی انجام داده است، فراتر از «حقیقتسازی» beyond the factoid نام دارد. او تلاشهای خود را برای ساختن سیستمی که قادر باشد به سوالات ۵۰ کلمهای مانند «چه قواعد و قوانینی برای احراز جوایز آکادمی وجود دارد؟» پاسخ گوید را تشریح میکند. این بسیار مشکلتر از سوالاتی است که پاسخ یک کلمهای دارد، اما دکتر بریل فکر میکند، این مساله باید با استفاده از مدلی که «کانال پرسروصدا و شلوغ» noisy channel نامیده میشود، ممکن و میسر باشد.
چنین مدلهایی در حال حاضر درسیستمهای کنترل املا و غلط املایی به هنگام تایپ و شناخت صدا و سخن استفاده میشود. اینها با نمونهسازی و طراحی انتقال میان آنچه منظور کاربر است (در کنترل املاء، کلمهای که او دارد تایپ میکند) و آنچه او مینویسد (کلمهای که او به اشتباه مینویسد)، کارمیکند. درست مثل یک خط تلفن که صدای فرد را در آن سوی خط مخدوش میکند، این فرآیند میتواند به عنوان یک «کانال شلوغ» در نظر گرفته شود که نیت و قصد کاربران را به چیزهای مختلف تعبیر کرده و انتقال میدهد تا جواب و پاسخ دقیق را از میان آن چیزهای شبیه به یکدیگر بتوان پیدا کرد
با تحلیل و بررسی کلمات صحیح و غلط با استفاده از تکنیکهای آماری، میتوان پیشبینی کرد که این انتقال در موارد کلیتر و عمومیتر چگونه عمل میکند؟
پس سیستمی میتواند طراحی شود که کمبودها و نقایص این پروسه را جبران کند. وقتی یک کلمه به اشتباه تایپ میشود، میتوان حدس زد که این کلمه در اصل چه بوده که اشتباه تایپ شده است.
سیستم پرسش - پاسخ دکتر بریل، هم شبیه به همان عمل میکند. بسیاری از پرسشها و پاسخها در وب به شکل صفحات «سوالاتی که بیدرنگ و فوری (FAQ) پرسیده شدند» وجود دارند. دکتر بریل میلیونها از این جفتها را درون سیستم خود گنجانده است تا مدلی را بسازد که با دادن یک سوال میتواند ساختارهای مختلفی که پاسخ را میسازد، جمع و جور و ارائه کند. این ساختارها به طور معمول سوالات جستوجو را تولید کرده و اسناد و پاسخهای مشابه را در وب یافته و به عنوان پاسخهای احتمالی اسکن نماید.
نمونهای که در حال حاضر ساخته و آزمایش شده است پاسخهای مناسب را کمتر از یک دقیقه آماده میکند. خیلی فوقالعاده نیست، اما خیلی هم بد نیست و به تدریج به همان اندازه که وب گسترش پیدا میکند، این سیستم هم گسترش پیدا کند. به جای اتکا بر رهیافت هوشمندی مصنوعی و جملات به هم چسبیده شده تا یک معنای مشخص تولید کند تا پاسخ مورد نظر را یافت، استفاده از این سیستم سریع و شلوغ و در هم ریخته کمک به رشد هوشمندی کلی خود وب مینماید و جستوجوگر را به پاسخ مورد نظر نزدیکتر میسازد.
آلتا ویستا Alta Vista نشان داد که فهرست کردن جهان وسیع وب امکانپذیر است. موفقیت در گوگل ناشی از توانایی عجیب و غریب این کمپانی برای تمیز نگهداشتن صفحات وب از زوائد است. اما یقینا جایزه واقعی به کسی داده میشود که بتواند از وب برای دادن پاسخی دقیق و روشن برای یک سوال مشخص و دقیق استفاده کند. واریک بریل Brill محققی از مایکروسافت درصدد است تا کمپانی او بتواند اولین کمپانی باشد که این کار را انجام میدهد.
بریل راه حل ابتدایی برای این مساله را سیستمی که MSR ASK نامیده میشود، میداند MSR.، مخفف Microsoft Research است.
این برنامه برای اطلاعات روی صفحات وب استفاده میشود که به سوالاتی که جواب آنها یک کلمه یا عبارت است - مانند در چه تاریخی مریلین مونرو متولد شد؟ - پاسخ دهد. سیستم MSR ASK دو سوال را به شیوههای مختلف تغییر میدهد، برای مثال، با شناخت و تشخیص فعل و سپس زمان آن را به صورتهای مختلف جمله تغییر میدهد (مثلا Marilyn Was Monroe born یا Marilyn Monroe Was born و ...). جملاتی که به این ترتیب ساخته میشود به موتور جستوجو گر داده میشود و اسنادی که زنجیره و رشتهای از کلمات مشابه و همانند را در بر میگیرد، بازیابی میشود. این به نظر یک استراتژی بیهدف و حسابنشده میآید، اما همچنانکه دکتر بریل میگوید، اشتباه بودن خیلی ارزان است و جملات نامفهوم چندین چیز مشابه تولید میکند.
وقتی نتایج جستوجو جمع شد، مجموعه اسناد و پاسخها برای پاسخهای احتمالی اسکن بلافاصله درجهبندی میشود. در عمل، پاسخ صحیح در یکی از سه جواب اول ظرف کمتر از یک دقیقه ظاهر میشود. این ممکن است به نظر خیلی خوب نیاید، اما هوش انسان خود یک فیلتر مجددی ایجاد میکند، به همین دلیل پاسخهای اشتباه اغلب آشکار و معلوم است. اگر شما بپرسید که چند بار بیون بورگ فاتح ویمبلدون شده است، حتما پاسخ «۱۹۸۰» اشتباه است و «۵» صحیح است. اگر دراین باره هم شک وجود داشت برروی یک پاسخ کلیک کنید که فهرستی از لینکهای متعدد که در واقع آن پاسخ را تقویت میکنند در دسترس شما قرار خواهد گرفت.
سیستم« ASK MSR» هنوز یک نمونه اولیه است، اگرچه مایکروسافت تلاش دارد تا آن را بهبود و توسعه بخشیده و تحت نام Answer BoT وارد بازار کند. بدین ترتیب دکتر بریل کار سختی برعهده دارد. یکی از تحقیقاتی که اخیرا او با همکاری Rada Soricut از دانشگاه کالیفرنیا جنوبی انجام داده است، فراتر از «حقیقتسازی» beyond the factoid نام دارد. او تلاشهای خود را برای ساختن سیستمی که قادر باشد به سوالات ۵۰ کلمهای مانند «چه قواعد و قوانینی برای احراز جوایز آکادمی وجود دارد؟» پاسخ گوید را تشریح میکند. این بسیار مشکلتر از سوالاتی است که پاسخ یک کلمهای دارد، اما دکتر بریل فکر میکند، این مساله باید با استفاده از مدلی که «کانال پرسروصدا و شلوغ» noisy channel نامیده میشود، ممکن و میسر باشد.
چنین مدلهایی در حال حاضر درسیستمهای کنترل املا و غلط املایی به هنگام تایپ و شناخت صدا و سخن استفاده میشود. اینها با نمونهسازی و طراحی انتقال میان آنچه منظور کاربر است (در کنترل املاء، کلمهای که او دارد تایپ میکند) و آنچه او مینویسد (کلمهای که او به اشتباه مینویسد)، کارمیکند. درست مثل یک خط تلفن که صدای فرد را در آن سوی خط مخدوش میکند، این فرآیند میتواند به عنوان یک «کانال شلوغ» در نظر گرفته شود که نیت و قصد کاربران را به چیزهای مختلف تعبیر کرده و انتقال میدهد تا جواب و پاسخ دقیق را از میان آن چیزهای شبیه به یکدیگر بتوان پیدا کرد
با تحلیل و بررسی کلمات صحیح و غلط با استفاده از تکنیکهای آماری، میتوان پیشبینی کرد که این انتقال در موارد کلیتر و عمومیتر چگونه عمل میکند؟
پس سیستمی میتواند طراحی شود که کمبودها و نقایص این پروسه را جبران کند. وقتی یک کلمه به اشتباه تایپ میشود، میتوان حدس زد که این کلمه در اصل چه بوده که اشتباه تایپ شده است.
سیستم پرسش - پاسخ دکتر بریل، هم شبیه به همان عمل میکند. بسیاری از پرسشها و پاسخها در وب به شکل صفحات «سوالاتی که بیدرنگ و فوری (FAQ) پرسیده شدند» وجود دارند. دکتر بریل میلیونها از این جفتها را درون سیستم خود گنجانده است تا مدلی را بسازد که با دادن یک سوال میتواند ساختارهای مختلفی که پاسخ را میسازد، جمع و جور و ارائه کند. این ساختارها به طور معمول سوالات جستوجو را تولید کرده و اسناد و پاسخهای مشابه را در وب یافته و به عنوان پاسخهای احتمالی اسکن نماید.
نمونهای که در حال حاضر ساخته و آزمایش شده است پاسخهای مناسب را کمتر از یک دقیقه آماده میکند. خیلی فوقالعاده نیست، اما خیلی هم بد نیست و به تدریج به همان اندازه که وب گسترش پیدا میکند، این سیستم هم گسترش پیدا کند. به جای اتکا بر رهیافت هوشمندی مصنوعی و جملات به هم چسبیده شده تا یک معنای مشخص تولید کند تا پاسخ مورد نظر را یافت، استفاده از این سیستم سریع و شلوغ و در هم ریخته کمک به رشد هوشمندی کلی خود وب مینماید و جستوجوگر را به پاسخ مورد نظر نزدیکتر میسازد.
هیچ نظری موجود نیست:
ارسال یک نظر