پس از دههها تلاش برای فهماندن زبان آدمیزاد به کامپیوترها، سرانجام پژوهشگران گوگل فناوری پیشرفتة تشخیص صدای این شرکت را به نرمافزار جستوجوی این شرکت برای آیفونِ اپل افزودند. انتظار میرود اپل این برنامة رایگان را تا ماه فوریه (بهمن)، از طریق فروشگاه آیتیونز در دسترس کاربران قرار دهد. کاربران این برنامه میتوانند گوشی را نزدیک گوش خود قرار داده و تقریباً هر سؤالی از آن بپرسند؛ مثلاً "نزدیکترین رستوران در این اطراف کجاست؟" یا "ارتفاع کوه اورست چقدر است؟" این صدا به یک فایل دیجیتالی تبدیل و سپس به سرورهای گوگل فرستاده میشود. این سرورها واژههای گفتهشده را شناسایی میکنند و آنها را به موتور جستوجوی گوگل میفرستند. نتایج جستوجو، که با داشتن یک اینترنت بیسیم پرسرعت میتوانند در عرض چند ثانیه نمایش داده شوند، شامل اطلاعات محلی نیز خواهند بود؛ چرا که یکی از ویژگیهای آیفون این است که میتواند موقعیت فعلی خود را شناسایی کند. قابلیت شناسایی تقریباً هر عبارت گفتهشده از سوی شخص، مدتهاست که یکی از اهداف بزرگ پژوهشگران هوش مصنوعی بوده تا بتوانند تعامل میان انسان و ماشین را طبیعیتر نمایند. سیستمهایی که از چنین قابلیتی برخوردارند، بهتازگی توانستهاند محصولات تجاری از ایندست تولید کنند. در حال حاضر هم یاهو و هم مایکروسافت سرویسهای شنیداری برای گوشیهای تلفن همراه عرضه میکنند. سرویس مایکروسافت با نام TellMe اطلاعات خاصی همچون جهات جغرافیایی، نقشه و فیلم را ارائه میدهد. سرویس یاهو با نام oneSearch with Voice با اینکه انعطافپذیرتر است، اما بهنظر نمیرسد بهاندازة سرویسی که گوگل عرضه میکند، دقیق باشد. سیستم گوگل از دو سرویس گفتهشده بهمراتب کاملتر است و میتواند به پرسشهایی که ظاهراً بیمعنی هم هستند، پاسخ بدهد. مدیران گوگل از میزان دقت و صحت نتایج این سیستم صحبتی نمیکنند، ولی میگویند بههرحال بهاندازة کافی دقیق هست و مردم میتوانند بهجای استفاده از آیفون دارای کیبورد و صفحة لمسی، برای دریافت پاسخ، با اطمینان خاطر از این سیستم بهره بگیرند. از این سرویس میتوان برای دریافت توصیههایی راجع به رستورانها و جهات جغرافیایی برای رسیدن به مقصد استفاده کرد. پرسش "بهترین پیتزافروشی در خیابان نئو کجاست؟" فهرستی از سه رستوران در همان نزدیکیها در ایالت سانفرانسیسکو بهدست میدهد که کاربران گوگل بیشترین رضایت را از آنها داشتهاند. این نتایج، شماره تلفن و همچنین جهات جغرافیایی منتهی به این رستورانها را نیز بههمراه دارد. راج ردی (یک پژوهشگر هوش مصنوعی در دانشگاه کارنگی ملون) که یکی از پیشگامان شناسایی صوت نیز هست، میگوید مزیت گوگل در این است که میتواند گسترة وسیعی از دادهها را ذخیره و تحلیل کند. او میگوید: «هر سرویسی که گوگل اکنون معرفی کند، در طی سه یا شش ماه دیگر به صحت و دقت آن افزوده خواهد شد.» او میافزاید: «اما مهم است که بدانیم شناسایی صوت توسط ماشین هرگز به حد کمال نخواهد رسید.» وی ادامه میدهد: «پرسش این است که این میزان از شناسایی تا چه حد میتواند به عملکرد انسانی نزدیک شود؟» این فناوری برای گوگل بسیار حیاتی است و میتواند راه را برای برداشتن گامهای بعدی در جهان تبلیغات هموار کند. برای مثال، مدیران گوگل میگویند میتوانند با ارائة پاسخ به پرسشهای مبتنی بر مکان و تبلیغ کسبوکارهای نزدیک به آن گوشی خاص، مبالغ بیشتری از صاحبان آگهی دریافت کنند؛ اگرچه گوگل هنوز چنین آگهیهایی نمیفروشد. این سرویس همراه با دیگر خدمات گوگل نیز بهطور رایگان عرضه میشود و قرار است این شرکت سرانجام آن را به گوشیهایی بهجز آیفون نیز عرضه کند. وی گوندوترا (مدیر اجرایی پیشین مایکروسافت که اکنون ریاست تجارتهای موبایل گوگل را برعهده دارد) میگوید: «ما اکنون از طریق فناوریهای شنیداری و همچنین شناسایی محل گوشی، توانستهایم به صاحبان آگهی خدمت بزرگی ارائه کنیم.» گوگل تنها شرکتی نیست که بهسوی قابلیتهای پیشرفتة شناسایی صدا گام برمیدارد. فناوری بهاصطلاح پاسخ صوتی، اکنون بهطور معمول در سیستمهای پاسخگویی تلفنها و دیگر سرویسها و محصولات مصرفی مورد استفاده قرار میگیرد. اما اغلب، پیچیدگیهای مربوط به زبانهای مختلف، برای این سیستمها مشکل ایجاد میکنند و معمولاً پاسخهای محدودی به پرسشها میدهند. چندهفته پیش، شرکت ادوبی، فناوری شناسایی صدا که توسط یک مؤسسة بریتانیایی بهنام Autonomy ایجاد شده است را به بسته نرمافزاری Creative Suite افزود و بهاین ترتیب، این نرمافزار میتواند نوشتارهایی با دقت بالا از صوت و تصویر ضبط شده تهیه کند. آقای گوندوترا میگوید گوگل به دو مسئله پرداخته است؛ یکی وارد کردن اطلاعات و دیگری بازیابی آنها با استفاده از وسایل بیسیم دستی. او اظهار میکند: «هدف ما، حل این دو مسئله در کلاس جهانی بود.» قابلیت جستوجوی جدید آیفون نخستین کار گوگل در زمینة صدا نیست. در ماه مارس (اسفند)، این شرکت اعلام کرد که یک سرویس اطلاعاتی تجربی مربوط به جهات جغرافیایی با نام GOOG-۴۱۱ به یک محصول تبدیل شده است. کاربران میتوانند با این سرویس بهدنبال شماره تلفن و نشانی بگردند. این شرکت میگوید برای توسعة سرویس آیفون، از تجربة خود و همچنین اطلاعات جمعآوری شده از طریق GOOG-۴۱۱ استفاده کرده است. این سرویس جدید مثالی است که نشان میدهد گوگل از روشهای مختلف برای ترکیب پژوهشهای بنیادین در علوم کامپیوتر و مهندسی محصولات استفاده میکند. این شرکت بسیاری از بهترین پژوهشگران در زمینة شناسایی صدا در جهان را استخدام کرده و اکنون تیمهایی در اختیار دارد که در نیویورک، لندن و ادارات مرکزی آن در مانتنویوی کالیفرنیا، روی جنبههای گوناگون این مسئله مشغول کار هستند. نخستین ایدههای مربوط به طراحی این سرویس، از سوی یکی از پژوهشگران گوگل در لندن ارائه شد. او برای استفاده از شتابسنج آیفون (وسیلهای که وضعیت نگهداشته شدن گوشی را میسنجد و حس میکند)، روشی را پیدا کرده بود؛ بهاین ترتیب که این نرمافزار میتوانست هنگامی که گوشی بلند میشود و در کنار گوش کاربر قرار میگیرد را "بشنود." پژوهشگران گوگل میگویند یکی دیگر از مزیتهای رقابتی این سیستم، میلیاردها پرسش و درخواستی بود که طی سالیان، گوگل از سوی کاربران خود جمعآوری کرده بود. مایک کوهن (یک پژوهشگر شناسایی صدا که تا پیش از آمدن به گوگل، یکی از پایهگذاران شرکت Nuance Communications بود)، میگوید: «یکی از چیزهایی که تغییر کرده، میزان محاسبات و میزان دادههای قابل دسترسی است.» آقای کوهن میگوید میتوان از درخواستها و پرسشهایی که تا به حال مطرح شدهاند، برای ایجاد یک مدل آماری با استفاده از قرارگیری واژگان در کنار یکدیگر استفاده کرد. این تنها یکی از اجزا و بخشهای سیستم شناسایی صدا است. این سیستم همچنین شامل یک مدل تحلیل صدا و مکانیزمی برای پیوند دادن بخشهای اصلی زبان به واژگان واقعی است. گوگل بهتازگی یک مقالة فنی دربارة مدلهای بزرگ برای ترجمة زبان توسط ماشین منتشر کرده است. پژوهشگران این شرکت در این مقاله میگویند که به سیستم خود، دو میلیون واژه یاد دادهاند. |
۱۰.۰۷.۱۳۸۹
سرویس شنیداری گوگل
اشتراک در:
نظرات پیام (Atom)
هیچ نظری موجود نیست:
ارسال یک نظر