سرویس شنیداری گوگل

۱۰.۰۷.۱۳۸۹

سرویس شنیداری گوگل

پس از دهه‌ها تلاش برای فهماندن زبان آدمیزاد به کامپیوترها، سرانجام پژوهشگران گوگل فناوری پیشرفتة تشخیص صدای این شرکت را به نرم‌افزار جست‌وجوی این شرکت برای آی‌فونِ اپل‌ افزودند.
انتظار می‌رود اپل این برنامة رایگان را تا ماه فوریه (بهمن)، از طریق فروشگاه آی‌تیونز در دسترس کاربران قرار دهد. کاربران این برنامه می‌توانند گوشی را نزدیک گوش خود قرار داده و تقریباً هر سؤالی از آن بپرسند؛ مثلاً "نزدیک‌ترین رستوران در این اطراف کجاست؟" یا "ارتفاع کوه اورست چقدر است؟" این صدا به یک فایل دیجیتالی تبدیل و سپس به سرورهای گوگل فرستاده می‌شود. این سرورها واژه‌های گفته‌شده را شناسایی می‌کنند و آنها را به موتور جست‌وجوی گوگل می‌فرستند.
نتایج جست‌وجو، که با داشتن یک اینترنت بی‌سیم پرسرعت می‌توانند در عرض چند ثانیه نمایش داده شوند، شامل اطلاعات محلی نیز خواهند بود؛ چرا که یکی از ویژگی‌های آی‌فون این است که می‌تواند موقعیت فعلی خود را شناسایی کند.
قابلیت شناسایی تقریباً هر عبارت گفته‌شده از سوی شخص، مدت‌هاست که یکی از اهداف بزرگ پژوهشگران هوش مصنوعی بوده تا بتوانند تعامل میان انسان و ماشین را طبیعی‌تر نمایند. سیستم‌هایی که از چنین قابلیتی برخوردارند، به‌تازگی توانسته‌اند محصولات تجاری از این‌دست تولید کنند.
در حال حاضر هم یاهو و هم مایکروسافت سرویس‌های شنیداری برای گوشی‌های تلفن همراه عرضه می‌کنند. سرویس مایکروسافت با نام TellMe اطلاعات خاصی همچون جهات جغرافیایی، نقشه‌ و فیلم را ارائه می‌دهد. سرویس یاهو با نام oneSearch with Voice با این‌که انعطاف‌پذیرتر است، اما به‌نظر نمی‌رسد به‌اندازة سرویسی که گوگل عرضه می‌کند، دقیق باشد.
سیستم گوگل از دو سرویس گفته‌شده به‌مراتب کامل‌تر است و می‌تواند به پرسش‌هایی که ظاهراً بی‌معنی هم هستند، پاسخ بدهد. مدیران گوگل از میزان دقت و صحت نتایج این سیستم صحبتی نمی‌کنند، ولی می‌گویند به‌هرحال به‌اندازة کافی دقیق هست و مردم می‌توانند به‌جای استفاده از آی‌فون دارای کی‌بورد و صفحة لمسی، برای دریافت پاسخ، با اطمینان خاطر از این سیستم بهره بگیرند.
از این سرویس می‌توان برای دریافت توصیه‌هایی راجع به رستوران‌ها و جهات جغرافیایی برای رسیدن به مقصد استفاده کرد. پرسش "بهترین پیتزافروشی در خیابان نئو کجاست؟" فهرستی از سه رستوران در همان نزدیکی‌ها در ایالت سان‌فرانسیسکو به‌دست می‌دهد که کاربران گوگل بیشترین رضایت را از آنها داشته‌اند. این نتایج، شماره تلفن و همچنین جهات جغرافیایی منتهی به این رستوران‌ها را نیز به‌همراه دارد.
راج ردی (یک پژوهشگر هوش مصنوعی در دانشگاه کارنگی ملون) که یکی از پیشگامان شناسایی صوت نیز هست، می‌گوید مزیت گوگل در این است که می‌تواند گسترة وسیعی از داده‌ها را ذخیره و تحلیل کند. او می‌گوید: «هر سرویسی که گوگل اکنون معرفی کند، در طی سه یا شش ماه دیگر به صحت و دقت آن افزوده خواهد شد.» او می‌افزاید: «اما مهم است که بدانیم شناسایی صوت توسط ماشین هرگز به حد کمال نخواهد رسید.» وی ادامه می‌دهد: «پرسش این است که این میزان از شناسایی تا چه حد می‌تواند به عملکرد انسانی نزدیک شود؟»
این فناوری برای گوگل بسیار حیاتی است و می‌تواند راه را برای برداشتن گام‌های بعدی در جهان تبلیغات هموار کند. برای مثال، مدیران گوگل می‌گویند می‌توانند با ارائة پاسخ به پرسش‌های مبتنی بر مکان و تبلیغ کسب‌وکارهای نزدیک به آن گوشی خاص، مبالغ بیشتری از صاحبان آگهی دریافت کنند؛ اگرچه گوگل هنوز چنین آگهی‌هایی نمی‌فروشد.
این سرویس همراه با دیگر خدمات گوگل نیز به‌طور رایگان عرضه می‌شود و قرار است این شرکت سرانجام آن را به گوشی‌هایی به‌جز آی‌فون نیز عرضه کند. وی گوندوترا (مدیر اجرایی پیشین مایکروسافت که اکنون ریاست تجارت‌های موبایل گوگل را برعهده دارد) می‌گوید: «ما اکنون از طریق فناوری‌های شنیداری و همچنین شناسایی محل گوشی، توانسته‌ایم به صاحبان آگهی خدمت بزرگی ارائه کنیم.»
گوگل تنها شرکتی نیست که به‌سوی قابلیت‌های پیشرفتة شناسایی صدا گام برمی‌دارد. فناوری به‌اصطلاح پاسخ صوتی، اکنون به‌طور معمول در سیستم‌های پاسخ‌گویی تلفن‌ها و دیگر سرویس‌ها و محصولات مصرفی مورد استفاده قرار می‌گیرد. اما اغلب، پیچیدگی‌های مربوط به زبان‌های مختلف، برای این سیستم‌ها مشکل ایجاد می‌کنند و معمولاً پاسخ‌های محدودی به پرسش‌ها می‌دهند.
چندهفته پیش، شرکت ادوبی، فناوری شناسایی صدا که توسط یک مؤسسة بریتانیایی به‌نام Autonomy ایجاد شده است را به بسته نرم‌افزاری Creative Suite افزود و به‌این ترتیب، این نرم‌افزار می‌تواند نوشتارهایی با دقت بالا از صوت و تصویر ضبط شده تهیه کند.
آقای گوندوترا می‌گوید گوگل به دو مسئله پرداخته است؛ یکی وارد کردن اطلاعات و دیگری بازیابی آنها با استفاده از وسایل بی‌سیم دستی. او اظهار می‌کند: «هدف ما، حل این دو مسئله در کلاس جهانی بود.»
قابلیت جست‌وجوی جدید آی‌فون نخستین کار گوگل در زمینة صدا نیست. در ماه مارس (اسفند)، این شرکت اعلام کرد که یک سرویس اطلاعاتی تجربی مربوط به جهات جغرافیایی با نام GOOG-۴۱۱ به یک محصول تبدیل شده است. کاربران می‌توانند با این سرویس به‌دنبال شماره تلفن و نشانی بگردند. این شرکت می‌گوید برای توسعة سرویس آی‌فون، از تجربة خود و هم‌چنین اطلاعات جمع‌آوری شده از طریق GOOG-۴۱۱ استفاده کرده است.
این سرویس جدید مثالی است که نشان می‌دهد گوگل از روش‌های مختلف برای ترکیب پژوهش‌های بنیادین در علوم کامپیوتر و مهندسی محصولات استفاده می‌کند. این شرکت بسیاری از بهترین پژوهشگران در زمینة شناسایی صدا در جهان را استخدام کرده و اکنون تیم‌هایی در اختیار دارد که در نیویورک، لندن و ادارات مرکزی آن در مانتن‌ویوی کالیفرنیا، روی جنبه‌های گوناگون این مسئله مشغول کار هستند.
نخستین ایده‌های مربوط به طراحی این سرویس، از سوی یکی از پژوهشگران گوگل در لندن ارائه شد. او برای استفاده از شتاب‌سنج آی‌فون (وسیله‌ای که وضعیت نگه‌داشته‌ شدن گوشی را می‌سنجد و حس می‌کند)، روشی را پیدا کرده بود؛ به‌این ترتیب که این نرم‌افزار می‌توانست هنگامی که گوشی بلند می‌شود و در کنار گوش کاربر قرار می‌گیرد را "بشنود."
پژوهشگران گوگل می‌گویند یکی دیگر از مزیت‌های رقابتی این سیستم، میلیاردها پرسش و درخواستی بود که طی سالیان، گوگل از سوی کاربران خود جمع‌آوری کرده بود. مایک کوهن (یک پژوهشگر شناسایی صدا که تا پیش از آمدن به گوگل، یکی از پایه‌گذاران شرکت Nuance Communications بود)، می‌گوید: «یکی از چیزهایی که تغییر کرده، میزان محاسبات و میزان داده‌های قابل دسترسی است.»
آقای کوهن می‌گوید می‌توان از درخواست‌ها و پرسش‌هایی که تا به حال مطرح شده‌اند، برای ایجاد یک مدل آماری با استفاده از قرارگیری واژگان در کنار یکدیگر استفاده کرد. این تنها یکی از اجزا و بخش‌های سیستم شناسایی صدا است. این سیستم همچنین شامل یک مدل تحلیل صدا و مکانیزمی برای پیوند دادن بخش‌های اصلی زبان به واژگان واقعی است.
گوگل به‌تازگی یک مقالة فنی دربارة‌ مدل‌های بزرگ برای ترجمة زبان توسط ماشین منتشر کرده است. پژوهشگران این شرکت در این مقاله می‌گویند که به سیستم خود، دو میلیون واژه یاد داده‌اند.