Голосовой поиск: как он работает и когда заменит привычные запросы

Всё о голосовом поиске

Наступит ли эра, когда мы перестанем печатать поисковые запросы?

Мы уже заглянули в историю поиска в интернете в принципе и разобрали по косточкам визуальный поиск. Сегодня — очередь голосового: рассказываем, когда он появился, чем так хорош, какие есть нюансы и сложности, насколько популярен у пользователей, как оптимизировать свой сайт под него и как реализовать такой поиск в своём проекте. Краткий обзор API-решений прилагается.

Но сначала — немного фактов.

Сухие цифры

Если сами вы пока редко пользуетесь возможностями голосового поиска, то у нас плохие новости — вы в меньшинстве. А если вы активно задаёте вопросы голосовым помощникам, браузерам или сайтам — поздравляем, вы на волне :)

65%

пользователей говорят, что не хотели бы вернуться к жизни, где нет голосовых помощников

40%

взрослого населения США использует голосовой поиск хотя бы раз в день

72%

пользователей ищут информацию через голосовых помощников (согласно отчёту Майкрософт)

25%

пользователей совершают покупки через голосовых помощников (согласно отчёту Майкрософт)

Статистика и прогноз использования голосового поиска в мире на 2019−2023 годы (источник)

31%

пользователей прибегает к голосовому поиску раз в неделю

20%

запросов в Гугл — голосовые

на 8%

снижается риск перехода к конкурентам, если сайт оптимизирован под голосовой поиск

400+

миллионов устройств уже оснащены голосовым помощником от Google

Немного истории распознавания речи

Если вам кажется, что голосовой ввод — разработка последних десятилетий, то удивим: история его гораздо длиннее.

1788 год
Вольфганг фон Кемпелен создаёт в Вене говорящую машину — деревянный ящик, снабженный мехами (меха — не шкуры животных, а растягивающееся изделие для нагнетания воздуха с кожаными и складчатыми стенками) и сложной системой клапанов и штифтов. Машина могла воспроизводить голос ребёнка 3−4 лет и произносить слова, вроде «мама» или «папа».

Как выглядел и был устроен аппарат Кемпелена (источник)

1879 год
Томас Эдисон (ну кто же ещё) изобретает аппарат для диктовки, который способен записывать речь. Эта штука была популярная среди врачей и секретарей, которым приходилось вести ежедневные заметки.

1952 год
Компания Bell Labs создаёт машину под названием Одри — она могла распознавать цифры от 0 до 9 с точностью 90%. Одна беда: лучше всего Одри это делала, когда с ней говорил непосредственно её изобретатель. Если же это был кто-то другой, точность распознавания колебалась между 70% и 80%.

1962 год
IBM создаёт компьютер Shoebox, который может распознавать 16 английских слов и цифры от 0 до 9.

1971 год
В университете Карнеги-Меллон создают Harpy — машину, способную понимать более 1000 слов и некоторые фразы.

1986 год
IBM создаёт новый проект — пишущую машину Tangora с голосовым управлением. Она понимала 20 000 слов и несколько предложений, а обучалась для работы с новым пользователем всего за 20 минут. Tangora в комплекте с компьютером IBM могла создавать из голосового потока текстовые документы.

1997 год
Создаётся ПО под названием Dragon NaturallySpeaking — первое решение, решающее ключевую проблему распознавания речи прошлых лет: до этого каждое слово нужно было проговаривать чётко и отдельно от других. Теперь же можно было просто говорить — Dragon был способен понимать 100 слов в минуту. И к слову, его модифицированный собрат используется и по сей день (например, в медицине).

2008 год
Google объединил уже известные и новые технологии с облачными вычислениями для обмена данными и повышения точности алгоритмов машинного обучения. Так появился Google Voice Search для iPhone (потому что на тот момент у Гугла не было собственной операционки под мобильные устройства).

Как сейчас работают алгоритмы обработки естественного языка Google с помощью Cloud Natural Language API (источник)

2011 год
Apple создаёт первого голосового помощника — Siri. И начинается технологическая гонка: Майкрософт запускает Кортану, Амазон — Алексу.

Дальше
В 2017-м Яндекс презентует помощника Алису, а в 2019-м появляются Маруся и Олег. В сентябре 2020-го Сбер презентовал «Салют» — семейство голосовых помощников, которые общаются разными голосами, имеют разный характер и манеру общения.

Почему голосовой поиск всё популярнее

Он быстрее
Известное в интернетах исследование показало, что среднестатистический человек печатает около 35 слов в минуту, а говорит за минуту —100−130 слов. В общем-то, это одно из главных преимуществ такого поиска: 43% пользователей предпочитают поиск голосом, потому что так можно быстрее найти нужную информацию.

Он удобнее
Когда ты опаздываешь на самолёт, проще спросить голосом табло вылета рейсов в аэропорту, чем печатать такой запрос, впрыгивая между сотнями людей в вагон метро. Когда ты едешь за рулём, проще попросить голосом набрать чей-то номер телефона, чем параллельно с управлением автомобилем одним глазом искать его в адресной книжке на цифровом дисплее.

А ещё голосовой поиск — это спасение для слабовидящих: им больше не нужно совершать манипуляции по переходу в особую версию браузера или сайта и вынужденно печатать запрос огромными контрастными буквами. Детям, пока не умеющим писать, технология тоже очень нравится :)

Больше адептов — привычнее технология
Чем больше людей использует голосовой поиск, тем «нормальнее» он становится в глазах других пользователей, и они быстрее приобщаются к технологии. Так, например, молодое поколение, выросшее на гаджетах и цифровых всевозможностях, гораздо лояльнее относится к покупкам с помощью голосовых помощников, чем через привычные каналы (боже упаси, если им позвонит оператор подтвердить заказ).

Умные колонки как фактор развития
Да, умные колонки — давно не новинка, но первый бум их продаж случился в 2017-м, когда стали страшно популярными Google Home и Amazon Echo (тогда продажи этих устройств выросли более чем в три раза). Второй бум, естественно, случился в шальном 2020-м из-за коронавируса, карантинов и локдаунов. Людям пришлось проводить дома гораздо больше времени, поэтому они стали искать способы себя развлечь, а колонки — прекрасное решение для этого.

Ну и они ж попросту удобные. Например, утром вы достали последнюю витаминку из банки и сказали колонке: «Закажи ещё такие-то пилюли». Готово — имея данные карты и историю предыдущих покупок, голосовой помощник шустро закажет новую партию, пока вы тихонько попиваете кофе с круассаном, палец о палец не ударив.

Объем мирового рынка умных колонок по итогам 2020 года составил 154 млн единиц — это на 58% больше, чем в 2019-м. А общее количество таких устройств по всему миру достигло 339 млн штук (в 2019 году было 138 млн).

Больше шансов для малого бизнеса
Обычно голосовым поиском пользуются в конкретных ситуациях: когда нужно быстро найти, купить или поесть рядом с текущим местоположением пользователя. И малому бизнесу это на руку — при обычном поиске в браузере им было бы сложно конкурировать с крупными компаниями.

Особенности голосового поиска

Отвечает на вопросы, не понимая
Поисковые системы запрограммированы отвечать на конкретные вопросы, но не ждите от них сверх-интеллекта: пока они просто выполняют команды, не особенно понимая и вникая, о чём их просят (любители фантастики, хлопайте в ладоши — восстание машин откладывается).

Уже не новинка, но пока не обыденность
Сейчас технология голосового поиска уже не кажется чем-то заоблачным, но при этом не все пользователи её распробовали. Эксперты прогнозируют, что уже не за горами время, когда голосовой поиск будет нормой, как смс-сообщения или покупки в интернете.

Короткие взаимодействия
Голосовой поиск вряд ли подходит для долгих въедливых исследований в интернете. Чаще он используется, когда результат нужен быстро: вспомнить название фильма, подтвердить какой-то факт или найти ресторанчик с едой на вынос поблизости. Неприятная новость: у вас всё меньше возможностей произвести первое впечатление на пользователя.

Лучший результат — первый
Когда вы ищете ответ на свой запрос, браузеры предлагают вам сотни ссылок — выбирайте на свой вкус. Голосовые помощники же не церемонятся — они просто выдают ответ из самого первого источника в списке. Так что, новости ещё хуже: кто на первом месте в выдаче — тот и Бог :) А значит, придется не только озадачить своих SEO-специалистов, но и позаботиться о скорости загрузки сайта, потому что этот фактор ну очень учитывается при ранжировании.

Успех распознавания варьируется
Большинство систем распознавания голоса обучают на среднестатистическом человеке: как правило, это белокожий европеец с четким произношением. Но если обученной модели дать послушать, скажем, индийца, она может «тупить» из-за его акцента. И пока никто не придумал, как победить эту проблему. Другой нюанс — качество самой записи. Но это, похоже, постепенно устраняется технологическим прогрессом.

Пока — пользователи осторожничают
Ребята из Майкрософт провели исследование и выявили: одна из ключевых причин, почему пользователи не торопятся совершать покупки через голосовых помощников — недоверие к технологии.

Больше половины пользователей умных колонок опасаются, что их конфиденциальность может быть под угрозой. Тут и кибератаки, и утечка данных — но создатели устройств стараются, чтобы в облако попадало минимум пользовательских данных (по крайней мере, они так говорят).

Но есть другая проблема — распознавание голоса значительно отличается от других технологий сбора данных. Например, в социальных сетях компании имеют доступ только к тем данным, которыми пользователи согласны делиться (они же каждый раз вас спрашивают, а вы соглашаетесь). А вот устройства с распознаванием голоса слушают всё происходящее рядом нон-стоп в фоновом режиме, чтобы всегда быть готовыми ответить на запрос (любители фантастики здесь могут законно негодовать: машины подслушивают!).

Страх номер два: голосовые помощники заменят людей. Они изначально созданы такими, чтобы имитировать общение с живым человеком. А в сочетании с доступом в интернет они всеведущи — и становятся куда более интересными собеседниками, чем люди из ближайшего окружения (любители фантастики, мы знаем, что вы на это скажете: «Мы предупреждали!»).

Но если отбросить все эти страшные сценарии про восстание машин, то у голосового поиска сплошные плюсы: он быстрее, удобнее и, кажется, современнее. Поэтому самое время оптимизировать свой сайт под его требования. А ещё лучше — обзавестись собственной голосовой поисковой системой. Но обо всём по порядку.

Как оптимизировать сайт под голосовой поиск

Начинать лучше с оптимизации под поисковые алгоритмы в принципе: убирать тяжеловесный код, разгонять скорость загрузки, сжимать изображения и всё вот это вот. Ну, а дальше следует:

Грамотно подобрать ключевые слова
Пользователи пока не научились кратко выражать запросы словами, поэтому и ключевые фразы для голосового поиска будут более «разговорными»: длинными и, иногда, корявыми. Поэтому специалисты советуют подобрать низкочастотные запросы и запросы с «длинным хвостом». Например, вместо «погода в Казани завтра» люди могут спрашивать «Какой прогноз погоды в Казани на завтра».

Чтобы составить семантическое ядро, полезно изучить форумы, блоги схожей с вашей тематики, запросить информацию у колл-центра, службы поддержки или менеджеров. Всё это поможет собрать самые популярные голосовые запросы.

Также в список ключевиков стоит добавлять вопросительные фразы, поскольку при голосовом поиске люди любят задавать вопросы. Такие запросы обычно начинаются со слов:

какой, какая, какие;
кто, что;
как, где, когда;
может ли;
бывает ли;
и так далее.

Например, чтобы узнать больше о Билле Гейтсе ~~и рептилоидах~~ в поисковике вы бы просто набрали «Билл Гейтс». Но голосом бы вы спросили что-то вроде: «Кто такой Билл Гейтс?» или «Состояние Билла Гейтса в 2021 году?» или «Когда Билл Гейтс стал успешным айтишником?». Также в запросах голосовому поиску часто фигурируют слова, вроде «лучший», «самый дешевый» и подобные.

Создать раздел FAQ
Один из лучших способов появляться в топе выдачи голосового поиска — создать контент, который отвечает на общие вопросы, задаваемые пользователями. Но это только кажется простым. На деле, опять же, придётся читать форумы, отзывы и блоги, разговаривать с техподдержкой и менеджерами и отфильтровывать самые часто задаваемые и наиболее волнующие клиентов вопросы.

Внести данные в карточку компании внутри поисковиков
Мы уже выяснили, что запросы в духе «рядом со мной» сильно помогают локальным компаниям. А по данным Google за 2019-й год число запросов с фразами «открыто» + «сейчас» + «рядом со мной» выросло на 200%, а «…около меня сегодня/сегодня» — на 900%. Так что заполните карточку в «Google Мой Бизнес»: добавьте хорошие фотографии, четкое описание и контакты. Для поиска в Яндексе хорошо бы иметь хорошие отзывы в «Яндекс.Справочнике»: чем их больше, тем лучше ранжирование при локальном поиске. Для Гугла это тоже актуально.

Побороться за первые позиции поиска
Раз уж голосовые помощники выдают как ответ на запрос самое первое, что им попалось в выдаче, стоит туда попасть. Для этого в Google AdWords можно добавить расширенные сниппеты: адрес, метку на карте, рейтинг, фото, быстрые ссылки, режим работы и другое.

Добавить разметку Schema.org
Она помогает поисковикам понимать тип данных на сайте, а на основе этих данных поисковики формируют расширенные сниппеты в поисковой выдаче.

Проверить авторитетность домена сайта
В топ ответов голосовых помощников чаще всего попадают авторитетные сайты. Их доменам не меньше года, на самом сайте есть семантическая разметка, а ещё — большая часть страниц защищена HTTPS-протоколом. Авторитетность можно измерить по 100-балльной шкале с помощью сервисов CheckMoz или СайтРепорт. Нужно хотя бы 40−50 баллов.

Экспертные лонгриды
Если на вашем сайте есть блог, то одним большим постом можно ответить сразу на несколько запросов пользователей. И грех этим не воспользоваться :) Главное здесь — чёткая структура и ключевые фразы в заголовках и подзаголовках.

Каким сайтам точно нужна оптимизация под голосовой поиск

Если ваш проект входит в категории ниже, оптимизировать сайт стоит как можно скорее:

E-commerce: голосовые запросы приводят конверсионный трафик.

Сайты с контентом: блоги, новости, обзоры, агрегаторы: такие запросы тоже приведут конверсионный трафик.

Сегмент доставки и транспорта — обычно здесь указываются регионы и адреса доставки, чтобы отображаться в выдаче по локальному запросу

Локальный малый и средний бизнес: за счёт голосового поиска можно вывозить конкуренцию с гигантами через локальный поиск в духе «здесь», «сейчас», «рядом со мной». Актуально для почти любой сферы — будь то салон красоты, финансы, юристы, кофейни или автосервисы.

Как реализовать голосовой поиск на сайте или в приложении

Мы тут, как обычно, заглянули в пару приложений, чтобы посмотреть, как работает голосовой поиск и есть ли он там вообще. Маркетплейсы эту историю пока игнорируют — у большинства только текстовый поиск, иногда встречается визуальный или по штрих-коду. Ждите апгрейдов.

Но вот в приложении бренда Zara голосовой поиск сосуществует со всеми другими способами. Не сказать бы, чтобы работает идеально, правда. Мы искали «брюки для женщин», а он нам — «брюки для». Причём, оба раза разные результаты: сначала для женщин, потом уже для детей почему-то. Но ищет же брюки?! И то хлеб :)

В приложении супермаркета «Лента» голосовой поиск творит настоящую магию: и сырок Б. Ю. Александрова тебе найдёт, и капсулы «Тайд» для стирки.

Ещё мы попробовали протестировать голосовой поиск не в ритейле, а в сервисах. Яндекс Go, например, отлично справляется с поиском улицы голосом:

Владимир
CEO & Founder
Мы используем Flutter в связке с Dart на SingularityApp в мобильной версии. Голосовой ввод в приложении — не исключение. Чтобы реализовать распознавание голоса, мы использовали отдельную библиотеку, которая обращается к нативной технологии распознавания в операционной системе — Android и iOS.

Если хотите внедрить голосовой поиск на сайте, то самое очевидное решение — воспользоваться API или библиотекой для распознавания речи в текст. Вариантов — масса (но это не значит, что любой из них вам подойдёт):

Web Speech API
Разработка Гугла, которая может и распознавать голос (попробуйте демо), и синтезировать речь. Разработчики жалуются, что в браузере Хром решение прекрасно работает, а вот в других — распознавание речи крайне ограниченное. То есть, если пользователь вашего сайта зайдет на него с гугловского браузера и сделает голосовой поисковый запрос, то получит годный результат. А вот если из какого-нибудь Safari — уже нет. Ну такое. Также есть опасения, что документация будет меняться. На пороховой бочке сидеть, кажется, никто не любит. Хотя вот по этой ссылке есть восторженный материал, как прикрутить к сайту эту штуку быстро и бесплатно.

У Гугла есть ещё одна штука — Google Cloud Speech. Его можно развернуть как в облаке с API, так и через решение On-Prem. Последнее позволяет легко интегрировать технологии распознавания речи Google в ваш локальный продукт (скажем, приложение). Плюсы такого подхода: контроль над инфраструктурой, защищенность речевых данных, соответствие требованиям к безопасности хранения данных.

Гугл хвалится, что это — лучшая в своем классе технология машинного обучения, которая дает доступ к моделям распознавания речи следующего поколения: более точным, менее тяжеловесным и требующим меньше вычислительных ресурсов.

Но естественно, такие прелести не бывают совсем бесплатными: если в общей сумме пользователи наговорят в поиске больше 60 минут, будьте любезны платить за каждый новый голосовой запрос 6 центов. Даже если он будет длиться 1 секунду, его округляют до 15.

CMUSphinx
Под названием прячется целый набор инструментов, годных для реализации распознавания голоса. Внутри: Sphinxbase — библиотека поддержки, Sphinx4 — библиотека распознавания на Java, Sphinxtrain-Acoustic — программа для «обучения» моделей и Pocketsphinx — компактная библиотека распознавания на языке С (её используют чаще всего). Pocketsphinx хвалят за быстродействие: он ускоряет распознавание ключевого слова, используя сложные механизмы и словари. Другой плюс — эта библиотека проста в настройке и может работать в нескольких режимах. И да, якобы распознавание может работать в автономном режиме, без подключения к интернету.

Среди минусов — решение Pocketsphinx+Python жрёт достаточно оперативной памяти: вот в этом примере у ребят один процесс потреблял 30−40 Мб, а ограничения на железе кусались (поэтому пришлось срочно переползать на C++). Но вы-то можете нормальное железо сразу прикупить, делов-то :)

Microsoft Azure Speech
Пакет разработки ПО для работы с речью (SDK), который включает в себя целый набор опций, пригодных для разработки приложений с поддержкой речи. Speech SDK доступен на многих языках программирования и на всех платформах.

Преобразовывает речь в текст (то, что надо для голосового поиска), но также способен на синтез речи, создание голосовых помощников, распознавание конкретных ключевых слов (таких как «Окей, Гугл» или «Привет, Siri»), транскрибацию речи в реальном времени (подходит для записи многоязыковых онлайн-встреч) и прочие экзотические вещи с голосом и текстом.

Ребята из Майкрософт худо-бедно перевели свой сайт на русский, за счёт чего мы можем догадаться, что если голосовых запросов (наверное) будет больше 10 000 в месяц, то придётся за каждые дополнительные 1000 поисковых распознаваний платить по 5,5 баксов.

Цены на распознавание речи Microsoft Azure

Yandex Speech Kit
Если вам отечественные решения кажутся ближе и роднее, то вот одно из них. Обещают адаптированные под бизнес речевые технологии на базе машинного обучения (как у помощника Алисы). Типичные задачи: создание собственных голосовых помощников, автоматизация колл-центров, контроль качества сервиса. Про голосовой поиск ни слова, но предполагаем, что супер-пупер технологии Яндекса с ним тоже справятся.

Разработчики обещают, что SpeechKit способен за доли секунды высокоточно распознать речь во всем ее многообразии и стилистике — а значит, понять любой голосовой запрос. Стоимость распознавания аудиозаписи автоматически рассчитывается по длительности трека — есть калькулятор.

Цена на распознавание 15-секундной речи в сервисе Яндекса

Чем радует Яндекс — заботливо описанной справочной информацией (как и в других его сервисах). Но есть мнение, что документация по API тяжеловата для восприятия (мир слухами полнится, вы ж знаете).

Tinkoff Voicekit
Решение позиционируют как «голосовые технологии для автоматизации колл-центра», но в документации круг задач описан шире: это и голосовые помощники, и речевая аналитика, и контроль качества. Вот только про голосовой поиск ни словечка. И кажется, есть ещё одна проблема: на странице с API пишут, что «модели обучались на русскоязычных телефонных разговорах в колл-центрах и умеют распознавать большую часть вокабуляра в этой предметной области». То есть модели заточены именно под разговоры, а не поиск.

Ну, хотя бы цены понятные:

Прикольно, что работу анализатора речи можно затестить прямо в телеграм-боте. Мы попробовали, получается забавно. Но «брюки для женщин», которые мы искали в Zara, распознаются чётенько :)

Первой фразой было «Я говорю VoiceKitBot текст». Второй — «Давай попробуем ещё раз, бот». Ну хоть брюки ок :)

Не понравились эти решения? Можете протестировать Houndify от SoundHound или Wit.ai.

Итого

Если вы избегали голосового поиска — попробуйте, это действительно прикольно. А если давно пользуетесь — респект, идёте в ногу со временем. Вот только е-коммерс пока отстаёт: редкий сайт или приложение предлагают такой функционал, хотя он удобный и шустрый. Поэтому мораль простая: добавляйте фичу на свой сайт, чтобы и внимание молодой аудитории привлечь, и конкурентов оставить позади.