Но сначала — немного фактов.
Сухие цифры
Немного истории распознавания речи
1788 год
Вольфганг фон Кемпелен создаёт в Вене говорящую машину — деревянный ящик, снабженный мехами (меха — не шкуры животных, а растягивающееся изделие для нагнетания воздуха с кожаными и складчатыми стенками) и сложной системой клапанов и штифтов. Машина могла воспроизводить голос ребёнка 3−4 лет и произносить слова, вроде «мама» или «папа».
Томас Эдисон (ну кто же ещё) изобретает аппарат для диктовки, который способен записывать речь. Эта штука была популярная среди врачей и секретарей, которым приходилось вести ежедневные заметки.
1952 год
Компания Bell Labs создаёт машину под названием Одри — она могла распознавать цифры от 0 до 9 с точностью 90%. Одна беда: лучше всего Одри это делала, когда с ней говорил непосредственно её изобретатель. Если же это был кто-то другой, точность распознавания колебалась между 70% и 80%.
1962 год
IBM создаёт компьютер Shoebox, который может распознавать 16 английских слов и цифры от 0 до 9.
1971 год
В университете Карнеги-Меллон создают Harpy — машину, способную понимать более 1000 слов и некоторые фразы.
1986 год
IBM создаёт новый проект — пишущую машину Tangora с голосовым управлением. Она понимала 20 000 слов и несколько предложений, а обучалась для работы с новым пользователем всего за 20 минут. Tangora в комплекте с компьютером IBM могла создавать из голосового потока текстовые документы.
1997 год
Создаётся ПО под названием Dragon NaturallySpeaking — первое решение, решающее ключевую проблему распознавания речи прошлых лет: до этого каждое слово нужно было проговаривать чётко и отдельно от других. Теперь же можно было просто говорить — Dragon был способен понимать 100 слов в минуту. И к слову, его модифицированный собрат используется и по сей день (например, в медицине).
2008 год
Google объединил уже известные и новые технологии с облачными вычислениями для обмена данными и повышения точности алгоритмов машинного обучения. Так появился Google Voice Search для iPhone (потому что на тот момент у Гугла не было собственной операционки под мобильные устройства).
Apple создаёт первого голосового помощника — Siri. И начинается технологическая гонка: Майкрософт запускает Кортану, Амазон — Алексу.
Дальше
В 2017-м Яндекс презентует помощника Алису, а в 2019-м появляются Маруся и Олег. В сентябре 2020-го Сбер презентовал «Салют» — семейство голосовых помощников, которые общаются разными голосами, имеют разный характер и манеру общения.
Почему голосовой поиск всё популярнее
Известное в интернетах исследование показало, что среднестатистический человек печатает около 35 слов в минуту, а говорит за минуту —100−130 слов. В общем-то, это одно из главных преимуществ такого поиска: 43% пользователей предпочитают поиск голосом, потому что так можно быстрее найти нужную информацию.
Он удобнее
Когда ты опаздываешь на самолёт, проще спросить голосом табло вылета рейсов в аэропорту, чем печатать такой запрос, впрыгивая между сотнями людей в вагон метро. Когда ты едешь за рулём, проще попросить голосом набрать чей-то номер телефона, чем параллельно с управлением автомобилем одним глазом искать его в адресной книжке на цифровом дисплее.
А ещё голосовой поиск — это спасение для слабовидящих: им больше не нужно совершать манипуляции по переходу в особую версию браузера или сайта и вынужденно печатать запрос огромными контрастными буквами. Детям, пока не умеющим писать, технология тоже очень нравится :)
Больше адептов — привычнее технология
Чем больше людей использует голосовой поиск, тем «нормальнее» он становится в глазах других пользователей, и они быстрее приобщаются к технологии. Так, например, молодое поколение, выросшее на гаджетах и цифровых всевозможностях, гораздо лояльнее относится к покупкам с помощью голосовых помощников, чем через привычные каналы (боже упаси, если им позвонит оператор подтвердить заказ).
Умные колонки как фактор развития
Да, умные колонки — давно не новинка, но первый бум их продаж случился в 2017-м, когда стали страшно популярными Google Home и Amazon Echo (тогда продажи этих устройств выросли более чем в три раза). Второй бум, естественно, случился в шальном 2020-м из-за коронавируса, карантинов и локдаунов. Людям пришлось проводить дома гораздо больше времени, поэтому они стали искать способы себя развлечь, а колонки — прекрасное решение для этого.
Ну и они ж попросту удобные. Например, утром вы достали последнюю витаминку из банки и сказали колонке: «Закажи ещё такие-то пилюли». Готово — имея данные карты и историю предыдущих покупок, голосовой помощник шустро закажет новую партию, пока вы тихонько попиваете кофе с круассаном, палец о палец не ударив.
Обычно голосовым поиском пользуются в конкретных ситуациях: когда нужно быстро найти, купить или поесть рядом с текущим местоположением пользователя. И малому бизнесу это на руку — при обычном поиске в браузере им было бы сложно конкурировать с крупными компаниями.
Особенности голосового поиска
Поисковые системы запрограммированы отвечать на конкретные вопросы, но не ждите от них сверх-интеллекта: пока они просто выполняют команды, не особенно понимая и вникая, о чём их просят (любители фантастики, хлопайте в ладоши — восстание машин откладывается).
Уже не новинка, но пока не обыденность
Сейчас технология голосового поиска уже не кажется чем-то заоблачным, но при этом не все пользователи её распробовали. Эксперты прогнозируют, что уже не за горами время, когда голосовой поиск будет нормой, как смс-сообщения или покупки в интернете.
Короткие взаимодействия
Голосовой поиск вряд ли подходит для долгих въедливых исследований в интернете. Чаще он используется, когда результат нужен быстро: вспомнить название фильма, подтвердить какой-то факт или найти ресторанчик с едой на вынос поблизости. Неприятная новость: у вас всё меньше возможностей произвести первое впечатление на пользователя.
Лучший результат — первый
Когда вы ищете ответ на свой запрос, браузеры предлагают вам сотни ссылок — выбирайте на свой вкус. Голосовые помощники же не церемонятся — они просто выдают ответ из самого первого источника в списке. Так что, новости ещё хуже: кто на первом месте в выдаче — тот и Бог :) А значит, придется не только озадачить своих SEO-специалистов, но и позаботиться о скорости загрузки сайта, потому что этот фактор ну очень учитывается при ранжировании.
Успех распознавания варьируется
Большинство систем распознавания голоса обучают на среднестатистическом человеке: как правило, это белокожий европеец с четким произношением. Но если обученной модели дать послушать, скажем, индийца, она может «тупить» из-за его акцента. И пока никто не придумал, как победить эту проблему. Другой нюанс — качество самой записи. Но это, похоже, постепенно устраняется технологическим прогрессом.
Пока — пользователи осторожничают
Ребята из Майкрософт провели исследование и выявили: одна из ключевых причин, почему пользователи не торопятся совершать покупки через голосовых помощников — недоверие к технологии.
Больше половины пользователей умных колонок опасаются, что их конфиденциальность может быть под угрозой. Тут и кибератаки, и утечка данных — но создатели устройств стараются, чтобы в облако попадало минимум пользовательских данных (по крайней мере, они так говорят).
Но есть другая проблема — распознавание голоса значительно отличается от других технологий сбора данных. Например, в социальных сетях компании имеют доступ только к тем данным, которыми пользователи согласны делиться (они же каждый раз вас спрашивают, а вы соглашаетесь). А вот устройства с распознаванием голоса слушают всё происходящее рядом нон-стоп в фоновом режиме, чтобы всегда быть готовыми ответить на запрос (любители фантастики здесь могут законно негодовать: машины подслушивают!).
Страх номер два: голосовые помощники заменят людей. Они изначально созданы такими, чтобы имитировать общение с живым человеком. А в сочетании с доступом в интернет они всеведущи — и становятся куда более интересными собеседниками, чем люди из ближайшего окружения (любители фантастики, мы знаем, что вы на это скажете: «Мы предупреждали!»).
Но если отбросить все эти страшные сценарии про восстание машин, то у голосового поиска сплошные плюсы: он быстрее, удобнее и, кажется, современнее. Поэтому самое время оптимизировать свой сайт под его требования. А ещё лучше — обзавестись собственной голосовой поисковой системой. Но обо всём по порядку.
Как оптимизировать сайт под голосовой поиск
Начинать лучше с оптимизации под поисковые алгоритмы в принципе: убирать тяжеловесный код, разгонять скорость загрузки, сжимать изображения и всё вот это вот. Ну, а дальше следует:
Грамотно подобрать ключевые слова
Пользователи пока не научились кратко выражать запросы словами, поэтому и ключевые фразы для голосового поиска будут более «разговорными»: длинными и, иногда, корявыми. Поэтому специалисты советуют подобрать низкочастотные запросы и запросы с «длинным хвостом». Например, вместо «погода в Казани завтра» люди могут спрашивать «Какой прогноз погоды в Казани на завтра».
Чтобы составить семантическое ядро, полезно изучить форумы, блоги схожей с вашей тематики, запросить информацию у колл-центра, службы поддержки или менеджеров. Всё это поможет собрать самые популярные голосовые запросы.
Также в список ключевиков стоит добавлять вопросительные фразы, поскольку при голосовом поиске люди любят задавать вопросы. Такие запросы обычно начинаются со слов:
- какой, какая, какие;
- кто, что;
- как, где, когда;
- может ли;
- бывает ли;
- и так далее.
Создать раздел FAQ
Один из лучших способов появляться в топе выдачи голосового поиска — создать контент, который отвечает на общие вопросы, задаваемые пользователями. Но это только кажется простым. На деле, опять же, придётся читать форумы, отзывы и блоги, разговаривать с техподдержкой и менеджерами и отфильтровывать самые часто задаваемые и наиболее волнующие клиентов вопросы.
Внести данные в карточку компании внутри поисковиков
Мы уже выяснили, что запросы в духе «рядом со мной» сильно помогают локальным компаниям. А по данным Google за 2019-й год число запросов с фразами «открыто» + «сейчас» + «рядом со мной» выросло на 200%, а «…около меня сегодня/сегодня» — на 900%. Так что заполните карточку в «Google Мой Бизнес»: добавьте хорошие фотографии, четкое описание и контакты. Для поиска в Яндексе хорошо бы иметь хорошие отзывы в «Яндекс.Справочнике»: чем их больше, тем лучше ранжирование при локальном поиске. Для Гугла это тоже актуально.
Побороться за первые позиции поиска
Раз уж голосовые помощники выдают как ответ на запрос самое первое, что им попалось в выдаче, стоит туда попасть. Для этого в Google AdWords можно добавить расширенные сниппеты: адрес, метку на карте, рейтинг, фото, быстрые ссылки, режим работы и другое.
Добавить разметку Schema.org
Она помогает поисковикам понимать тип данных на сайте, а на основе этих данных поисковики формируют расширенные сниппеты в поисковой выдаче.
Проверить авторитетность домена сайта
В топ ответов голосовых помощников чаще всего попадают авторитетные сайты. Их доменам не меньше года, на самом сайте есть семантическая разметка, а ещё — большая часть страниц защищена HTTPS-протоколом. Авторитетность можно измерить по 100-балльной шкале с помощью сервисов CheckMoz или СайтРепорт. Нужно хотя бы 40−50 баллов.
Экспертные лонгриды
Если на вашем сайте есть блог, то одним большим постом можно ответить сразу на несколько запросов пользователей. И грех этим не воспользоваться :) Главное здесь — чёткая структура и ключевые фразы в заголовках и подзаголовках.
Каким сайтам точно нужна оптимизация под голосовой поиск
Как реализовать голосовой поиск на сайте или в приложении
Но вот в приложении бренда Zara голосовой поиск сосуществует со всеми другими способами. Не сказать бы, чтобы работает идеально, правда. Мы искали «брюки для женщин», а он нам — «брюки для». Причём, оба раза разные результаты: сначала для женщин, потом уже для детей почему-то. Но ищет же брюки?! И то хлеб :)
- ВладимирCEO & FounderМы используем Flutter в связке с Dart на SingularityApp в мобильной версии. Голосовой ввод в приложении — не исключение. Чтобы реализовать распознавание голоса, мы использовали отдельную библиотеку, которая обращается к нативной технологии распознавания в операционной системе — Android и iOS.
Web Speech API
Разработка Гугла, которая может и распознавать голос (попробуйте демо), и синтезировать речь. Разработчики жалуются, что в браузере Хром решение прекрасно работает, а вот в других — распознавание речи крайне ограниченное. То есть, если пользователь вашего сайта зайдет на него с гугловского браузера и сделает голосовой поисковый запрос, то получит годный результат. А вот если из какого-нибудь Safari — уже нет. Ну такое. Также есть опасения, что документация будет меняться. На пороховой бочке сидеть, кажется, никто не любит. Хотя вот по этой ссылке есть восторженный материал, как прикрутить к сайту эту штуку быстро и бесплатно.
У Гугла есть ещё одна штука — Google Cloud Speech. Его можно развернуть как в облаке с API, так и через решение On-Prem. Последнее позволяет легко интегрировать технологии распознавания речи Google в ваш локальный продукт (скажем, приложение). Плюсы такого подхода: контроль над инфраструктурой, защищенность речевых данных, соответствие требованиям к безопасности хранения данных.
Гугл хвалится, что это — лучшая в своем классе технология машинного обучения, которая дает доступ к моделям распознавания речи следующего поколения: более точным, менее тяжеловесным и требующим меньше вычислительных ресурсов.
Но естественно, такие прелести не бывают совсем бесплатными: если в общей сумме пользователи наговорят в поиске больше 60 минут, будьте любезны платить за каждый новый голосовой запрос 6 центов. Даже если он будет длиться 1 секунду, его округляют до 15.
CMUSphinx
Под названием прячется целый набор инструментов, годных для реализации распознавания голоса. Внутри: Sphinxbase — библиотека поддержки, Sphinx4 — библиотека распознавания на Java, Sphinxtrain-Acoustic — программа для «обучения» моделей и Pocketsphinx — компактная библиотека распознавания на языке С (её используют чаще всего). Pocketsphinx хвалят за быстродействие: он ускоряет распознавание ключевого слова, используя сложные механизмы и словари. Другой плюс — эта библиотека проста в настройке и может работать в нескольких режимах. И да, якобы распознавание может работать в автономном режиме, без подключения к интернету.
Среди минусов — решение Pocketsphinx+Python жрёт достаточно оперативной памяти: вот в этом примере у ребят один процесс потреблял 30−40 Мб, а ограничения на железе кусались (поэтому пришлось срочно переползать на C++). Но вы-то можете нормальное железо сразу прикупить, делов-то :)
Microsoft Azure Speech
Пакет разработки ПО для работы с речью (SDK), который включает в себя целый набор опций, пригодных для разработки приложений с поддержкой речи. Speech SDK доступен на многих языках программирования и на всех платформах.
Преобразовывает речь в текст (то, что надо для голосового поиска), но также способен на синтез речи, создание голосовых помощников, распознавание конкретных ключевых слов (таких как «Окей, Гугл» или «Привет, Siri»), транскрибацию речи в реальном времени (подходит для записи многоязыковых онлайн-встреч) и прочие экзотические вещи с голосом и текстом.
Ребята из Майкрософт худо-бедно перевели свой сайт на русский, за счёт чего мы можем догадаться, что если голосовых запросов (наверное) будет больше 10 000 в месяц, то придётся за каждые дополнительные 1000 поисковых распознаваний платить по 5,5 баксов.
Если вам отечественные решения кажутся ближе и роднее, то вот одно из них. Обещают адаптированные под бизнес речевые технологии на базе машинного обучения (как у помощника Алисы). Типичные задачи: создание собственных голосовых помощников, автоматизация колл-центров, контроль качества сервиса. Про голосовой поиск ни слова, но предполагаем, что супер-пупер технологии Яндекса с ним тоже справятся.
Разработчики обещают, что SpeechKit способен за доли секунды высокоточно распознать речь во всем ее многообразии и стилистике — а значит, понять любой голосовой запрос. Стоимость распознавания аудиозаписи автоматически рассчитывается по длительности трека — есть калькулятор.
Tinkoff Voicekit
Решение позиционируют как «голосовые технологии для автоматизации колл-центра», но в документации круг задач описан шире: это и голосовые помощники, и речевая аналитика, и контроль качества. Вот только про голосовой поиск ни словечка. И кажется, есть ещё одна проблема: на странице с API пишут, что «модели обучались на русскоязычных телефонных разговорах в колл-центрах и умеют распознавать большую часть вокабуляра в этой предметной области». То есть модели заточены именно под разговоры, а не поиск.
Ну, хотя бы цены понятные: