Рассказываем о технологии, которая вскоре может потеснить голосовой и текстовый поиск: как работает, кто уже её использует и как применять в бизнесе. Краткий обзор софта прилагается
Быстрее голоса и текста: как устроен визуальный поиск
Сибирикс

Быстрее голоса и текста: как устроен визуальный поиск

Рассказываем о технологии, которая вскоре может потеснить голосовой и текстовый поиск: как работает, кто уже её использует и как применять в бизнесе. Краткий обзор софта прилагается.
Если вы мастер словесных кружев, то играючи умеете превратить невнятное «а вот бы такое же кресло мне домой, как стоит вот в этом лофте» в четкую формулировку «кресло в стиле 60-х с деревянными подлокотниками и принтом в гусиную лапку купить онлайн». Вот только зачем что-то там превращать, если можно сфотографировать понравившееся или очень похожее и скормить это фото браузеру или маркетплейсу, чтобы тот нашёл годные варианты?! То-то же.

Сегодня посмотрим, на что способен визуальный поиск, чем он особенно хорош, для каких сфер годится и как под него подстроиться. Но сначала — немного истории.

Когда появился визуальный поиск

Первыми визуальный поиск или проще — поиск по картинке — стали внедрять браузеры. Первопроходцем был браузер Tineye в 2008 году: он сравнивал загруженную картинку с аналогичными из интернета.

В 2009-м поиск по картинке добавили и Google, и майкрософтовский поисковик Bing. У последнего опция популярностью не пользовалась, а вот адептам Гугла она пришлась по душе. Поэтому в 2011-м в строке поиска браузера Хром появилась уже привычная теперь иконка фотоаппарата для поиска по изображению.

Сейчас поиск по картинке можно в Гугл проделать четырьмя разными способами:

  • просто перетащить изображение из интернета или с компьютера в окно поиска;
  • загрузить файл с помощью специального окна;
  • нажать на картинку правой кнопкой мыши и скопировать её URL, а затем предложить Гуглу поискать по этой ссылке;
  • установить расширение для браузеров Google Chrome или Firefox, после нажать на картинку в Интернете правой кнопкой мыши.
Яндекс добавил опцию поиска по картинке в свой браузер в 2013-м.
В 2017-м появился Google Lens — система для «понимания» изображений: по загруженному фото она может распознать текст на незнакомом языке, определить улицу и номер дома по вывеске, рассказать о незнакомом растении и много чего ещё. К 2022 году она должна научиться сочетать поиск по картинке и тексту. Главная ценность такого сочетания — более сложные сценарии, которые так нужны пользователям: например, как починить конкретную деталь велосипеда или найти предмет одежды с понравившимся принтом.

Одной из первых платформ, которая также внедрила визуальный поиск, как и браузеры — был Pinterest. В 2015 году сервис уже умел находить изображения, похожие на другие на той же платформе за счёт своей разработки Pinterest Lens: достаточно было кадрировать нужный фрагмент на картинке, чтобы из миллионной базы разнообразного контента на Pinterest нашлось что-то похожее на заданный визуальный запрос.

Ядро системы визуального поиска создали за несколько месяцев с помощью технологий глубокого обучения на базе огромного количества контента на платформе Pinterest. Для этого в компании создали распределенную систему индексации изображений и поиска, которая мгновенно вычисляет сходство между любыми двумя изображениями и находит тысячи визуально схожих результатов за доли секунды. Причем, находятся не только точные копии искомого изображения, но и неожиданные результаты, похожие по стилистике, рисунку или форме.

В 2017-м году систему улучшили: теперь можно было не просто тыкнуть на чье-то изображение на платформе и найти массу похожих, но и сфотографировать какой-то реальный физический объект и найти схожие варианты на Pinterest. Чуть позже, в том же году, добавилось расширение для браузера Chrome, с которым визуальный поиск стал доступным за пределами платформы.

А в 2019-м разработчики ввели гибридный поиск: тот, который сочетает старый-добрый поиск словами с поиском по изображению (и который Гугл только планирует внедрить в 2022 году). С ним пользователи могут искать не просто миллион похожих шкафов, а подобрать декор для комнаты (запрос «декор комнаты») под конкретный шкаф (визуальный запрос с фото шкафа).

Как устроен визуальный поиск

В основе визуального поиска лежат компьютерное зрение и глубокое машинное обучение — обученная система алгоритмов, которая умеет распознавать товары по изображениям. Чтобы обучить систему, требуется время, многочисленные тесты и большой объём входной информации (до нескольких миллионов фотографий конкретного товара в разных ракурсах, при разном освещении и на разном фоне). Система анализирует входные данные и запоминает основные атрибуты товара: форму, размер, цвет и так далее.

Благодаря этим данным в будущем она сможет распознать товар на фото от пользователя по шагам:
  1. распознаёт его характерные признаки и метаданные,
  2. ищет подобные изображения в каталоге или напрямую в интернете,
  3. выдает релевантные возможные товары, основываясь на сходствах — цвете, форме, стиле.

Чем так хорош визуальный поиск

Проще
Пользователь, если ему понравился сервиз в кафе или в гостях, может вместо сложных конструкций вроде «тарелка в викторианском стиле белая с голубым узором набор купить» просто сделать фото предмета и гораздо проще получить релевантный результат поиска. И даже не придётся напрягать мозг, чтобы свой запрос как-то правильно сформулировать!
62% миллениалов и представителей так называемого поколения Z предпочли бы визуальный поиск любой другой новой технологии.
Статистика использования визуального поиска 2020
Более трети пользователей в возрасте от 16 до 45 используют визуальный поиск на мобильных устройствах (по данным на июль 2020, источник). Чаще — это женщины, поскольку визуальный поиск особенно распространён в сферах моды, домашнего декора и даже — технологий для жизни.
Быстрее
Пришёл, увидел, победил сфотографировал — и нашёл понравившееся через визуальный поиск. Едешь ты такой в метро и видишь очень классный рюкзак на каком-то пассажире через пару метров. Раньше у тебя было всего два варианта: подойти и спросить, где он его такой распрекрасный взял, либо начать экстренно гуглить что-то в духе «рюкзак с цветочным принтом белый в клетку». Теперь — просто фотографируешь и ищешь: хоть в браузере, хоть на маркетплейсах (если там есть визуальный поиск, конечно).

Самое примечательное: ты можешь сфотографировать вещь, а поискать её потом — фотоплёнка смартфона вряд ли позволит забыть о твоём желании, а вот мысль «надо поискать такой же», не реализованная сразу, минут через 30 покинет тебя, вероятно, навсегда.

Удобнее
Без визуального поиска пришлось бы заходить на сайты в выдаче браузера и просматривать их ассортимент. А так — сразу видны изображения товаров, и легко понять, насколько они соответствуют запросу.

А ещё визуальный поиск — отличный способ сшить онлайн с офлайном. Вот есть у вас интернет-магазин и торговые точки, но вам, как и сервису бронирований Booking, нравится, когда люди совершают целевые действия через конкретный канал — в нашем случае, когда они покупают через сайт. Реализуете на сайте визуальный поиск, рассказываете об этом в магазинах, и вуаля — покупатели быстро находят понравившиеся товары в интернет-магазине и оформляют их за пару секунд.

Другой сценарий: офлайн-мероприятия, на которых вы продвигаете свою продукцию. Так сделал дизайнер Томми Хилфигер в 2017-м, когда устроил показ новой коллекции: можно было просто сфотографировать моделей на подиуме и тут же найти надетые на них вещи в мобильном приложении бренда.
При всех очевидных плюсах у визуального поиска есть нюансы, из-за которых пользователи могут разочаровываться в этом инструменте. Например, если на сайте нет детальных категорий товаров (скажем, не просто сумки, а ещё и «сумки кроссбоди», «сумки-мессенджеры», «сумки-шопперы» и так далее), то такой поиск вряд ли поможет найти искомое. Другая проблема — сложности с фото товара от пользователя: на фоне висит советский ковёр, на товар падают резкие тени, качество снимка оставляет желать лучшего. Всё это влияет на результаты выдачи не самым лучшим образом. Но с постоянным прогрессом в сфере мобильных устройств, кажется, совсем скоро эту проблему удастся победить.

И да — визуальный поиск не всесилен. Его входящий запрос сложнее корректировать, чем текстовый, а результатами выдачи пока сложнее управлять: непонятно, что делать с фильтрацией, например. Визуальный поиск облегчает задачу поиска конкретной вещи в моменте: увидел-захотел-нашёл. Но вряд ли поможет, если хочется «то, не знаю, что» — здесь привычнее будет поиск по конкретным категориям или подборкам (например, когда ищешь подарок человеку, у которого всё есть).

Как адаптировать контент на сайте под визуальный поиск браузеров

Хорошенько поработать с изображениями товаров
Четкие и качественные фото товаров на белом фоне в каталоге — залог того, что поисковый робот легко сможет их распознать.

И да, сделайте как можно больше фото товара в разных ракурсах. В неидеальном мире пользователь вряд ли сможет на ходу снять интересующий товар в студийном свете и правильном ракурсе, поэтому чем больше вариантов этого товара в разных модификациях будет у нейросети в основе визуального поиска, тем больше шансов на успешное распознавание (и последующую продажу).

Оптимизировать изображения
Соответствие базовым принципам оптимизации изображений: адекватный размер, вес и скорость загрузки страниц на сайте в целом.

Правильно назвать изображения
Четкие названия файлов изображений, в идеале — включающие ключевые фразы. Вместо абстрактного «IMG123.jpg» используйте для названия товаров общую схему — например, такую: brand_category_productname_attribute.jpg. И тогда в названии фотографии мужских черных кожаных кроссовок Nike вы напишете «nike_men_shooes_sneakers_black_leather.jpg». Да, возни больше, но результат того стоит.

Заморочиться с SEO-атрибутами
Используйте для атрибутов alt релевантные запросы для изображений. А ещё можно добавить текстовые описания к картинкам по такому же принципу.

Создать файл Sitemap для изображений
Файл Sitemap в формате XML помогает поисковым роботам индексировать изображения на сайте. Она особенно пригодится, если вы используете CDN для оптимизации работы с изображениями — такая карта может ссылаться на CDN, даже если тот находится на другом домене. Как создать такой файл, есть в справке Яндекса.

Кто уже применяет визуальный поиск в e-commerce

Визуальный поиск актуален для сфер, где покупателям приходится выбирать товары по внешнему виду — традиционно это сегменты одежды и аксессуаров, мебели, декора.

Для примера мы взяли наспех сделанное фото сумки из московского ГУМа и поискали аналоги в нескольких приложениях. Вот что предлагает нам Zara, например:
Как устроен поиск в мобильном приложении бренда Zara: есть и визуальный, и голосовой, и по штрих-коду, и по магазинам. Причём, в результатах поиска можно выбирать, для какой аудитории нужен товар: дети, женщины или мужчины — результаты будут разными.
У Вайлдберриз с релевантностью похуже, но искать — ищет:
Визуальный поиск в приложении Wildberries
H&M при загрузке фото сразу определяет категорию товара, но вот результаты поиска немного удивляют: почему поднос-то?!
Визуальный поиск в приложении H&M
В приложении Lamoda нельзя кадрировать исходное фото, поэтому в результатах поиска вместо большой сумки появились крошечные кошельки, как справа внизу на фото искомой сумки из ГУМа:
Визуальный поиск в приложении Lamoda
Приложение AliExpress само молниеносно определяет очертания товара на фото и его категорию, и тут же выдаёт вполне релевантные результаты. Удобно, что миниатюра исходного фото всегда закреплена на плашке сверху — легко сравнивать с предложениями из каталога.
Визуальный поиск в приложении AliExpress
Но не сумками едиными готов похвастать визуальный поиск. Например, в приложении книжного гиганта «Лабиринт» можно быстро найти книгу по фото обложки. Даже автора запоминать не придётся! Результаты не всегда находятся, всё зависит от исходного фото — но для бета-версии вполне себе.
Визуальный поиск в приложении Лабиринт

Рецепт удобного визуального поиска в приложении:

  1. Дайте пользователю возможность кадрировать изображение.
  2. Сразу предлагайте, в какой категории искать, или хотя бы дайте несколько вариантов категорий в результатах выдачи.
  3. Покажите исходное изображение в результатах выдачи так, чтобы с ним удобно было сравнивать.
Аминь.
Визуальный поиск пригодится не только в e-commerce. Например, его можно применить в сфере питания: скажем, по изображению блюда найти место, где его подают. Или в туризме: по фото достопримечательности найти информацию о ней или гостиницу с видом на место, а в музеях и на выставках узнать больше о предметах искусства (или даже купить их в пару кликов). Визуальный поиск отлично подходит и для розничной торговли автомобилями, поскольку с ним легко идентифицировать модель и марку любого мимо проезжающего авто — а заодно предложить тест-драйв в ближайшем дилерском центре.

В общем — тренду есть, куда развиваться, и вполне возможно, что скоро в e-commerce такой способ поиска станет стандартом. Ещё одно перспективное направление развития — чат-боты, которые будут интегрированы с визуальным поиском: чтобы начать взаимодействие, будет достаточно прислать фотографию.

Как реализовать визуальный поиск у себя на сайте или в приложении

Варианта всего два, и оба — наверняка влетят в копеечку:

  1. создавать систему для распознавания изображений на основе искусственного интеллекта с нуля, а затем обучать и постоянно поддерживать её;
  2. воспользоваться API готовых решений (но скорее всего, обучать и поддерживать систему всё равно придётся).
Если вам ближе второй вариант, то вот какие решения есть на рынке:

Vision API Product Search от Google
Подходит для визуального поиска товаров для дома, одежды, игрушек и товаров в упаковке (пространная формулировка Гугла, за которой не совсем ясно, что стоит).

Принцип работы простой. Сначала вы загружаете изображения в нескольких ракурсах для своих продуктов в систему и объединяете их в категории. Когда пользователь загружает собственное изображение на сайте для поиска, Vision API Product Search с помощью машинного обучения сравнивает изображение пользователя с вашей базой изображений и выдаёт ранжированный список визуально и семантически похожих результатов.

Цена: до 1000 входных изображений от продавца (включая анализ и хранение) — бесплатно, далее — в зависимости от количества ваших картинок:
визуальный поиск от Гугл цена
О том, как реализовать работу этого инструмента на языке Python, есть большая статья на английском.
Визуальный поиск от майкрософтовского Bing
Принцип работы — такой же, как у Гугла. Для API есть подробная документация. Цен для России нет, поэтому пришлось смотреть цены для восточной Европы (ну, почти). Бесплатно можно распознать до 1000 изображений в месяц, потом — от 3 долларов за 1000 транзакций (знаем, схема странная, но табличка с ценами ещё страннее).

Frisbuy — один из немногих сервисов на русском языке
Предлагает автомаркировку товаров (автоматически добавит теги и атрибуты к каждому изображению в каталоге), может классифицировать предметы на картинке по категориям, а ещё — есть чат-бот для инстаграма, который владеет визуальным поиском. Сколько всё это может стоить — не говорят напрямую, всё индивидуально (как всегда).
визуальный поиск на сайте и в приложении цена
Deepvision.ai от AmazonWebServices
Обещают автоматически добавлять метки к загружаемым в каталог изображениям, чтобы потом их было проще находить при визуальном поиске. Эту же технологию, которая отвечает за визуальный поиск, можно использовать и для товарных предложений в карточке («вам может понравиться», «похожие» и вот это вот всё).

Также обещают полную интеграцию через REST API — предлагают просто предоставить каталог своей продукции, а остальное их команда сделает сама. Мы бы не были так оптимистичны :)

Цена такого «удовольствия» — тайна, покрытая мраком (и неприятной необходимостью связываться с менеджером и говорить с ним на английском). Плюс без VPN этот сервис у нас не работает.

Slyce.it, которые помогли реализовать визуальный поиск Томми Хилфигеру в 2017-м
Предлагают решения сразу для нескольких сфер: не только моды и обустройства дома, но и для промышленности (в том числе — автомобильной), производств и сферы питания. На сайте ни словечка о ценах, а чтобы получить демо-версию платформы, придётся заполнять анкету (классика зарубежных сервисов). И сервис также недоступен без VPN (тоже почти уже классика).

Recognize.im — тоже API, тоже для распознавания изображений
Ничего лишнего, только платформа для распознавания изображений. Сначала вы загружаете в неё эталонные изображения, а затем система находит совпадения с заданным изображением и выдаёт результат. И уж вам решать, а что с ним дальше делать: применять эту штуку для визуального поиска или для поиска дубликатов, а может — для рекомендаций а-ля «похожие товары». Но без VPN… вы понимаете, да?

Цены кусаются:
визуальный поиск на сайте и в приложении цена
Не понравились эти сервисы? Держите ещё пачку зарубежных из подборки (но это вряд ли избавит от необходимости общаться с менеджерами на английском, увы).

Итого

Пару лет назад все боялись, что голосовой поиск низвергнет текстовый, но такого не произошло. По крайней мере, в России. Про визуальный пока непонятно, но скорее всего, так тоже не будет. Один из самых вероятных сценариев развития этого тренда — сочетание изображения и текста в поисковом запросе, которое даст больше конкретики и сузит диапазон вариантов заодно. В изобильном мире ж живем, ну :)

С другой стороны, с визуальным поиском не всё так однозначно. Эксперты предупреждают, что совсем скоро придётся что-то делать с пользовательскими данными при таком подходе к поиску: вряд ли всем 7 миллиардам жителей планеты понравится, что их без зазрения совести фотографируют, чтобы найти надетые на них одежды. И эта проблема — уже этическая. Ну и вполне вероятно, что однажды визуальный поиск будет встроен системно в мобильные гаджеты, как сканер QR-кодов, который ещё лет 10 назад был редкостью.

Только не стоит сейчас думать, что раз так, технологию можно не торопиться внедрять — миллениалы в восторге от нового сценария поиска, и очень быстро обучат своё более старшее окружение действовать точно так же. Поэтому если ваш бизнес сосредоточен в сферах, где внешний вид товара имеет почти определяющее значение, кажется, пора что-то делать — конкуренты, как Москва: никогда не спят.

Удачных вам распознаваний!