Подводим итоги подготовки к черной пятнице: как мы превращали старый сайт в highload
Про чОрную пятницу
Сибирикс

Про чОрную пятницу

Подводим итоги подготовки к черной пятнице: как мы превращали старый сайт в highload
Владимир Завертайлов
Главный бармалей Сибирикс
Черная пятница — день, с которого в США традиционно стартует сезон рождественских распродаж. Затем распродажи запускаются в интернет-магазинах (так называемый киберпонедельник). В России черная пятница проводится с 6-го декабря 2013 года.
Примерно за две недели до той самой пятницы к нам пришел клиент. Ну то есть не совсем вот так «пришел», из ниоткуда, — мы занимались развитием его интернет-магазина с 2012-го. Задача на этот раз была: подготовить магазин к распродажам, а это значит — к перегрузкам.

Исходные данные

На момент начала подготовки к черной пятнице у интернет-магазина был ряд нюансов:

  • старая версия Битрикса с измененным ядром (досталась по наследству);
  • три сервера: на одном крутится сам сайт, на втором — база данных MySQL, третий — пока свободный;
  • более 66 000 уникальных пользователей в сутки. Более 350 000 обращений в день.

Задача

Найти решение, которое бы позволило интернет-магазину «не падать» под напором пользователей (по сути, сделать из него highload-проект). Сделать быстро, так как распродажи уже беспощадно близко. Насколько получится достигнуть цели — должно было стать понятно в черную пятницу. По задумке, если магазин выдержит такую «первую волну», то и в новый год тоже проблем не будет.

Решение

По сути, мы будем заниматься оптимизацией скорости работы сайта. Самое действенное решение в таком случае — переписать код. Но это для заказчика слишком радикально, а так как на носу распродажи — вообще не приемлемо. Ок, выбираем репликацию баз данных MySQL. Не самое идеальное решение, что многократно обсуждалось на форумах, но — посмотрим, как оно себя покажет.

Денис
ведущий разработчик
—  Типичная задача применения репликации при работе с базами данных — повышение отказоустойчивости и распределение нагрузки при чтении данных.

Архитектура такая (минимальная комплектация): берутся два сервера, один назначается Master, второй — Slave. На сайт заходит пользователь, оформляет заказ, отправляет его на сервер. В базе данных на Master’e создается запись о его заказе, после чего дублируется на Slave. В случае отказа первого сервера, база данных всегда остается на втором, на него можно быстро переключиться. Так повышается отказоустойчивость.

При обращении сайта к базе данных чтение может производиться как с первого, так и со второго сервера — так распределяется нагрузка. В новом Битриксе есть модуль кластера. И в данной ситуации нам было бы очень удобно использовать именно его. Однако Битрикс старый, и такой возможности у него нет. Поэтому нам пришлось в полевых условиях собрать некое подобие данного модуля, пропатчив ядро Битрикса.

Итак, что делаем:

  1. Создаем два Master-сервера.
  2. Настраиваем репликацию. Созданная запись на одном из серверов дублируется на другой.
  3. Модифицируем ядро Битрикса таким образом, что конкретная запись создается с вероятностью 0,5 на первом сервере и с такой же вероятностью — на втором.
Рассинхронизация данных — легко, море подводных камней
Предположительные выгоды: нагрузка на каждый сервер снижается вдвое, когда сайт обращается к созданным записям в базе данных. Это должно уберечь базу от «падений» в период большого наплыва покупателей.

Но не всё так радужно. У нас есть минимум три подводных камня.

Екатерина
менеджер проекта
— Денис давал не самые оптимистичные прогнозы: проблемы могли возникнуть из-за асинхронной передачи данных — а это, в первую очередь, дублированние записей. Также много потенциальных проблем крылось и в старой, многократно кастомизированной CMS Битрикса. И, наконец, сайт нештатно интегрирован с 1С (например, кастомизирован компонент, отвечающий за скидки), что тоже накладывало несколько особенностей на архитектуру и настройки.

Про коллизии и решения

О стандартных процедурах. У нас два сервера, каждый из которых считает себя «главным». Чтобы данные о заказе равномерно распределялись на тот и другой сервер, каждой записи присваивается свой ID и, скажем, все записи с четными ID попадают на первый сервер, все с нечетными — на второй. После чего синхронизируются друг с другом. Без такой настройки архитектура Master-Master не работает совсем.

Теперь об интересном.

Проблема 1

Битрикс ведет статистику по посетителям, создавая для нее таблицы. В качестве Primary Key (ключа для уникальной идентификации данных таблицы) используется дата. Теперь о том, чем это чревато. Например, на сайт одновременно заходят два первых посетителя — Бивис и Баттхед, 1-го января 2014 года. Если они при этом попадают на разные серверы, то на них создаются две записи с одним Primary Key. После чего данные пытаются реплицироваться. Но ключ не может повторяться, и база в таком случае выдаст ошибку. Система репликации остановится.

Решение 1

Мы решили, что можно пожертвовать 1 человеком из таблицы статистики и настроили специальный параметр в конфигурации серверов, который игнорирует ошибку о дупликации Primary Key для данных таблиц. Он «выбрасывает» Бивиса (или Баттхеда) из статистики, но притом все последующие посетители учитываются в полной мере и записываются в таблицу. При посещаемости в шестьдесят тысяч уников в день — жертва не самая большая.

Проблема 2

Двойная отправка писем. После того, как заказ оформлен пользователем, админу приходит письмо-уведомление. Но приходит оно не сразу, а после того, как таких писем накопится достаточное количество. Они запишутся в базу и, как только сервер прекратит работать с пользователем, «включится» агент, который возьмет сформированную таблицу с письмами и отправит на админскую почту.

Так как данные забираются агентом не сразу, они успевают за это время продублироваться на второй сервер. В итоге может получиться, что агенты будут запущены для двух серверов, и для рассылки писем будут использованы две одинаковые базы. Результат — дубли писем.

Решение 2

Простое решение: сделали так, что агент при работе использует только один MySQL-сервер.

Проблема 3

Сайт интегрирован с 1С. Общение между 1С и сайтом происходит не моментально, а за несколько операций. Грубо говоря:

  • 1С посылает запрос в Битрикс,
  • Битрикс создает таблицу на сервере MySQL и сохраняет в нее данные о заказах,
  • 1С забирает данные,
  • 1С «говорит» Битриксу, что всё готово и таблицу можно удалить.

Так как у нас чередуются два сервера для снижения нагрузки, получается, что таблица создается на одном сервере, а 1С на следующих шагах может обратиться к другому, где таблица еще не успела реплицироваться. Это еще не всё: если на шаге удаления таблицы Битрикс обратится к серверу, на котором таблица еще не создана, то таблица фактически не будет удалена. Последующие попытки создать новую таблицу заказов будут приводить к ошибке. Заказы не будут выгружены в 1С.

Решение 3

Аналогичное решение: 1С работает только с одним, назначенным нами сервером.

Итого

Несмотря на тревожные прогнозы, технология работает. Специально для заказчика мы разработали интерфейс, где он может вручную включать и отключать каждый сервер. По нагрузке: черная пятница — полет нормальный.
Для контроля стабильности работы системы заказчик нанимает специальную компанию, которая будет выполнять мониторинг 24 часа в сутки. Вполне рабочее решение, чтобы выдержать атаку тысяч и тысяч клиентов.

К черной пятнице мы готовили этот интернет-магазин за пару недель. Из спорных решений была репликация мастер-мастер, которая на MySQL может доставить много боли. Ну и старый Битрикс, который сам по себе — боль. Но мне сложно представить какой-нибудь оффлайновый бутик подарков, в котором в каждый момент времени находится полторы тысячи человек. И еще полно места.

Всем highload, пацаны!