A/B тестирование
Как правильно проводить AB эксперименты в своем продукте
Содержание:
Что такое АБ тест
Это метод, который помогает определить, какой из двух вариантов лучше работает для вашей аудитории.

Представьте, что у вас есть два варианта одной и той же вещи, например, две версии страницы, два дизайна кнопки или два рекламных объявления.

Вы не уверены, какой вариант принесет лучшие результаты.

Создание двух вариантов:
Вы делаете две версии того, что хотите протестировать — вариант A и вариант B. Между ними должна быть только одна разница, чтобы точно понять, что повлияло на результат.

Разделение аудитории:
Вы случайным образом делите свою аудиторию на две равные части. Одна группа видит вариант A, другая — вариант B.

Сбор данных:
Вы наблюдаете, как люди взаимодействуют с каждым вариантом. Это могут быть клики, покупки, подписки или другие действия.

Анализ результатов:
Сравниваете результаты обеих групп, чтобы определить, какой вариант показал лучшие показатели.

Например
Представьте, что у вас есть интернет-магазин, и вы хотите увеличить количество кликов на кнопку «Купить». Вы создаете две версии кнопки:
  • Вариант A: Кнопка синего цвета с надписью «Купить сейчас».
  • Вариант B: Кнопка красного цвета с надписью «Добавить в корзину».
Вы показываете вариант A половине посетителей, а вариант B — другой половине. После некоторого времени вы видите, что кнопка из варианта B привела к большему числу кликов и покупок. Значит, вариант B работает лучше, и вы можете использовать его для всех посетителей.
Идеи для АБ тестов
Хоть продукты и разные принципы для проведения АБ тестов одинаковые.

Определите чёткие цели и ключевые метрики
Прежде чем начать формировать идеи для тестирования, важно точно знать, что вы хотите улучшить. Это могут быть:
  • Конкретные цели: увеличение конверсии на целевой странице, повышение кликабельности кнопки, снижение показателя отказов и т.д.
  • Ключевые метрики: количество регистраций, продажи, время, проведённое на сайте, число просмотренных страниц и т.д.

Посмотрите что в продукте сейчас работает не так
Используйте доступные инструменты аналитики (Google Analytics, Яндекс.Метрика) для понимания того, как пользователи взаимодействуют с вашим сайтом или приложением:
  • Определите проблемные зоны: страницы с высоким показателем отказов, низкой конверсией или длительным временем загрузки.
  • Определите этапы, на которых пользователи чаще всего отваливаются.
  • Просмотрите записи сессий пользователей, тепловые карты кликов, чтобы понять их поведение.

Соберите обратную связь от пользователей
Проведите опросы и интервью: узнайте у пользователей, что им нравится или не нравится, какие трудности они испытывают.

Изучите отзывы и комментарии: это могут быть отзывы на вашем сайте, в социальных сетях или на сторонних ресурсах.

Используйте пользовательские тесты: наблюдайте за тем, как пользователи выполняют определённые задачи на вашем сайте.

Сформулируйте гипотезы для тестирования
На основе собранной информации начните формулировать конкретные гипотезы:

Структура гипотезы: "Если мы [изменим что-то], то [ожидаемый результат], потому что [причина]."

Пример: "Если мы изменим цвет кнопки с синего на оранжевый, то количество кликов увеличится на 10%, потому что оранжевый цвет более заметен и привлекает внимание."


Определите, что именно будете тестировать:
измените только один элемент, чтобы точно определить его влияние.

Установите параметры теста:
Продолжительность: тест должен длиться достаточно долго для получения статистически значимых результатов.

Размер выборки: количество пользователей, участвующих в тесте, должно быть достаточным.

Убедитесь в корректной настройке: проверьте, что обе версии работают правильно и данные собираются корректно.

Определите какие метрики будете мониторить.

Пример
Вариант A: текущая форма оплаты.
Вариант B: упрощённая форма с добавленными значками безопасности.
Продолжительность теста: 2 недели.
Метрика успеха: увеличение процента завершённых покупок.


Калькулятор АБ теста
Калькулятор для расчёта объёма выборки
Нужен чтобы определить, сколько людей нужно для теста.

Если людей мало то результаты будут недостоверные.

А еще, зная точное количество участников, вы не будете тратить лишнее время на слишком долгие тесты.


Калькулятор для анализа результатов теста
Нужен чтобы понять, действительно ли один вариант лучше другого.

После сбора данных нужно определить, является ли разница в результатах значимой или это просто случайность.

Калькулятор помогает рассчитать статистическую значимость, то есть вероятность того, что результат не случаен.


Размер выборки АБ теста
Чтобы понять, сколько людей нужно для теста, используйте калькулятор выше, вводя текущую конверсию и желаемое улучшение.

Запускайте тест в обычное время для вашего продукта. Избегайте праздников и аномальных периодов.

Решите, на какую часть аудитории запускать тест, исходя из риска изменений и скорости получения результатов.

Всегда планируйте тест так, чтобы он длился минимум неделю, чтобы учесть все вариации в поведении пользователей.

Основные параметры для расчёта:
Базовый уровень конверсии (Baseline Conversion Rate):
Текущий показатель конверсии вашего сайта или приложения.
Например, если из 1000 посетителей у вас 50 совершили целевое действие, конверсия составляет 5%.

Минимально обнаруживаемый эффект (Minimum Detectable Effect, MDE):
Минимальное изменение в конверсии, которое вы хотите обнаружить.
Выражается в процентных пунктах или относительном изменении.
Например, вы хотите выявить увеличение конверсии с 5% до 6% (на 1 процентный пункт или на 20% относительно базового уровня).

Уровень значимости (Alpha):
Вероятность получить ложноположительный результат (ошибочно принять разницу за значимую).
Обычно устанавливается на уровне 5% (0,05).

Статистическая мощность (1 - Beta):
Вероятность обнаружить реальный эффект, если он существует.
Обычно устанавливается на уровне 80% (0,8).

Если трафика у вас очень много и тест может пройти за часы, то возьмите только часть от всей аудитории и включайте тест в разные дни на небольшой промежуток времени.
Как провести АБ тест
Определите цель теста
Например, увеличить количество кликов на кнопку «Купить» на сайте.

Сформулируйте гипотезу
«Если изменить цвет кнопки на зелёный, то кликов станет больше».

Подготовьте два варианта
Вариант A: Текущая синяя кнопка.
Вариант B: Новая зелёная кнопка.

Разделите аудиторию случайным образом
Равномерно распределите пользователей между вариантами A и B.

Запустите тест и собирайте данные
Собирайте информацию о том, сколько людей кликнули на каждую кнопку.

Учтите парадокс Симпсона
Явление, когда общий результат отличается от результатов в отдельных группах.
Пример Беркли: В 1970-х годах Университет Калифорнии в Беркли обнаружил, что общий процент принятия мужчин был выше, чем женщин. Однако, при анализе по факультетам выяснилось, что женщины чаще подавали заявления на более конкурентные факультеты с низким процентом принятия, тогда как мужчины чаще выбирали менее конкурентные факультеты. В итоге, в каждом отдельном факультете не было дискриминации, но общая статистика вводила в заблуждение.

Сегментируйте данные
Разбейте результаты по группам: например, по устройствам (мобильные и компьютеры) или по возрасту пользователей.

Анализируйте результаты по сегментам
Смотрите не только на общий итог, но и на показатели в каждой группе.
Может оказаться, что на мобильных устройствах зелёная кнопка работает хуже, хотя в целом результат лучше.

Смотрим не только на цифры
Всегда надо помнить что стоит за данными, какая логика и какой процесс происходит в реальности. Только понимая общий контекст возможно принимать решения.
Результаты АБ теста

Пример результатов АБ теста (Источник)

Проверьте, что данные собраны правильно
У каждой группы (A и B) должно быть равное распределение пользователей. Нет технических сбоев или неполных данных.

Исключите аномалии:
Уберите результаты, вызванные редкими событиями (сбои или пиковый трафик).

Определите ключевые метрики:
Клики, конверсии, средний чек.

Сравните показатели двух групп:
Например, группа A показывает конверсию 5%, а группа B — 6%. На первый взгляд, вариант B лучше.

Проверьте статистическую значимость
Выше были онлайн-калькуляторы для расчета p-значения.
Если p-значение меньше 0,05 (5%), разница считается статистически значимой.

Пример:
Группа A: 500 из 10,000 пользователей совершили покупку (5%).
Группа B: 600 из 10,000 пользователей совершили покупку (6%).
p-значение показывает, что разница значима. Значит, вариант B действительно лучше.

Разбейте данные по группам: Устройства, возраст, география и т.д.
Ищите скрытые результаты: Например, вариант B может работать хорошо на десктопе, но плохо на мобильных устройствах.
Учитывайте парадокс Симпсона: Общая разница может быть ложной из-за различий в сегментах.

Запишите, что тестировали и что получилось:
  • Ваша гипотеза.
  • Параметры теста.
  • Результаты и выводы.
Когда останавливать АБ тест
Тест должен охватить необходимое количество пользователей, рассчитанное заранее. Если выборка слишком мала, разница между вариантами может быть случайной.

Результаты достигли статистической значимости
Рассчитайте p-значение (обычно оно должно быть меньше 0,05) или доверительные интервалы.
Например, если вариант B показывает конверсию 6% против 5% у варианта A, и статистическая проверка подтверждает значимость, тест можно завершать.

Тест охватил все дни недели или другие ключевые временные циклы. Поведение пользователей может сильно отличаться в будни и выходные или в разные сезоны. Если вы запускаете тест в течение одной недели, убедитесь, что охвачены как будние, так и выходные дни.

Результаты теста не должны быть искажены внешними событиями, вроде:
Сезонные распродажи.
Проблемы с продуктом или оборудованием.
Резкие изменения в источниках трафика.

Ошибки АБ тестов
Запуск теста без четкой цели и гипотезы.

Маленький объем выборки, недостаточный для достоверных результатов.

Преждевременная остановка теста без статистической значимости.

Одновременное проведение нескольких тестов на одной аудитории.

Неправильное распределение пользователей между вариантами.

Учет незначительных метрик вместо ключевых показателей.

Игнорирование сегментов аудитории (мобильных и десктопных пользователей).

Изменение тестируемых вариантов во время теста.

Учет внешних факторов, влияющих на результаты (праздники, акции).

Неверная интерпретация статистических данных (например,
игнорирование p-значения)

Тестирование сразу нескольких изменений вместо одного.

Отсутствие документации о результатах и выводах теста.

Полное игнорирование долгосрочных эффектов теста.

Выводы без учета парадокса Симпсона и сегментированных данных.

Ожидание больших эффектов от минимальных изменений.
АБ тестирование в знаменитых компаниях
Для проведения АБ теста нужен значительный трафик на ресурс.

Логично, что крупные компании, у кого такой трафик существует давно значительно продвинулись в плане АБ тестов.

А кто-то как например Booking вообще возвел АБ тесты в культ.

Посмотреть на опыт этих компаний можно в материалах ниже:

Инструменты АБ тестов
Раньше ключевым инструментом для АБ тестов, с которым сталкивались практически все был Google optimize.

В 2023 году он прекратил свою работу.

Альтернативные инструменты по ссылкам ниже:
Optimizely
AB tasty
VWO

Их рекомендовал и сам Google в момент отключения.
Примеры АБ тестов
Существуют большие коллекции уже проведенных АБ тестов.

Будет полезно для развития насмотренности и поиска идей посмотреть уже проверенные кейсы, вместе с результатами.

Но учтите что просто повторив тест, такой же результат далеко не гарантирован, а иногда можно достичь и обратного эффекта.

Разные группы пользователей, бренды, целевые сегменты, внешние факторы, покупательская способность, условия по кредитам и т.д. - все это влияет на результат.

Как вам материалы?
Еще материалы по теме продакт менеджмента:
Об авторе:
  • Александр Замахов
    Senior product manager / CPO
    Делаю образование доступным.
    Автор подборки и основатель проекта
    Следите за выходом новых материалов в телеграме и linkedin