Блог

Применение А/В тестирований

22 ноября 2024
107
image
image
image
Виктория Денис арт-директор
image
Елена Андреева редактор-копирайтер
Применение А/В тестирований
А вы знали, что в науке о данных есть самые настоящие эксперименты над людьми? Это А/В тесты: методика проверки гипотез, которая позволяет оценить эффект от каждого предположения. Тесты проводятся на контрольных группах пользователей; по их результатам можно собрать данные, которые помогут принять обоснованное решение.

В этой статье поговорим о том, как правильно провести и подготовить А/В тест и как интерпретировать полученные данные.

Инструмент для выбора лучшего варианта

Иногда нужно принять сложное решение: например, выбрать один из двух вариантов продукта, интерфейса или дизайна. Либо оценить улучшение, которое предлагает эксперт или пользователь, и решить, стоит ли его внедрять. При этом данных для принятия решения нет, и не ясно, какой из вариантов лучше для клиента или пользователя. А значит, нужно собрать данные самостоятельно.

Это можно сделать, например, проведя эксперимент, и самым популярным видом экспериментов (особенно в разработке IT-решений) признаны A/B-тестирования.

A/B тестирование — это мощный инструмент разработки, дизайна, маркетинга и анализа данных. С его помощью можно решить много задач: от выбора заголовка баннера до дизайна главной страницы приложения.

Допустим, мы — дизайнеры приложения для онлайн-гипермаркета и хотим повысить вовлеченность пользователей: сделать так, чтобы они проводили в приложении больше времени. Мы готовы потратить ресурсы на редизайн или создание контента внутри приложения, но важно, чтобы усилия принесли результат. Команда обсуждает задачу и вносит несколько предложений:
добавить «сториз»;
добавить «каналы» с полезной информацией;
добавить игровые механики: статусы, награды;
добавить призовые мини-игры.
Каждая из гипотез — это интуитивное предположение о том, что вовлеченность повысится, и время, проведенное в приложении, вырастет не менее чем на 2%. Все гипотезы сделаны на основе насмотренности и опыта пользователей, которые их внесли. Но их опыт и мнение могут не совпадать с теми, что есть у ЦА приложения. А значит, вовсе не обязательно, что новые опции заинтересуют пользователей и дадут нужный эффект.

Чтобы понять, насколько жизнеспособны гипотезы, они проверяются практикой на небольшой группе людей с использованием определённых условий и методов. Это и есть A/B тесты.

Говоря языком терминов, А/В тесты — это методика проверки гипотез, которая позволяет оценить эффект от каждого предположения. Чтобы проверить гипотезу, берут две разных группы пользователей и помещают их в одинаковые внешние условия.

Возвращаясь к нашему примеру с приложением. Допустим, мы хотим проверить, помогут ли сториз повысить вовлечение. Чтобы начать A/B тестирование, мы наберём две группы пользователей: контрольную (А) и тестовую (B).
Как А/В тест организован технически? Представьте, что у вас есть инструмент для анализа посещений сайта: например, Яндекс. Метрика или Google Analytics. Этот инструмент делит всех посетителей на разные группы, как будто раздает им билетики с номерами. Номер группы записывается в специальный файл на компьютере посетителя (cookie). Каждая группа видит свой вариант приложения или сайта. Потом инструмент собирает информацию о том, как пользователи из каждой группы себя ведут. На основе этой информации можно принимать решения.
Контрольная группа будет продолжать работать с интернет-магазином в том виде, в котором он есть сейчас. Тестовой группе будут показаны изменения в дизайне — в нашем примере она увидит сториз. По окончанию A/B-теста, аналитика действий на сайте покажет, какая из групп провела в приложении больше времени.

На что обращать внимание

В практическом применении A/B-тестирования первостепенное значение имеет тщательная подготовка, включающая определение групп пользователей и параметров исследования. Качество полученных результатов напрямую зависит от качества подготовки. Обратим внимание на самые важные пункты.

Группы пользователей. Формируя их, стоит руководствоваться следующими принципами:
независимость групп;
случайный отбор пользователей в группы;
один пользователь не может быть в двух группах одновременно.
Длительность тестирования. A/B-тестирование может проводиться в различные временные промежутки, но стоит учесть следующее:
слишком длинные А/В тесты не нужны. Помните, каждая гипотеза может быть неправильной, а значит, ресурсы, затраченные на её проверку, не окупятся.
слишком короткие А/В тесты также не нужны, поскольку неинформативны. Они могут привести к недостаточному объему данных для получения достоверных результатов.
Количество изменений. Один тест = одно изменение — вот важнейшее правило А/В тестов. Методология такого тестирования предполагает, что мы одновременно анализируем лишь один элемент в двух его состояниях. Например, сториз в их наличии и отсутствии. А чтобы протестировать все гипотезы из примера выше (не только сториз, но и каналы, игры, геймификацию), потребуется провести четыре А/В теста. Либо многовариантное тестирование, в котором можно протестировать неограниченное количество гипотез параллельно. Если изменения сложные и включают несколько элементов, стоит разбивать их на несколько отдельных гипотез и проверять поочередно, чтобы видеть, какие изменение к чему приводят.
Лучше иметь несколько простых идей, которые однозначно подтверждаются или опровергаются, чем одну сложную гипотезу, которая только запутает.
Сформулировать конкретную и измеряемую цель конкретного тестирования — важная часть подготовки к нему. Если предположение кажется очень
простым, то вы всё сделали правильно: значит, гипотеза держит тест в рамках поставленного вопроса.

И последний, финальный совет: не спешите с выводами. Не забывайте о когнитивных искажениях и о необходимости перепроверять любой результат.

Как оценить результат?

Чтобы начать оценку, сначала дождитесь всех результатов. Значения ключевых показателей могут ежедневно меняться, что указывает на их случайную природу. Для сравнения случайных величин анализируются средние значения, а для определения среднего требуется время для накопления данных.

Эффект от внесенных изменений определяется как разница между средними значениями ключевого показателя в тестовых группах. Здесь важно задать вопрос: вопрос: насколько полученный результат достоверен? Если повторить тест, какова вероятность получить схожий результат?
Примеры распределения значений показателя в группах: частота появления того или иного значения случайной величины в выборке. Значения показателя в группах одинаковы, различие заключается лишь в разбросе значений. Источник: habr.com
Для достоверности результата недостаточно сравнивать разницу средних значений. Необходимо также оценить степень пересечения распределений. Чем меньше область пересечения, тем выше уверенность в значимости эффекта. Эта «уверенность» в статистике называется значимостью результата.

Обычно для принятия положительного решения об эффективности изменений выбирают уровень значимости 90%, 95% или 99%. Соответственно, пересечение распределений составляет 10%, 5% или 1%. Низкий уровень значимости повышает риск ошибочной интерпретации результатов изменений.

К сожалению, в отчетах по A/B-тестам часто не указывается уровень значимости, при котором был получен результат. А ведь на практике около 80% A/B-тестов не являются статистически значимыми.

Важно отметить, что чем больше трафик в группах, тем меньше разброс среднесуточных значений показателя. При небольшом трафике, из-за большего разброса значений, потребуется больше времени для проведения эксперимента. Однако, даже при этом, проведение эксперимента предпочтительнее, чем его полное отсутствие.

Саммари

1. Что такое A/B тестирование, или сплит-тестирование (split testing)? Это эксперимент, в ходе которого гипотезы проверяются практикой на двух небольших группах людей с использованием определённых условий и методов.

2. A/B тест — один из самых простых и эффективных экспериментов. Применение A/B тестирований возможно везде, где нужно собрать данные для обоснованного решения.

3. Чтобы проводить А/В тесты цифровых продуктов, используют такие инструменты как инструмент для анализа посещений сайта: например, Яндекс. Метрика или Google Analytics

4. В классических А/В тестах мы одновременно анализируем лишь один элемент в двух его состояниях. Например, расположение иконки корзины на сайте: привычное пользователям VS новое.

5. Также важно помнить о правилах отбора пользователей в группы (случайный отбор, независимость групп) и выбирать оптимальную продолжительность теста.

6. Эффект от внесенных изменений определяется как разница между средними значениями ключевого показателя в тестовых группах, нагляднее всего он будет показан на графике.

Расскажите
о вашем проекте