A/B тестирование: подходы и метрики

Теория

Как провести онлайн эксперимент с достоверным результатом? Например, нам нужно решить, какой текст email-рассылки приведет к росту продаж, или какие функции нужно добавить на сайт для привлечения новых пользователей. Чтобы снизить риск ошибки в выборе между такими опциями, используют A/B тестирование. Для этого случайным образом разделяют выборку пользователей на две группы, каждая из которых получает свой текст рассылки или видит разные функции на сайте.

Как проводится A/B тестирование

Методика A/B тестирования включает следующие шаги:

  1. Отбор метрики, которую необходимо отслеживать.
  2. Расчет объема выборки.
  3. Проведение самого эксперимента.
  4. Проверка значимости результата.

Предположим, мы хотим подобрать наиболее «цепляющий» заголовок для новой публикации в блоге.

  • Во-первых, выбираем метрику для отслеживания эффекта того или иного заголовка.
  • На втором шаге решаем, как долго продлится эксперимент, т.е. как скоро мы получим выборку, достаточную для того, чтобы полученные результаты не были случайными. Необходимый размер выборки зависит от базовой метрики – в нашем случае от того, насколько часто люди в принципе кликают по ссылкам с заголовками нашего блога. Если они это делают в 50% случаев, нам понадобится меньшая выборка. Если это происходит намного реже, то выборка должна быть больше.

Размер выборки также зависит от того, насколько, по нашему мнению, тест должен быть чувствителен. Т.е. насколько для нас важно, будут ли заголовок кликать 7% пользователей или 7,05% пользователей? В данном случае не обязательно обеспечивать максимальную чувствительность, это повлияет на наш доход незначительно. Нам важна разница, скажем в 10 и 20% базового показателя кликов.

  • Далее запускаем собственно сам эксперимент и демонстрируем разные заголовки до того момента, пока не достигнем заданного размера выборки.
  • Заключительный этап – проверка значимости. Итак, мы набрали нужный процент кликов и заметили, что он отличается для разных заголовков. Но можно ли утверждать, что отличие не является случайностью? Для этого мы тестируем статистическую значимость. При значимом результате мы можем быть уверены, что полученная разница в кликах является закономерной. На основании подтвержденной значимости теста принимаются управленческие решения. Более подробно о статистической проверке – в следующей статье.

Метрики для A/B-тестирования

Успешный эксперимент во многом зависит от выбора подходящих метрик. Во-первых, они должны соответствовать некоторым критериям:

а) Измеримость в краткосрочной перспективе.

б) Соотносимость с событием (атрибуция), которому метрика приписывается.

в) Своевременность и чувствительность.

Однако не все метрики, используемые в бизнесе, подходят для оценки A/B тестов, и одних только критериев измеримости, соотносимости и чувствительности недостаточно.

Например, нам надо оценить годовую подписку на AI-генератор изображений. Если бы речь шла о месячной подписке, то мы бы использовали долю пользователей, обновивших подписку на следующий месяц. Однако, эксперимент длиною в год не вписывается в наши планы. Поэтому надо искать альтернативную метрику, например, качество использования подписки. Чем больше изображений генерирует пользователь, скажем, в неделю, тем более востребован сервис, тем выше вероятность, что он продлит подписку.

Что касается атрибуции, то нам, в принципе, должны быть доступны данные, которые требуются для измерения. Если этими данными владеет третья сторона (например, подробные данные платежных транзакций, принадлежащие банку), то их использование может быть затруднено. Кроме того, для метрика не должна требовать дополнительных ресурсов (например, проведение опроса аудитории).

Чувствительность метрики зависит от количества пользователей, разницы в результате между испытуемой и контрольной группой, дисперсией (разбросом значений) метрики.

Примером абсолютно нечувствительной метрики может быть оценка нового виджета на сайте на основе цены акций компании (цена которых не изменится ни на копейку в ответ на любые эксперименты с функциями сайта). С другой стороны, максимально чувствительная метрика – количество показов, которые отражают видимость тестируемой функции (однако совершенно не информативны в отношении ценности для пользователей). Где-то между двумя крайностями в данном случае располагается метрика количества кликов – достаточно чувствительная, однако крайне локализованная. Такая метрика не будет отражать изменения интереса к другим блокам на странице сайта и может перетягивать на себя всю активность пользователей.

Таким образом, нам могут потребоваться:

— дополнительные прокси-метрики, которые сильно коррелируют с целями бизнеса, но делают A/B тестирование проще и быстрее;

— более детализированные метрики, например вместо коэффициента кликабельности страницы иногда надо использовать клики набора отдельных виджетов и блоков на одной странице;

— сигнальные метрики, предназначенные для информирования о сбое в эксперименте (например, слишком резкий рост основной метрики, изменение данных и т.п.).

Общий критерий оценки изменений OEC

В итоге оптимальная оценка в эксперименте может потребовать некой комбинированной метрики. Таковой является общий критерий оценки изменений (Overall Evaluation Criterion, OEC). OEC – это взвешенная комбинация наших целей и компромиссов.

Самый простой способ построения OEC: а) нормализировать каждую метрику из набора к нужному размеру, например от 0 до 1; б) затем присвоить ей вес; в) построить OEC как взвешенную сумму нормализированных метрик. Следует иметь ввиду, что слишком большое количество метрик в составе OEC может привести к сбою в последующем статистическом анализе, поэтому A/B тестирование лучше строить максимум на пяти метриках.

Рассмотрим один из примеров разработки OEC в Amazon. Ритейлер разработал программу email-рассылки на основе автоматизированных кампаний, которая включала письма с рекомендацией:

—  новой книги автора, издания которого пользователи уже приобретали;

— товаров на основе аналогичных прошлых покупок;

— товаров на основе специфических комбинаций прошлых покупок.

Какой OEC выбрать для тестирования такой рассылки? Базовый OEC компании оценивал бы программу на основе выручки генерируемой пользователями, приходившими на сайт из email. Однако такая метрика будет просто расти по мере роста количества писем в сравнении с контрольной группой, и программа просто завалит пользователей спамом. Поэтому первоначально Amazon решил установить ограничение: пользователь получает email раз в X дней. Но использовать A/B тестирование и какое письмо высылать, если пользователю подходят все три программы рассылки? И как понять, какие пользователи готовы получать больше писем, находя их полезными?

В итоге в компании построили модель на основе альтернативных издержек: какова выручка с учетом потерь от отписавшихся пользователей:

A/B тестирование: подходы и метрики

где

i – количество получателей email одного варианта,

x – количество отписавшихся пользователей для варианта,

Потери – оценочные потери выручки при невозможности связаться с отписавшимся пользователем,

n – количество пользователей в одном варианте рассылки.

Применение метрики показало, что даже при условии потерь от ухода подписчика в пару долларов – половина автоматизированных рассылок дала отрицательный OEC. В результате понимание масштаба потерь привело к идее изменить страницу отписки. По умолчанию пользователю предлагалось отписаться только от одного варианта рассылки, но не от всех писем Amazon.

Практика онлайн экспериментов

Крупные ритейлеры и цифровые гиганты типа Amazon, Meta, Netflix, Uber и пр. ежегодно проводят десятки тысяч онлайн экспериментов. A/B тестирование проводится для разработки пользовательских интерфейсов, рекламных алгоритмов (в т.ч. поиск, рекомендации), систем управления контентом, поддержки клиентов и пр.

Однако на практике даже удачные изменения в интерфейсах, текстах и функциях приводят к совсем небольшому улучшению метрик: порядка 0,1-2%. В частности, так происходит, потому что многие эксперименты влияют лишь на отдельный сегмент пользователей. Например, когда рост вовлеченности в 5% касается 10% пользователей – это является неплохим результатом. Но для генеральной совокупности это означает рост в 0,5%.

Эксперименты с большим эффектом – редкое явление. Например, в 2012 году сотрудник поисковика Bing предложил расширить заголовок рекламных выдач так, чтобы туда входила часть текста, расположенного под заголовком. Это стало самой прибыльной идеей проекта: прибыль компании от этого выросла на 12% или 100 млн. долл. ежегодно только в США. Однако надо понимать, что:

  • Bing проводил порядка 10 000 экспериментов ежегодно, но такие небольшие изменения с огромным эффектом происходят раз в несколько лет. В целом A/B тестирование приводит к улучшениям «малыми шагами». Но для определения изолированного эффекта тех или иных изменений необходимо тщательно продумывать дизайн отдельных наборов тестируемых активностей.
  • Цена эксперимента должна быть низкой. У инженеров компании был доступ к системе ExP Microsoft для научного тестирования идей.
  • Должен быть четко обоснован общий критерий оценки изменений (OEC). У Bing это была выручка. Но если бы выручка использовалась в чистом виде, то реклама занимала бы всю страницу выдачи, что с течением времени привело бы к оттоку пользователей. Поэтому компания использует выручку, взвешенную на долгосрочную удовлетворенность сервисом, а именно: количество сеансов и число поисковых запросов за один сеанс. Меньшее количество запросов за один сеанс и большее число сеансов означает, что пользователь быстро находит желаемую информацию и регулярно пользуется поисковиком вновь.

Заключение

Все это означает, что успешное A/B тестирование зависит от: метрики, набора единовременно тестируемых гипотез, количества экспериментов, умения исключить влияние внешних факторов и, наконец, достоверности результатов. Более подробно о проверке значимости и статистической стороне анализа изложено в следующей статье.

В заключение отметим, что классный онлайн эксперимент – это не только ошеломительный рост метрик, но и неожиданные открытия.

Если вы ожидаете определенного результата эксперимента и он получен – то вы не открыли ничего нового. Но если результат диаметрально противоположен ожиданиям – это успех!

Так, например, маркетологи Amazon были уверены, что показ рекомендованных товаров в ходе покупок сильно замедляет процесс выбора и негативно сказывается на выручке. Однако эксперимент инженера Грега Линдена показал, что разработанный им прототип персонализированной выдачи рекомендаций буквально взорвал продажи и был тут же внедрен в систему.

 

Оцените статью
DStory
Добавить комментарий

Умеете ли вы интерпретировать данные? Пройти тест