Калькулятор статистической значимости | рассчитать достоверность A/B-теста

Содержание

Раскрыть полностью

Не каждый результат эксперимента имеет статистический вес. Некоторые значения могут быть следствием ошибки. Калькулятор достоверности помогает понять, какие из них являются значимыми для статистики и могут служить основанием для формулировки выводов.

Что такое статистическая значимость

Это показатель вероятности того, что разница между контрольным и тестовым вариантами экспериментальных данных не является случайной или ошибочной.

Простыми словами, в A/B-тестировании он показывает, с какой вероятностью тот факт, что улучшенная версия тестируемой страницы имеет более высокие оценки, не будет случайным.

Измерить надежность результатов позволяет оценка достоверности. Если она высокая, можно считать исход исследования значимым. Это помогает сделать заключение о том, что именно внесенные изменения, а не случайность, повлияли на улучшение показателей.

95-100% – высокая статистическая значимость. Внесенные изменения стоит применить на сайте.
90-95% – результат имеет невысокий процент значимости для статистики. Рекомендуется делать корректировки осторожно, а лучше повторить A/B-тестирование.
Менее 90% – данные не значимы для статистики. Не рекомендуется вносить такие изменения.

Этот параметр применяется не только в маркетинге, он также важен для бизнеса. Компании используют его, чтобы проводить эксперименты и отслеживать их влияние на коэффициент конверсии бизнеса. При проведении опросов помогает оценить, насколько ответам можно доверять.

Как провести A/B-тестирование

A/B тестирование чаще всего заключается в сравнении двух веб-страниц, которые отличаются лишь одним измененным элементом. При этом страница А остается прежней и служит контрольной. На странице В вносится небольшое изменение, она является тестовой.

Чтобы получить статистически значимый результат, необходимо тестировать страницу, на которой меняется только один элемент. Корректирование сразу нескольких элементов не позволит понять, какое именно изменение привело к улучшению показателей.

Коррекциям и тестированиям подлежат прежде всего те элементы, которые нужны для проявления активности пользователей и увеличения конверсии:

призывы к действию;
кнопки CTA;
заголовки;
рекламные тексты;
изображения;
описания товаров.

Изменение может предполагать не только полную замену элемента, но и коррекцию:

дизайна;
шрифтов;
цвета.

После того, как создана дублирующая исходную страница с каким-либо измененным элементом, запускают A/B-тест. При этом половина трафика направляется на контрольную страницу А, а вторая половина – на тестовую В. При этом посетители никогда не узнают, что вошли в фокус-группу и стали участниками маркетинговых исследований.

При получении статистически значимых результатов эксперимента лидером тестирования становится та версия, которая лучше сказывается на конверсии.

Существует несколько правил работы с A/B-тестами:

Правила работы с AB-тестами — Правила работы

Правило возврата. Пересмотр ранее проведенных тестов хотя бы раз в полгода способствует возникновению новых идей и даже может заставить изменить подход к тестированию.
Правило А/А-теста. Одновременное тестирование абсолютно идентичных веб-страниц при определенной выборке дает возможность увидеть, не рано ли приступать к А/Б-тестированию. Если показатели похожи, а стандартное отклонение значений не превышают 10%, пора переходить к реальному сплит-тесту.
Правило общего тестирования. Тестировать можно не только сайты, но и другие маркетинговые инструменты: рассылки, всплывающие окна, опросы и даже определять самое удачное время получения письма пользователем.
«No Peeking» Rule или правило «Не подглядывать». Просматривая промежуточные цифры до завершения теста, есть соблазн закончить его раньше времени. Данное правило звучит так: как положительный, так и отрицательный результат, полученный при малой выборке, с высокой вероятностью окажется случайным. Поэтому не стоит доверять данным, если они были получены до окончания эксперимента.
Другие правила:
- Проводите A/B-тест последовательно и не менее 7 дней;
- Используйте калькуляторы только после того, как статистических данных станет достаточно для анализа;
- Не меняйте параметры теста до его завершения, это приведет к их искажению.

Вместо многочисленных A/B-тестов можно подключить к рекламной кампании сквозную аналитику на основе коннекторов. Она покажет, какие корректировки положительно влияют на конверсию, а какие сливают бюджет.

С чем можно столкнуться при A/B-тестировании

Разберем основные трудности, ошибки и подводные камни, которые часто встречаются при проведении А/Б-тестов.

Тестирование нескольких элементов одновременно. Так бывает, когда нужно протестировать, например, письмо для email-рассылки с коротким и длинным текстом. При этом в длинном письме не только больше текста, но и другая его структура, формулировка предложений, добавлены визуальные элементы, которых нет в коротком письме. Тестирование в данном случае заведомо непоказательно.
Проблема подглядывания. Частично о ней мы уже упоминали выше. В данном случае проблема заключается в том, что p-value может как расти, так и опускаться ниже нужного уровня значимости в процессе тестирования. Эти колебания случайны, поэтому вывод о значимости для статистики рискует быть ошибочным, если делать его до завершения эксперимента.
Непостоянство данных. Параметры сайтов нестабильны, они могут меняться в зависимости от ряда факторов, поэтому и итоги A/B-тестирования тоже могут отличаться. Вот основные факторы влияния:
- сезон или время года;
- праздничные дни, период каникул, отпусков;
- день недели;
- появление в СМИ статей о компании;
- изменения в рекламе;
- изменения в SEO-продвижении;
- распространяемое мнение о компании, слухи, отзывы.

Чтобы сгладить последствия влияния внешних факторов, нужно взять за правило: регулярно проводить мониторинг корректировок и отслеживать закономерности, а также перепроверять то, что выдает А/В-тестирование.

Как определить уровень значимости

Чтобы в конце тестирования сделать правильные выводы, необходимо определить их уровень значимости (significance level). Он показывает, при каких условиях тот или иной вариант будет закономерным. Обычно достоверным считается показатель, полученный в пределах от 90 до 95%.

Для проверки статистической значимости нужно:

Провести эксперимент и собрать сведенья, чтобы сделать разные предположения.
Сформулировать две гипотезы: нулевую и альтернативную. Нулевая гипотеза утверждает, что между сравниваемыми фактами нет связи, альтернативная – что связь существует.
Если стоит задача доказать, что все факты идентичны, нужно рассчитать вероятность получения наблюдаемую или большую разницу между предположениями (p-value).
Если p-value ниже порогового уровня, то нулевую гипотезу можно отвергнуть и утверждать о значительной разнице между сравниваемыми группами.
Если p-value больше порога, то из двух гипотез исходная подтверждается, а альтернативная отвергается.

Для расчета уровня значимости обычно используется калькулятор. Онлайн-сервис позволяет быстро выполнить расчет, не проводя сложных математических вычислений вручную.

Пример расчета

В конце A/B-теста двух страниц сайта были получены такие данные:

Вариант 1: 1500 новых посещений, из них конверсия – 3 человека;
Вариант 2: 1500 новых посетителей, из них конверсия – 12 человек.

В калькулятор (calculator) вносим эти числа, чтобы узнать, являются ли они значимыми. При этом выбираем уровень достоверности 95% и смотрим отчет.

Пример расчета статистической значимости — Пример расчета

Из вердикта видно, что рост конверсии на странице 2 с вероятностью 95% доказывает влияние внесенных правок на показатель и не является случайностью. Подобные примеры можно приводить бесконечно.

Основные показатели

CR (conversion rate) – коэффициент конверсии. Показывает предполагаемое число конверсий на каждого посетителя в процентах. Рассчитывается по формуле:
CR = (Конверсия / Трафик) × 100%
Uplift – повышение. Показывает относительный рост конверсии при сравнении двух экземпляров. Может принимать отрицательное значение, если эффективность исходной страницы выше, чем новой.
Uplift = (CR Б / CR А) × 100%
P-value – вероятность получения случайных цифр. Для расчета этого показателя чаще всего используется онлайн-калькулятор.
Доля признака в генеральной совокупности, для которой определяется ошибка.
Ошибка выборки или размер доверительного интервала (confidence interval) – отклонение результатов, которые были получены в ходе исследования. Бывает систематическая и статическая.

Статистические критерии, которые рассчитываются с применением калькуляторов

Онлайн-калькуляторы позволяют рассчитывать множество статистических показателей, вот самые распространенные из них:

выбор статистического метода;
расчет относительных величин;
оценка значимости отличий между средними величинами по t-критерию Стьюдента;
оценка значимости изменений средних величин с помощью парного t-критерия Стьюдента;
анализ динамического ряда;
расчет демографических показателей;
прямой метод стандартизации;
определение относительного риска;
вычисление отношения шансов;
анализ четырехпольной таблицы;
расчет показателей вариационного ряда;
расчет критерия Манна-Уитни;
корреляционно-регрессионный анализ;
определение коэффициента корреляции Спирмена;
анализ произвольных сопряженных таблиц с помощью критерия хи-квадрат (х²).

Критерии оценки

Критерий Стьюдента. Разработан для оценки различий между средними величинами двух распределенных по нормальному закону выборок. Благодаря широте применения может использоваться и для сравнения средних у связных и несвязных выборок, в т. ч. различающихся по величине.

Критерий Стьюдента применяется при следующих условиях:

выборочные совокупности распределяются по нормальному закону;
измерение может проводиться в шкале отношений и интервалов.

Автоматический расчет t-критерия осуществляется с помощью калькулятора. Для этого нужно:

Определить тип выборочной совокупности: зависимые (связанные) или независимые (несвязанные).
Ввести данные для первой и второй выборок, после чего запустить расчет.

F-критерий Фишера. Применяется для проверки статистической значимости как отдельных коэффициентов уравнения регрессии, так и его целиком. Для расчета F-критерия в общем виде используется следующая формула:

F = S²факт / S²ост, где:

S²факт – факторная дисперсия;

S²ост – остаточная дисперсия.

Для полученного в ходе расчета значения F-критерия Фишера определяют статистическую значимость путем его сравнения с табличным (критическим) значением.

Как пользоваться калькулятором

Калькулятор статистической значимости позволяет выполнить вычисления в несколько шагов:

Шаги вычисления статистической значимости — Шаги вычисления

Укажите данные выборки и количество конверсий для версии А.
Введите цифры выборки и количества конверсий для версии В.
Задайте достоверность, передвинув ползунок на отметку 95%.

В калькуляторе варианты А и В – это просто сравниваемые гипотезы. Например, при А/В-тестировании это могут быть данные по исходной и измененной веб-страницам.

Калькулятор автоматически определит результат по указанным данным и напишет, какой имеет более высокую достоверность.

Как интерпретировать результаты

Калькулятор способен выдавать три вариации ответов:

«победил вариант А» – означает, что итоги А-теста говорят о повышении целевых показателей после тестирования;
«победил вариант В» – это значит, что по итогам A/B-тестирования версия В показала улучшенные характеристики;
«между вариантами нет разницы» – полученные сведенья не являются статистически значимыми.

Со статистической значимостью связаны следующие распространенные ошибки:

Магия цифр – параметры являются доказательством того, что один вариант лучше другого.
На самом деле А/Б-тест не позволяет доказать это, а отражает лишь тот факт, что в одной из версий целевые показатели оказываются более высокими.
Вера в то, что одна версия превосходит другую.
В действительности цифры демонстрируют исключительно вероятность того, что данные, полученные при A/B-тестировании, не случайны.
Значимость мышления.
Речь не идет о том, что пользователи предпочитают одну страницу другой. Оценивается влияние внесенных изменений на то, как ведут себя пользователей.

Определение размера выборки

Выборка – это количество респондентов, которые приняли участие в исследовании. В случае с А/Б-тестированием – посетили обе веб-страницы. Принято считать, что чем больше выборка, тем точнее результат.

Для расчета размера выборочной совокупности удобно пользоваться онлайн-калькулятором. Чтобы быстро посчитать это значение:

Укажите базовую конверсию сайта.
Задайте минимальный видимый эффект (предполагаемый прирост конверсии).
Передвиньте ползунок на нужный уровень достоверности (рекомендуемое значение – 95%).
Задайте статистическую мощность теста.
Выберите нужный способ изменения – абсолютная или относительная величина.

В качестве ответа калькулятор покажет расчетное число уникальных посетителей для каждой тестируемой версии.

Часто задаваемые вопросы

Для чего нужно вычислять статистическую значимость А/Б-теста?

Это позволит определить, можно ли доверять цифрам, которые были получены в ходе проведения A/B-тестирования.

Как рассчитать необходимый для А/Б-теста трафик?

Он оценивается с помощью модели расчет, основанной на общей посещаемости сайта. Если на ресурс приходит меньше 10 тыс. посетителей в месяц, конверсия должна быть более 25%. Если ежемесячное число посетителей достигает 100 тыс. человек, конверсия должна превышать 9%. При трафике до 1 млн пользователей достаточно иметь конверсию в пределах от 2 до 9%.

Как исправить результаты калькуляции?

Вот несколько советов по повышению статистической значимости A/B-тестов:

получите более согласованные величины с минимальными отклонениями;
увеличьте объем выборки и длительность тестирования;
обеспечьте рост конверсии при сравнении веб-страниц.

Для чего применяют калькулятор выборки?

Упрощенные калькуляторы применяются для облегчения и ускорения процесса вычисления. Мы предлагаем более расширенную версию для определения размера выборочной совокупности, которая нужна для получения статистически значимого итога эксперимента.

Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter

В избранное

Калькулятор достоверности