Определение объема выборки

Текущая конверсия сайта (до теста)
%
Минимальное значение относительной разницы в конверсии, которую нужно получить в результате теста
%
Вероятность того, что реальное значение параметра является истинным
80 99
Вероятность того, что будет отвергнута нулевая гипотеза
60 99
Ответ:
Величина
Размер выборки
1,728
на вариант
  1. Что такое размер выборки
  2. Зачем необходимо рассчитывать выборку
  3. Основные понятия определения выборки
  4. Что влияет на результаты
  5. Типы выборок
  6. Расчет объема выборки
  7. Доверительный интервал
  8. Статистическая значимость
  9. Частые вопросы
  10. Подводим итог
Раскрыть полностью

Запуск рекламной кампании в маркетинге предполагает А/В-тестирование, однако не каждый проведенный тест будет показательным, а его результаты – значимыми для статистики. Одна из распространенных ошибок при проведении исследований – неправильное определение нормального размера выборки. Как следствие – запуск рекламы, которая не даст результатов, и зря потраченные деньги.

Что такое объем выборки

Объем выборки – это количество людей из общего числа целевой аудитории (ЦА) продукта или бренда, участвовавших в исследовании, или количество заполненных анкет, которые были учтены при подсчете результатов.

Что такое размер выборки

Выборка

Термин «выборка» говорит о том, что из всей совокупности участников опроса проводится оценка лишь части ответов.

В зависимости от параметров проекта, которые были указаны изначально, выборка может быть разной. Например, при случайной выборке респонденты выбираются из целевой совокупности случайным образом.

Зачем необходимо рассчитывать

Объем выборки определяют перед запуском количественных исследований в маркетинге (например, контент-анализа), чтобы узнать, какое число представителей ЦА должно поучаствовать в тестировании, и получить достоверные результаты. Если данных о объеме выборки нет, это может стать причиной того, что исследователь получит некорректные результаты.

Для качественных исследований объем выборки не определяют. Также он неактуален, если речь идет о проведении пилотных, т. е. предварительных исследований.

Основные понятия определения

В определении размера выборки участвуют различные параметры:

Параметры участвующие в определении размера выборки

Параметры
  • генеральная совокупность;
  • выборочная совокупность;
  • достоверность измерений;
  • репрезентативность выборки;
  • нулевая и альтернативная гипотезы;
  • доверительная вероятность;
  • уровень значимости;
  • мощность;
  • клинически важный размер эффекта;
  • односторонний / двусторонний тест значимости;
  • доверительный интервал;
  • погрешность измерения;
  • процент ответов.

Разберем, что означают основные из них.

Генеральная совокупность

Генеральной совокупностью называется общее количество объектов наблюдения, которые обладают определенными общими признаками (возраст, пол, оборот, численность, доход и пр.) и о которых будут сделаны заявления после обработки результатов исследования.

Генеральная совокупность

Пример

Объектами наблюдения могут быть люди, предприятия, домохозяйства, населенные пункты, отдельные малые социальные группы и т. д.

Например

Если известно, что результаты опроса касаются всех жителей Москвы, то генеральная совокупность будет равна общей численности населения города, т. е. 13 млн человек (по данным 2021 года).

Оценивать свойства генеральный совокупностей, основываясь на выборочных методах, позволяет кривая нормального распределения.

Выборочная совокупность

Выборка или выборочная совокупность – это некоторая часть объектов из числа генеральной совокупности, отобранная для участия в исследовании с целью оценить распределение мнений и сделать итоговое заключение, которое будет распространяться на всю генеральную совокупность.

Характеристики выборочной совокупности должны корректно отражать параметры генеральной совокупности, т. е. обладать свойством репрезентативности. Только в данном случае заключение, сделанное исходя из результатов анализа выборки, будет с одинаковой вероятностью распространяться на представителей всей генеральной совокупности.

Пример

Выборка, состоящая из работников московских предприятий, не будет репрезентировать население города трудоспособного возраста и особенно все население столицы, т. к. не включает неработающих людей, женщин в декрете, удаленных сотрудников и т. д. Даже если мы будем увеличивать количество опрошенных работников столичных компаний, выборка все равно не сможет отразить характеристики генеральной совокупности, т. е. всего трудоспособного населения Москвы.

Погрешность измерений

Допустимая погрешность измерений – это процент возможной ошибки или отклонения результатов исследования, т. е. то значение, на которое истинный показатель может откланяться от значения, полученного в результате исследования.

Чем меньше погрешность, тем больше должна быть выборка.

Пример

Результаты опроса показали, что 60% опрощенных предпочитают делать покупки в сетевых магазинах. Предел погрешности 5% говорит о том, что в генеральной совокупности доля сторонников сетевых точек продаж может увеличиться или уменьшиться на 5% относительно уровня полученных 60%. Т. е. фактическое значение будет лежать в пределах значений от 55 до 65%.

Достоверность измерений

Уровень достоверности (надежности) измерений – это вероятность того, что полученные в результате исследования истинные результаты выбранного параметра генеральной совокупности находятся в пределах ее доверительного интервала (в примере выше это интервал 55-65%). Простыми словами, это степень уверенности в репрезентативности результатов.

Чем меньше доверительный интервал и выше заданный уровень достоверности, тем больше должна быть выборочная совокупность.

Пример

Если взять приведенный выше в статье пример с погрешностью в 5%, вы можете быть уверены в следующем: вероятность того факта, что от 55 до 65% людей предпочитают совершать покупки в сетевых магазинах, составляет не менее 95%.

Репрезентативность выборки

Под репрезентативностью понимают степень соответствия характеристик выборочной совокупности характеристикам генеральной совокупности, которые можно экстраполировать на всю популяцию.

Например
  • выборка, состоящая на 100% из автомобилистов Санкт-Петербурга, не репрезентирует всех жителей Санкт-Петербурга;
  • выборка, состоящая только из российских фирм B2B с количеством сотрудников до 200 человек, не репрезентирует все компании страны, работающих в этом сегменте.

Исследование должно быть репрезентативным, если стоит задача по результатам количественного исследования сформировать представление о популяции в целом и правильно оценить ее. Если же исследование качественное или люди опрашиваются ради сбора мнений, предложений, идей, в этом случае репрезентативная выборка практически не играет роли.

Что влияет на результаты

Результаты тестирования могут изменяться под влиянием ряда факторов:

Факторы влияющие на результат

Факторы
  • количество вводных данных для анализа результатов;
  • правильность постановки гипотезы;
  • выбор той или иной метрики (показателя, переменных) для исследования;
  • количество тестируемых вариантов;
  • мощность исследования;
  • уровень статистической значимости;
  • стандартное отклонение (коэффициент) для количественных метрик;
  • клинически значимый эффект;
  • одно- / двусторонний тест значимости;
  • наличие парных данных в тестировании;
  • повторное измерение одних и тех же показателей;
  • равенство численности групп, участвующих в исследовании;
  • наличие иерархических данных.

Также расчет размера выборки может давать разные результаты, если анализ является:

  • рандомизированным и контролируемым;
  • рандомизированным и кластерным;
  • нерандомизированным экспериментом вмешательства;
  • исследованием эквивалентности;
  • исследованием распространенности;
  • обсервационным;
  • изучением специфичности и чувствительности теста.

Нерандомизированные тестирования взаимосвязей или различий предполагают задействования в маркетинговых исследованиях выборки гораздо большего размера, чтобы при анализе было не сложно учесть влияние третьих факторов.

Типы выборок

Различают два типа выборок: вероятностные и невероятностные или детерминированные. Каждая группа включает в себя виды. Разберем, какие из них входят в каждый тип.

Типы выборок

Типы

Вероятностные выборки:

  1. Случайная или простой случайный отбор – предполагает полный список элементов (отбираются при помощи таблицы случайных чисел), равную вероятность доступности всех из них и однородную генеральную совокупность;
  2. Механическая или систематическая – выступает в качестве разновидности случайной выборки, при этом упорядочивание происходит по тому или иному признаку, причем первый элемент отбирается случайно, затем с шагом n отбирается каждый последующий элемент;
  3. Стратифицированная или районированная – выборка используется при неоднородной генеральной совокупности, которая разделяется на страты (группы), в каждой из которых выполняется случайный отбор пропорционально их доле в генеральной совокупности;
  4. Серийная или кластерная, или гнездовая – единицами отбора выступают целые группы (гнезда или кластеры), которые могут попасть в выборку случайным образом, а все объекты внутри них подлежат сплошному исследованию.

Невероятностные (детерминированные) выборки:

  1. Квотная выборка – формируется несколько групп объектов, в каждой из которых зачастую пропорционально доле в генеральной совокупности задается определенное число объектов, которые нужно исследовать;
  2. Метод снежного кома – для формирования выборки каждый участник опроса предоставляет контакты своих знакомых; применяется для исследования труднодоступных групп респондентов;
  3. Стихийная выборка или выборка «первого встречного» – ее состав и размер заранее неизвестен и зависит от активности людей, опрос проводится среди самых доступных респондентов (интернет-опросы, опросы в журналах и газетах, анкеты на самозаполнение и т. д.);
  4. Выборка типичных случаев – для исследования отбираются отдельные представители генеральной совокупности, которым присуще среднее значение исследуемого признака.

Отбор в детерминированных выборках происходит не случайно, а по субъективным критериям: типичности, доступности, равного представительства каждой стороны и пр.

Расчет объема выборки

Расчет объема выборки – своего рода компромисс между требуемой мощностью исследования и возможностью реализовать его на практике с учетом имеющихся ресурсов и фокус-группы. При этом выбор метода расчета во многом определяется знаниями о параметрах и характеристиках изучаемых параметров.

Определить объем выборки можно двумя способами: по таблицам и с помощью формулы. Разберем эти методы.

По таблицам

Когда никаких данных о предстоящем исследовании нет, а сам эксперимент является инновационным, никто ранее ничего подобного не проводил и не предлагал решения, для определения объема выборки лучше выбрать табличный метод.

Ниже представлены различные методики. Выбор той или иной из них определяется имеющимися исходными данными или пожеланиями исследователя.

Таблица А. Определение объема выборки по методике К. А. Отдельновой

Уровень значимости

Уровень точности

Ориентировочное знакомство

Исследование средней точности

Исследование высокой точности

0,01

100

225

900

0,05

44

100

400

Объем выборки указан в абсолютных значениях.

Таблица Б. Методика определения размера выборки В. И. Паниотто

Размер генеральной совокупности

500

1000

2000

3000

4000

5000

10000

100000

Объем выборки

222

286

333

350

360

370

385

398

400

Данные указаны в единицах.

Таблица В. Методика N. Fox для определения объема выборки

Процент допускаемой ошибки

Объем выборки в единицах

10

88

5

350

3

971

2

2188

1

8750

Таблица Г. Определение размера согласно способу K. Mitra, S. Das, M. Mandal

Величина различий между основной и контрольной группами

Уровень значимости

Мощность

Объем выборки

0,2

0,5

80

586

0,2

0,1

80

773

0,2

0,5

90

746

0,4

0,5

80

146

0,4

0,1

80

193

0,4

0,5

90

186

0,6

0,5

80

65

0,6

0,1

80

86

0,6

0,5

90

83

По формулам

Объем выборки, достаточный для проведения новых исследований, определяется следующими параметрами:

  • изменчивость признака;
  • уровень доверия;
  • размер эффекта.

Объем выборки всегда зависит от предполагаемой строгости эксперимента и изменчивости исследуемого признака.

Формула для оценки среднего значения размера выборки:

n = (z × σ / H)2, где:

n – размер выборки;

z – доверительный уровень (при р = 0,05 z = 1,96);

σ – стандартное отклонение;

Н – допустимая ошибка в натуральных величинах.

Формула для оценки доли выборки:

Формула для оценки доли выборки

Где:

n – размер выборки;

z – доверительный уровень (при р = 0,05 z = 1,96);

p – доля признака (наибольшее значение достигается при р = 0,5);

H – допустимая ошибка в процентах.

Еще одна формула расчета объема выборки (чаще всего калькулятор размера выборки использует именно ее):

формула расчета объема выборки

Где:

n – размер выборки;

z – нормированное отклонение;

p – вариация для выборки;

q = 1 – р;

е – допустимая ошибка.

Нормированное отклонение (z) определяется по таблице, зная основные значения доверительной вероятности (α).

α, %

60

70

80

85

90

95

97

99

99,7

z

0,84

1,03

1,29

1,44

1,65

1,96

2,18

2,58

3,0

Последняя формула расчета имеет особенности.

  • Начинать считать размер выборки следует с проведения качественного анализа генеральной совокупности, чтобы выяснить степень схожести и близости исследуемых единиц совокупности относительно их географических, демографических, социальных и других характеристик.
  • Рекомендуется предварительно выполнить пилотное исследование с целью определения приблизительного значения р.
  • Если максимальная вариация р = 50%, то и значение q = 50%, что является наиболее худшим вариантом.

Пример расчета размера выборки

Маркетолог проводит исследование с целью определить, нужны ли компании визитки. Для этого промоутеру предстоит опросить потенциальных клиентов и задавать только один вопрос: «Вы пользуетесь визитками?». На что человек должен будет ответить «Да» или «Нет».

В таком случае размер выборки будет рассчитываться так. Принимаем, что уровень доверительности равен 95% (стандартное значение). При этом нормированное отклонение z составит 1,96. После предварительного анализа предположим, что 80% представителей генеральной совокупности дадут положительный ответ, а значит, р = 0,8. Соответственно, q = 1 – 0,8 = 0,2. Вероятность допустимой ошибки примем за 10%, т. е. e = 0,1. Теперь можно выполнить расчет.

Расчета размера выборки

Округлив значение, получаем размер выборки n = 62 человека. Соответственно, в опросе с заданными параметрами нужно задействовать 62 человека из числа целевой аудитории компании.

Подходы к определению размера выборки

Выделяют несколько подходов, которые позволяют установить объем выборки для проведения статистического исследования.

Подходы к определению размера выборки

Подходы
  1. Арбитражный подход. Объем выборки составляет определенный процент от генеральной совокупности. Например, 10% от общего количество потребителей.
  2. Традиционный подход. Выборка составляется на основе определенных норм, которые были выработаны в процессе проведенных ранее исследований. Подход игнорирует обстоятельства и условия, строгая логика отсутствует.
  3. Затратный подход. Объем выборки определяется в зависимости от стоимости сбора информации и возможных затрат на материалы для проведения исследования.
  4. Подход на основе использования доверительных интервалов. Размер выборки в этом случае рассчитывается по формуле, что обеспечивает высокую точность результата:

    n = (p × q) / s2, где:

    n – размер выборки;
    p – вероятность того, что нужное событие наступит, %;
    q = 100% – p;
    s – стандартное отклонение, которое соответствует доверительному уровню.

Ошибки выборки

Объем выборки при массовом исследовании определяется двумя факторами:

  1. Точностью полученных данных или статистической погрешностью.
  2. Размером и количеством подгрупп, на которые будет разбита выборка при проведении анализа.

При любом исследовании, которое предполагает выборочный опрос респондентов из генеральной совокупности, может присутствовать погрешность данных или ошибка выборки. Выделяют два ее типа:

  • случайная – обусловлена действием статистических законов, поэтому очень легко рассчитывается по формулам теории вероятности и математической статистики;
  • систематическая – является следствием неточностей при проектировании выборки, определить ее степень смещения, направление и размер практически невозможно.

При расчете размера выборки важно так собрать данные, чтобы вероятность систематической ошибки в результате работы была минимальной.

Расчет случайной ошибки выборки зависит от объема последней, а также от степени однородности данных (дисперсии). Принцип такой: чем меньше дисперсия, тем меньше ошибка. Для расчета чаще всего используют онлайн калькуляторы.

Также выделяют:

  • Ошибки первого рода – альфа-ошибка, при которой делается вывод о достоверности гипотезы, которая на самом деле неверна. Величина выбирается произвольно в диапазоне от 0 до 1, чаще всего это значение 0,05 или 0,01.
  • Ошибки второго рода – бета-ошибка, при которой тот факт, что гипотеза неверна, остается не выявленным. Значение, как правило, устанавливается на уровне 0,2.

Расчет доверительного интервала

Для расчета доверительного интервала применяются достаточно простые формулы, выбор которых зависит от доли выборки в составе генеральной совокупности.

Если выборка значительно меньше генеральной совокупности:

Если выборка меньше генеральной совокупности

Если выборка и генеральная совокупность сопоставимы:

выборка и генеральная совокупность сопоставимы

В обеих формулах:

Δ – предельная ошибка выборки в процентах;

z – нормированное отклонение или z-фактор;

p – доля респондентов с наличием признака, который исследуется;

q – доля респондентов без исследуемого признака;

n – размер выборки;

N – объем генеральной совокупности (сколько всего респондентов).

Доверительная вероятность (точность)

Объем выборки

Генеральная совокупность

Процент ответов

Доверительный интервал  ( ± %)

Доверительный интервал удобно рассчитывать с помощью онлайн-калькулятора, который использует те же формулы, что мы привели выше. Просто введите необходимые переменные, и система рассчитает результат.

Расчет статистической значимости

Определить этот показатель проще всего с помощью онлайн-сервиса. Калькулятор позволяет проверить, существует ли статистически значимая разница между долями признака, которые были получены из независимых выборок.

Расчет статистической значимости

Рассчитывать статистическую значимость можно только в том случае, если произведения (n × p) и (n × (1 – р)) превышают значение 5. При этом n – объем выборки, р – доля признака.

Часто задаваемые вопросы

Обычно размер выборки и ее статистическая значимость прямо пропорциональны, т. е. с ростом выборки получение случайных результатов сводится к минимуму. Важность статистической значимости зависит от определенной ситуации. Вот некоторые из них.

Ситуация

Важность статистической значимости

Опросы сотрудников

Важна, т. к. повышает всесторонность выводов по итогам опроса.

Опросы клиентов об уровне их удовлетворенности

Не имеет значения, т. к. важен каждый ответ независимо от того, положительный он или отрицательный.

Исследование рынка

Имеет решающее значение, т. к. помогает сделать вывод о целевом рынке.

Опросы об образовании

Важна, если нужно использовать результаты исследования при внесении изменений в учебном заведении.
Не важна, если единственная цель применения – просто собрать обратную связь.

Здравоохранение

Помогает выявлять серьезные проблемы, делать выводы в исследованиях. Если же опрос проводится ради оценки удовлетворенности пациентов, то не имеет значения.

Опросы для развлечения

Не важна.

Заданный размер выборки нужен для получения оценок с желаемым уровнем точности, если речь идет об исследовании распространенности в популяции конкретной характеристики.

  • Мало просмотров.
  • Узкая тематика.
  • Низкий бюджет.
  • Высокий бюджет.

Чтобы правильно рассчитать размер выборки и провести показательное исследование с учетом выдвинутых требований:

  • наберитесь терпения и дождитесь, пока соберется требуемое количество респондентов;
  • будьте последовательны и показывайте рекламу только ЦА в определенное время;
  • устанавливайте высокий уровень достоверности при расчете выборки.

При определении объема выборки основную роль играет переменная исхода конкретного исследования. Если в расчет добавляются дополнительные важные переменные, то размер выборки должен позволять адекватно проанализировать их.

Это такое количество объектов исследования, которое позволит получить максимально точный и достоверный результат с предельно небольшой погрешностью. При этом его можно репрезентовать на более широкую аудиторию, в т. ч. по отношению к генеральной совокупности.

Заключение

Объем выборки – важный показатель, без которого невозможно провести адекватное исследование и сделать объективные выводы. Он отражает количество представителей целевой аудитории, которое будет принимать непосредственное участие в эксперименте, и требуется во всех случаях, когда стоит задача сделать определенные заключения по результатам опроса.

Нашли ошибку в тексте? Выделите нужный фрагмент и нажмите ctrl + enter

Почитать еще

Что нового в интернет-маркетинге?

Подпишись на рассылку и будь в курсе новых событий!

Только самое полезное, никакого спама

У вас есть интересный материал?

Вы можете опубликовать его в нашем блоге!

Жмите на кнопку и присылайте свою статью

Предложить публикацию