Оценка возраста аудитории сайта

С точки зрения статистики нельзя взять данные из Google Analytics и на их основе объяснить аудиторию сайта. Или сделать какие либо выводы, например, сравнить коэффициент транзакций в разрезе возраста посетителей сайта. Мы имеем дело со случайными величинами (процент конверсии, доля людей разных возрастов), а раз так, то эти случайные величины могут менять свои значения при появлении новых данных. Поэтому правильной стратегией будет исследовать диапазон распределения метрики. В качестве примера, попробуем оценить коэффициент транзакций по возрасту посетителей.

Еще о применении доверительных интервалов в маркетинге можно почитать тут.

Начало

Для начала, все-таки взглянем на данные из GA, что бы оценить то, с чем будем работать дальше.

Скрин отчета из Google Analytics

Мы видим различия в количестве посещений (Сессии): примерно у половины посетителей из тех, кого смог идентифицировать Google, возраст 25-34 года. Приятно увидеть, что у них не самая низкая конверсия, а такие случаи бывают. Заметим, что у молодых людей (18-24 года) самая низкая конверсия на сайте. А вот у группы посетителей возрастом 35-54 конверсия самая высокая. Значит ли это, что мы таргетируемся не на тех людей? Может стоит в контекстной рекламе поднять ставки на эту группу, а для молодежи снизить? И на сколько? Давайте разберемся.

Анализ

Первым делом выгружаем сырые данные из GA с помощью API. И получаем такую таблицу с данными:

Выгрузка данных из Google Analytics

Я выгрузил количество сессий и транзакций по дате и возрасту. Теперь апгрейдим нашу таблицу и добавим метрику CR(конверсия) = кол-во транзакций / кол-во сессий * 100. Cамое время оценить распределение конверсии.

Гистограмма

Сделаем выборку по конверсии для группы пользователей возрастом 18-24 года и постоим гистограмму:

Гистограмма конверсии

Как видно, распределение похоже на нормальное, но не оно. Тест Шапиро-Уилка это подтверждает:

Тест Шапиро-Уилка для показателя конверсии

Попробуем нормализовать распределение, взяв квадратный корень из конверсии нашей выборки:

Гистограмма квадратного корня из конверсии

Нам удалось немного сгладить распределение и теперь оснований отвергать нормальность распределения у нас нет:

Тест Шапиро-Уилка для показателя корня из конверсии

Далее, наша задача, посмотреть распределения других возрастных групп и выявить статистически значимые различия

Ящик с усами

Посмотреть распределения и выявить различия нам поможет “усатый ящик”:

Boxplot или ящик с усами

Ящик нам помог сделать выводы:

  1. Среди пользователей возрастом 25 – 65+ лет нет статистически значимых различий в показателе квадратного корня из конверсии. (Медиана каждой из групп лежит в 95%-м интервале других групп)
  2. Молодежь (пользователи 18-24 года) имеют отличный показатель корня конверсии. Как видно из графика – ни медиана, ни сам ящик не пересекают значения следующих трех ящиков (группа 25-54 лет). Медианы ящика с молодежью и группы пользователей 55-64 года также не попадают в доверительные интервалы друг друга, это значит что различия статистически значимы. А вот при сравнении молодежи и аудитории 65+ из графика выводы сделать сложно, т.к. не совсем видно, попадает ли медиана аудитории 65+ в верхнюю часть ящика молодежи.

Для точного определения различий в группах 18-24 и 65+ воспользуемся критерием Стьюдента, который поможет нам точно определить есть ли различия в группах:

Проверка различий по критерию Стьюдента

Сравнив показатели корня из конверсии в двух группах (18-24 и 65+) мы получили значение p < 0.05, значит мы можем отвергнуть нулевую гипотезу о том, что показатели равны.

В итоге

Проведя несколько тестов, построив несколько графиков мы выяснили следующее:

  1. Молодежь имеет конверсию ниже всех остальных групп. Это было понятно и по данным Google Analytics, но не было уверенности, что значения получены не случайно. Теперь уверенность есть.
  2. Остальные группы значимо не отличаются между собой по показателю корня из конверсии. А раз так, то смысла корректировать стратегию (например, настраивать корректировки ставок в контекстной рекламе, таргетироваться только на 35-54 года) исходя из данных GA нет. Такой вывод по данным из Analytics сделать сложно.

А дальше?

А дальше вот что. Давайте посмотрим 95% доверительный интервал для молодежи и определим в каком промежутке будет находиться конверсия.

Расчет доверительного интервала для аудитории 18-24 года

Диапазон конверсии для аудитории 18-24 лежит на промежутке: 1,44% – 1,54%. Вооружившись этим знанием, а так же знаниями по KPI мы сможем точно рассчитать эффективную стоимость клика, например, по нижней границе интервала. И сравнив CPC для молодой аудитории с CPC для остальных групп пользователей, сможем настроить нужные нам корректировки ставок в системах контекстной рекламы.

PS: Для быстрой проверки доверительных интервалов я сделал: Калькулятор доверительных интервалов

 

 

Добавить комментарий

Ваш e-mail не будет опубликован.