Разница в доходе по дням месяца (e-commerce)

Гипотеза

Несколько месяцев назад, вникая в крупный e-commerce проект, и настраивая ежедневную отчетность, в голове у меня сформировалась гипотеза о том, что в начале месяца и примерно в 20-х числах сумма продаж становится больше по отношению к середине месяца. Я поделился своими мыслями с коллегами маркетологами, и они так же подтвердили верность моих мыслей. На этом казалось бы, тему можно закрывать. Мы нашли инсайт, и будем строить на нем свои маркетинговые стратегии. Но нет.

Давайте проверим и докажем или опровергнем гипотезу о том, что в начале месяца и в 20-х числах продаж становится больше. Поехали!

Проверка гипотезы

Для начала с помощью R и Google Analytics API формирую датасет с доходом по дням за 1.01.17-1.08.17:

Датасет из Google Analytics

С ним то мы и будем работать. Отредактирую date, получив из этого столбца только дни месяца:

Измененный датасет

Посмотрим на наши данные, построив диаграмму рассеяния:

Диаграмма рассеяния

Пока ничего не понятно. А что если, посмотреть на график среднего дохода по дням месяца?

График среднего дохода по дням

Ну вот тут видно, что до и после 10 числа средний доход выше, чем в остальные дни. А в 20-х числах всплеска нет. Но не будем полагаться на глаз и сделаем все по науке. Наука называется – Статистика.

С помощью дисперсионного анализа мы проверим различаются ли значимо наши доходы по дням. Но сначала убедимся в том, что наша выборка подходит для дисперсионного анализа: присутствует нормальность распределения и однородность дисперсии.

Для проверки условий я решил пойти следующим путем: при помощи теста Шапиро-Уилка проверил выборку по двум дням (10 и 20 число месяца) на нормальность. А с помощью критерия Бартлетта – на однородность.

Применение критериев для проверки условий дисперсионного анализа

Как видно из картинки выше, ни один из тестов не выявил статистически значимые отклонения от нулевых гипотез. А это значит, что оснований исключать нормальность и однородность дисперсий у нас нет. Едем дальше.

Пора переходить к самому интересному – проведению дисперсионного анализа по всей выборке:

Однофакторный дисперсионный анализ

Тут я провел однофакторный дисперсионный анализ и с помощью критерия Тьюки попарно сравнил доход по каждому дню. Минимальное значение p-value при попарном сравнении оказалось равным 0,985. Что означает – нет статистически значимых различий в доходе по дням месяца. В подтверждение этому опровержению нашей гипотезы нарисую много ящиков с усами (по каждому дню):

Ящики с усами для каждого дня месяца

Выводы

У маркетологов всегда есть пара кейсов, про погоду, пробки, НЛО… и то, как эти явления круто влияют на продажи. Но часто такие кейсы являются простыми заблуждениями. Я перефразирую пословицу и это будет посылом для всех маркетологов: Не доверяйте и проверяйте! 🙂

 

 

Добавить комментарий

Ваш e-mail не будет опубликован.