Radar —

Маркетинговые исследования и консультирование

CHAID-анализ

Построение деревьев классификации

Для чего это нужно?

  • Определение целевых групп
  • Проведение «последовательной» сегментации рынка (в отличие от кластерного анализа, дающего «параллельную» сегментацию)

Как это работает?

Метод основан на критерии хи-квадрат. Критерий хи-квадрат является универсальным способом определения зависимости двух или более переменных, работающим для всех типов шкал, так как завязан на таблице сопряжённости, которую можно построить для любых переменных.

На входе анализа – категориальная зависимая переменная (например, заинтересованность/незаинтересованность в услуге) и несколько независимых переменных (предикторов).

Вначале ищется самый сильный фактор, который наилучшим образом объясняет различия между категориями зависимой переменной (например, выделяет группы с наибольшим и наименьшим процентом заинтересованных в услуге). Автоматически перебираются все предикторы, ищутся все комбинации значений и находится наилучшее решение, т.е. то, которое максимизирует различия (при котором наибольший хи-квадрат).

Далее в каждой из полученных групп процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. То же – для следующих уровней. В каждой из подгрупп процесс происходит независимо, т.е. например, первым фактором оказался пол, а далее для женщин важен возраст, а для мужчин, скажем, семейное положение.

Что получаем в итоге?

В результате метод позволяет построить дерево классификации – набор последовательно выделенных сегментов с наибольшими различиями целевой переменной (например, группы с максимальным и минимальным процентом заинтересованных в услуге).

Это позволяет найти, сочетание каких признаков сильнее всего влияет на целевую переменную; а также определить наиболее перспективные целевые группы.

Каковы преимущества метода?

Метод работает с переменными всех типов, даже с номинальными (в отличие от других методов сегментации, в первую очередь, кластерного анализа).

Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традиционных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами, то более результативным будет использование именно традиционных методов.

Но как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.

Как еще больше узнать о методе?

  • Подпишитесь на нашу страницу в Facebook или Вконтакте и следите за нашими открытыми лекциями и выступлениями на конференциях. Если это научные конференции, как правило, участие в них свободное.
  • Если вы студент или выпускник НИУ ВШЭ, постарайтесь попасть на лекцию к Марку Шафиру в рамках курса «Современные методы анализа данных».
  • Закажите нам исследование с использованием этого метода.