Кластеризация - это алгоритм машинного обучения без учителя, при котором цель неизвестна. Цель оценивается путем группировки неотличимых наблюдений в один кластер с выделением совершенно несопоставимых наблюдений. Кластеризация включает в себя разделение числа n наблюдений на кластеры p-типа. Например, в маркетинговом анализе аналитик имеет оценку нескольких других показателей для статистической сегментации групп клиентов, таких как возраст, доход, пол, географическое положение и т. Д. На основе данных параметров необходимо выполнить сегментацию рынка, распознавая отдельные и заметные подгруппы. людей, которые могут быть более восприимчивы к той или иной форме рекламы или с большей вероятностью купят определенный продукт. Сегмент, как правило, представляет собой кластер наблюдений за клиентами для принятия стратегического решения о том, как продавать дополнительные и перекрестные продажи объектов на основе потребностей и желаний пользователей.

Итак, зачем нам сегментация клиентов или кластеризация? Назначение кластеризации является фундаментальным для сегментации при объединении похожих клиентов и продуктов в маркетинговую деятельность. Компании не могут нацеливаться на каждого клиента, а скорее распределяют клиентов на основе их предпочтений для нацеливания на отдельные кластеры, позиционируя себя в уникальном сегменте. Например, фирма может захотеть разделить клиентов на основе их чувствительности к цене, качества продукта и лояльности к бренду. Результирующие переменные, измеряемые по шкале Лайкерта, более высокое значение означает большую склонность к чувствительности к цене, качеству продукта и лояльности к бренду, тогда как низкое значение означает меньшую интенсивность.

Dell в основном использует сегментацию клиентов в своей рыночной стратегии наряду с сегментацией продуктов, когда она ориентируется на несколько сегментов рынка и разрабатывает для них отдельные продукты или предложения. С одной стороны, географически Dell сегментировала рынок на США / Америку, EMEA и Азиатско-Тихоокеанский регион - Японию, где в каждой области действуют разные стратегии ценообразования и маркетинга. С другой стороны, с демографической точки зрения нет предвзятости по возрасту, полу или расе, но доход, род занятий и образование играют роль в определении потребностей клиентов и, следовательно, предложения продукта.

Брендинг и сегментация помогли бизнесу создать рыночные стратегии, ориентированные на клиента, чтобы получить представление о предпочтениях клиентов и привлечь ценных клиентов. Например, такая компания, как Dell, одна из крупнейших в мире компаний, занимающихся компьютерными системами, нацелена на два класса клиентов на основе взаимоотношений с клиентом и клиентом-транзакционером. Клиенты, основанные на взаимоотношениях, - это корпорации, правительство и сектор образования, на долю которых приходится значительная часть прибыли. С другой стороны, традиционные клиенты чувствительны к ценам, ища недорогие, более надежные, качественные услуги и продукты с добавленной стоимостью.

Более того, существует несколько подходов к разбиению на группы. Эти подходы представляют собой иерархические методы, методы разделения (точнее, k-средних) и двухэтапную кластеризацию, которая в значительной степени представляет собой комбинацию первых двух методов. Важным затруднением при применении кластерного анализа является решение о том, сколько кластеров следует извлечь из данных. Всегда существует компромисс между выбором множества кластеров, позволяющих идентифицировать многочисленные сегменты, и огромными тонкими различиями между сегментами, вместо того, чтобы брать несколько кластеров, насколько это возможно, чтобы сделать их легкими для понимания и действенными.

Иерархические методы

Этот метод следует типичному древовидному подходу к элементам кластера. Кластеризация основана на мере сходства и несходства. Это можно оценить путем вычисления расстояний между данной парой объектов. Обычно объекты с более короткими расстояниями группируются в одни и те же группы, в противном случае они считаются несходными.

Агломеративная кластеризация - это метод восходящей кластеризации, при котором кластеры имеют подкластеры, начинается с разделения набора данных на одноэлементные узлы и шаг за шагом объединяет текущую пару взаимно ближайших узлов в новый узел. пока не останется один последний узел, содержащий весь набор данных. Базовый метод состоит из различных схем кластеризации, различающихся способом, которым мера межкластерного различия обновляется после каждого шага. Семь наиболее распространенных методов называются одиночным, полным, средним (UPGMA), взвешенным (WPGMA), Ward, центроидным (UPGMC) и медианным (WPGMC) сцеплением.

Разделяющая иерархическая кластеризация - метод кластеризации сверху вниз, который используется реже. Он работает аналогично агломеративной кластеризации, но в противоположном направлении. Этот метод начинается с одного кластера, содержащего все объекты, а затем последовательно разбивает результирующие кластеры, пока не останутся только кластеры отдельных объектов.

Показатели расстояния:

Евклидово расстояние - общепринятая метрика расстояния, евклидово расстояние вычисляет корень квадратной разницы между координатами пары объектов.

Городской квартал или расстояние Манхэттена - Расстояние Манхэттена вычисляет абсолютные различия между координатами пары объектов.

Расстояние Чебышева - Расстояние Чебышева, также известное как расстояние максимального значения и вычисляемое как абсолютная величина разницы между координатами пары объектов. Показатель, применяемый, когда наблюдения являются порядковыми.

Расстояние Минковского - это расстояние может использоваться как для порядковых, так и для количественных переменных.

Другой важный набор процедур кластеризации - это метод разделения по K-средним, один из самых мощных методов исследования рынка, который полностью отличается от описанного выше алгоритма. Алгоритм требует вычисления k числа центроидов, каждый элемент затем будет назначен ближайшим центроидам, и процесс повторяется итеративно, пока каждое наблюдение не будет кластеризовано в группы.

К-означает кластеризацию

Другой важный набор процедур кластеризации - это метод разделения по K-средним, один из самых мощных методов исследования рынка, который полностью отличается от описанного ранее алгоритма. Алгоритм требует вычисления k числа центроидов, каждый элемент затем будет назначен ближайшему центроиду, и процесс повторяется итеративно, пока каждое наблюдение не будет кластеризовано в группы.

Первым шагом является определение количества k центроидов разбиения.

Исходя из вышеперечисленных параметров, характеристики внутри элементов будут однородными, при этом различия между группами будут максимальными.

Двухэтапная кластеризация

Метод решает проблему анализа смешанных переменных, измеренных на разных масштабных уровнях. Алгоритм основан на двухэтапном подходе: на первом этапе алгоритм выполняет процедуру, аналогичную алгоритму k-средних. На основе выходных данных предыдущего шага двухэтапная процедура выполняет модифицированную процедуру иерархической агломеративной кластеризации, которая последовательно объединяет объекты для формирования однородных кластеров. Это достигается путем построения так называемого кластерного дерева функций, листья которого представляют отдельные объекты в наборе данных. Процедура может обрабатывать категориальные и непрерывные переменные одновременно, вычисляя меры соответствия, такие как информационный критерий Акаике (AIC) или информационный критерий Байеса (BIC).

Кроме того, хорошая маркетинговая стратегия включает в себя не только сегментирование групп клиентов, но также таргетинг и позиционирование групп на основе профилирования клиентов, компании разбивают различные сегменты на сегменты, чтобы принимать обоснованные решения с точки зрения продаж и маркетинговых долларов для увеличения рентабельности инвестиций. В конечном итоге это помогает предприятиям предоставлять более качественное обслуживание клиентов и повышать их удовлетворенность.