Перейти к содержанию

Модели кластеризации на платформе SMILE

Кластеризация представляет собой задачу машинного обучения, которая схожа с классификацией, но обладает одним важным отличием.

Кластеризация применяется в том случае, когда заранее неизвестна принадлежность каждого объекта исходных данных к конкретному классу.

Кластеризация является задачей машинного обучения "без учителя", то есть которой не требуется разделение данных на тренировочную и тестовую выборки.

Модели кластеризации предполагают подбор пользователем количества кластеров, на основе изучения входных данных.

При решении задач кластеризации для определения количества кластеров рекомендуется рассмтатривать график понижения размерности (методом PCA), который позволяет свести отображение большого количества разных признаков к двумерному графику

При решении задач кластеризации также рекомендуется во время предобработки данных применять алгоритмы масштабирования.

Подробнее о предварительной обработке данных

Лучшие практики кластеризации

Наиболее популярные модели кластеризации доступные на платформе SMILE в категории "ClusterizationModel":

  1. KMeans
  2. DBSCAN
  3. AffinityPropagation
  4. AgglomerativeClustering
  5. Birch

Алгоритмы кластеризации применяются в качестве нового узла "Модели", на которую подаются данные из узла "Признака" с помощью ребра.

Подробнее о добавлении узлов "Модели" и "Признака".

Оценка моделей кластеризации

Распростренным вариантом оценки результатов кластеризации является привлечение специалиста в предметной области. Данный подход позволяет получить наиболее точную качественную оценку результатов кластеризации, так как основывается на экспертном мнении.

В случаях, когда возможность привлечения специалиста предметной области отсутствует можно воспользоваться количественными показателями оценки моделей кластеризации.

Показатели оценки моделей кластеризации:

  1. Calinski-Harabasz index
  2. Davies-Bouldin index
  3. Inertia
  4. Silhouette Coefficient