Перейти к содержанию

SHAP-графики

В узлах моделей регрессии и классификации доступны следующие визуализации:

  • Beeswarm
  • Bar
  • Waterfall
  • Heatmap

Их принцип работы аналогичен оригинальным графикам библиотеки SHAP, которые визуализируют SHAP values — вклад каждого признака в предсказание модели.

📌 Библиотека SHAP (SHapley Additive exPlanations) основана на теории игр и позволяет интерпретировать работу моделей машинного обучения, особенно деревообразных моделей, таких как XGBoost, LightGBM и CatBoost.


Что такое SHAP Value?

SHAP value — это вклад отдельного признака в конкретное предсказание модели.

Он отвечает на вопрос:

“Как именно этот признак повлиял на результат модели для конкретного объекта?”


Пример

🎯 Представим ситуацию:

У тебя есть модель, которая предсказывает вероятность получения кредита.

Ты передаёшь модели данные одного клиента:

  • возраст: 35 лет
  • зарплата: 120 000 ₽
  • кредитная история: хорошая
  • и т.д.

Модель говорит:
"Вероятность — 0.75"

Ты спрашиваешь:
“Почему не 0.5? Почему именно 0.75?”

SHAP объясняет:

  • зарплата добавила +0.15 к вероятности,
  • возраст добавил +0.1,
  • кредитная история убавила –0.05,
  • и так далее.

Как интерпретировать SHAP values?

Для классификации

SHAP показывает вклад каждого признака в вероятность предсказанного класса — т.е. насколько значение признака отклоняет итоговую вероятность от базовой (средней по выборке).

⚠️ Допустимо рассматривать влияние на вероятность как каждого из классов в отдельности, так и только выбранного класса с наибольшей вероятностью.

🧠 Пример:
Базовая вероятность = 0.5
SHAP-признак "зарплата" добавил +0.2
SHAP-признак "возраст" добавил +0.05
Итог: 0.75

Для регрессии

SHAP показывает, насколько каждый признак влияет на отклонение от среднего предсказания модели по обучающей выборке.

🧠 Пример:
Среднее значение модели = 500 000 ₽
SHAP-признак "площадь квартиры" добавил +100 000 ₽
SHAP-признак "район" убавил –50 000 ₽
Итог: 550 000 ₽


Подробнее о типах графиков

  • Beeswarm Plot: сводит вклад всех признаков по всей выборке. Цвет отражает значение признака.
  • Bar Plot: среднее абсолютное значение SHAP по каждому признаку.
  • Waterfall Plot: пошаговое влияние признаков на итоговое предсказание.
  • Heatmap Plot: сравнение SHAP значений по множеству объектов и признаков.

Когда применять SHAP?

  • Когда нужна интерпретация модели, особенно для бизнес-приложений.
  • Для выявления важных признаков, влияющих на решение.
  • В ситуациях, где необходимо объяснить почему модель приняла то или иное решение — например, в медицине, финансах, страховании и других чувствительных областях.