SHAP-графики
В узлах моделей регрессии и классификации доступны следующие визуализации:
- Beeswarm
- Bar
- Waterfall
- Heatmap
Их принцип работы аналогичен оригинальным графикам библиотеки SHAP, которые визуализируют SHAP values — вклад каждого признака в предсказание модели.
📌 Библиотека SHAP (SHapley Additive exPlanations) основана на теории игр и позволяет интерпретировать работу моделей машинного обучения, особенно деревообразных моделей, таких как XGBoost, LightGBM и CatBoost.
Что такое SHAP Value?
SHAP value — это вклад отдельного признака в конкретное предсказание модели.
Он отвечает на вопрос:
“Как именно этот признак повлиял на результат модели для конкретного объекта?”
Пример
🎯 Представим ситуацию:
У тебя есть модель, которая предсказывает вероятность получения кредита.
Ты передаёшь модели данные одного клиента:
- возраст: 35 лет
- зарплата: 120 000 ₽
- кредитная история: хорошая
- и т.д.
Модель говорит:
"Вероятность — 0.75"
Ты спрашиваешь:
“Почему не 0.5? Почему именно 0.75?”
SHAP объясняет:
- зарплата добавила +0.15 к вероятности,
- возраст добавил +0.1,
- кредитная история убавила –0.05,
- и так далее.
Как интерпретировать SHAP values?
Для классификации
SHAP показывает вклад каждого признака в вероятность предсказанного класса — т.е. насколько значение признака отклоняет итоговую вероятность от базовой (средней по выборке).
⚠️ Допустимо рассматривать влияние на вероятность как каждого из классов в отдельности, так и только выбранного класса с наибольшей вероятностью.
🧠 Пример:
Базовая вероятность = 0.5
SHAP-признак "зарплата" добавил +0.2
SHAP-признак "возраст" добавил +0.05
Итог: 0.75
Для регрессии
SHAP показывает, насколько каждый признак влияет на отклонение от среднего предсказания модели по обучающей выборке.
🧠 Пример:
Среднее значение модели = 500 000 ₽
SHAP-признак "площадь квартиры" добавил +100 000 ₽
SHAP-признак "район" убавил –50 000 ₽
Итог: 550 000 ₽
Подробнее о типах графиков
- Beeswarm Plot: сводит вклад всех признаков по всей выборке. Цвет отражает значение признака.
- Bar Plot: среднее абсолютное значение SHAP по каждому признаку.
- Waterfall Plot: пошаговое влияние признаков на итоговое предсказание.
- Heatmap Plot: сравнение SHAP значений по множеству объектов и признаков.
Когда применять SHAP?
- Когда нужна интерпретация модели, особенно для бизнес-приложений.
- Для выявления важных признаков, влияющих на решение.
- В ситуациях, где необходимо объяснить почему модель приняла то или иное решение — например, в медицине, финансах, страховании и других чувствительных областях.