Классификация и регрессия на платформе SMILE

Классификация и регрессия представляют собой две из основных категорий задач машинного обучения.

Регрессия - это статистический метод, для определения взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Задача регрессионного анализа заключается в предсказании влияния независимой переменной на зависимую.

Примеры задачи регрессии:

Предсказание цены на нефть

Предсказание доходов компании

Классификация - это статистический метод, который используется для определения категории новых наблюдений на основе обучающих данных. Задачей классификации является отнесение объекта наблюдения к одному из классов на основе некоторых признаков. Под классами в данном случае понимается любое конечное количество категориальных ответов.

Примеры задачи классификации:

Распознавание кошек и собак на фотографии

Определение вида ирисов

Лучшие практики классификации и регрессии

На платформе SMILE пользователь может легко применить модели классификации и регрессии к данным, с помощью Редактора в рабочем пространстве.

Применить модель для расчетов можно только к определенному узлу "Признаку", то есть к данным, которые загружены в него. На графе во вкладке Редактор необходимо разместить Узел модели, которые относятся к категории классификации или регрессии.

Модели классификации и регрессии рекомендуется использовать на данных, которые предварительно разделены на тренировочные и тестовые.

Подробнее о разделении данных на тренировочную и тестовую выборку.

Кроме разделения данных на тренировочную и тестовую выборки, может также использоваться кросс-валидация, которая позволяет применять несколько алгоритмов машинного обучения к одному узлу.

Подробнее о кросс-валидации.

После разделения данных на тестовую и тренировочную выборки необходимо добавить узел "Модель", в панели управления которым будет выбран один из алгоритмов категории "ClassificationModel" или "RegressionModel" (классификации или регрессии соответветственно в зависимости от задачи).

Наиболее популярные модели классификации:

LogisticRegression

RandomForestClassifier

CatBoostClassifier

XGBClassifier

RidgeClassifier

Наиболее популярные модели регрессии:

LinearRegression

Lasso

Ridge

SGDRegressor

ElasticNet

Далее необходимо соединить с помощью ребра тренировочные данные с моделью и узел модели с тестовыми данными. После чего можно приступать к запуску узла или графа целиком. В таком случае модель сначала обучится на тренировочных данных, а затем сформирует предсказание на тестовых.

В панели под Редактором после выполнения расчетов отображается оценка модели на тренировочных данных.

Оценка модели на тренировочных данных не является показательной, рекомендуется оценивать модель по тестовым данным после обучения на тренировочных.

Оценка моделей классификации и регрессии

Модели классификации и регрессии могут оцениваться по конкретным числовым показателям. Расчет данных метрик на платформе SMILE происходит автоматически при применении соответствующей модели.

Наиболее распространенные метрики для оценки моделей классификации:

Accuracy - показывает долю объектов, для которых верно определен класс в общем количестве объектов
Precision - точность, которая показывает долю верно определенных классов среди всех объектов, отнесенных Моделью к этому классу
Recall - полнота, которая показывает долю верно определенных классов среди всех объектов
F1 - среднее гармоническое двух метрик Precision и Recall. Метрика F1 предполагает одинковый вес точности и полноты, поэтому может использоваться, как их агрегированная оценка.
ROC AUC - кривая рабочих характеристик, которая используется для анализа поведения классификаторов при различных пороговых значениях.

Наиболее распространенные метрики для оценки моделей регрессии:

MSE - средняя квадратичная ошибка, применяется в ситуациях, когда необходимо подчеркнуть большие ошибки и выбрать модель, которая дает меньше больших ошибок прогноза.
MAE - средняя абсолютная ошибка
R2 - коэффициент детерминации
MAPE - cредняя абсолютная процентная ошибка
RMSE - корень из средней квадратичной ошибки

Для оценки результатов моделей классификации и регрессии на платформе SMILE существуют соответствующие Модели, которые относятся к категории Scorer.

Для оценки результатов модели на тестовых данных необходимо добавить новый узел "Модель" и выбрать classificationScorer или regressionScorer в зависимости от той задачи, которая решалась.

Далее необходимо соединить ребром узел "Признак", который содержит тестовые данные и добавленный узел оценивания.

После запуска узла категории Scorer в модальном окне будет отображаться оценка персдказанных данных на основе тестовой выборки.

Оценка модели при дальнейшем исследовании может использоваться для подбора гиперпараметров или изменения алгоритма машинного обучения.

AutoML решения

AutoML (автоматизированное машинное обучение) представляет собой инструмент для упрощения работы исследователя. AutoML решения позволяют построить пайплайн (последовательный набор алгоритмов для решения задачи) на основе некоторых данных, в частности после их предварительной обработки.

AutoML решения могут быть использованы для задач классификации и регресии. После предобработки данных на граф Редактора необходимо добавить узел "Модель" и выбрать один из алгоритмов в категории AutoML.

Применять алгоритмы AutoML для решения задач классификации и регрессии также рекомендуется после разбиения данных на тренировочную и тестовую подвыборки.

Подробнее о разделении данных на тренировочную и тестовую выборку.

После добавления на граф алгоритма AutoML необходимо направить ребро от тренировочных данных к узлу модели и соединить сам алгоритм с тестовыми данными с помощью ребра.

Для оценки модели на тестовой выборке рекомендуется заранее добавить связь узла модель оценки с тестовыми данным.

Далее в расширенных настройках узла "Модели" необходимо выбрать целевой столбец (target_column) и задачу (problem) поставленную для решения (классификация или регрессия).

AutoML решение FedotModel обладает помимо основных двумя дополнительными параметрами:

Metric - выбор метрики, на которую будет ориентироваться модель при подборе алгоритмов машинного обучения

Timeout - ограничение времени расчета FEDOT в минутах

Для AutoML решений TpotModel и AutoKeras также присутствую другие дополнительные параметры модели, которые представляют собой гиперпараметры.

Подробнее о моделях TpotModel и AutoKeras

После выбора расширенных настроек для необходимо запустить граф или узел с моделью AutoML (в случае, если все предшествующие узлы были рассчитаны).

После расчета узла AutoML граф в Редакторе будет видоизменен и будут отображаться узлы, которые модель использовала для решения данной задачи.

Использованные алгоритмы будут отображаться в виде новых узлов фиолетового цвета.

Аналогично моделям классификации и регрессии в узлах "Модели" будет отображаться оценка на тренировочных данных, а в примененном заранее узле Scorer будет отображаться оценка модели на тестовых данных.

Важно: при нажатии кнопки "Перезагрузить граф" узел с AutoML моделью будет автоматически преобразован обратно.