Обработка данных на платформе SMILE

Обработка данных один из важнейших процессов при решении задач машинного обучения. Предварительная обработка данных позволяет не только привести информацию к виду, который подходит для моделей машинного обучения, но и улучшить конечные результаты предсказания.

Обработка данных на платформе SMILE осуществляется с помощью узлов "Моделей", которые применяются к узла "Признак". В случае необходимости алгоритмы обработки данных могут применяться последовательно друг за другом, а также использоваться модели из одной и той же категории.

После работы моделей обработки данных могут сформироваться новые столбцы, которые будут необходимы для дальнейшей работы.

При создании следующего узла "Признака" нужно с помощью ребра настроить фильтр передаваемых столбцов. Для этого необходимо нажать на ребро и в панели управления справа выбрать нужные столбцы.

Подробнее о настройке фильтров с помощью Ребра на графе Редактора.

Обработка отсутствующих значений

Отсутствующие значения являются одной из самых важных "проблем" с данными, так как могут стать причиной ошибки работы модели машинного обучения. Отсутствующим значением считается любой пропуск информации в наборе данных

Для работы с отсутствующими значениями на платформе SMILE существует несколько моделей категории Imputer:

SimpleImputer - "простое" заполнение, например, заполнение отсутствующих значений средним, медианой или каким-то другим числом
KNNImputer - "умное" заполнение отсутствующих значений, методом на основе алгоритма k-ближайших соседей

Работа с категориальными признаками

Большинство алгоритмов машинного обучения не могут работать с категориальными данными, которые зачастую являются неотъемлемой частью информации, необходимой для решения прикладных задач.

Категориальным признаком считается любое значение, которое не определяется числом. Кодирование категориальных признаков числами позволяет модели не только правильно воспринимать данные, но и обучаться на них.

Для работы с категориальными признаками на платформе SMILE существует несколько моделей категории Encoder:

LabelEncoder - заменяет каждый уникальный категориальный признак числом, например для мужского пола - 0, для женского - 1
OneHotEncoder - вместо каждого уникального значения категориального признака создается столбец, после чего в столбцах отмечается наличие или отсутствие признака
OrdinalEncoder - кодирование категориальных признаков в виду целочисленного массива

Обработка аномальных значений

Аномальные значения (выбросы) могут оказывать влияние на обучение модели, а как следствие и предсказание данных. Выбросами считаются те данные, которые значительно выбиваются из общего распределения выборки.

Наглядным способом визуализации аномальных значений являются графики понижения размерности и "ящик с усами"

На платформе SMILE для работы с выбросами существует категория моделей "OutlierModel", которая включает в себя:

Масштабирование выборки

Масштабирование выборки подразумевает приведение значений различных признаков к одному порядку.

Масштабирование может применяться, например в случаях, когда один из признаков измеряется в диапазоне от 0 до 1, а другой от 100 до 1000.

На платформе SMILE для работы с выбросами существует категория моделей "Scaler", которая включает в себя:

Пользовательские операции

На платформе SMILE пользователь имеет возможность самостоятельно совершать операции с набором данных. Для этого могут быть использованы модели из категории "DataFrameOperations"

Наиболее популярные модели данной категории, доступные на платформе SMILE:

DataFrameDropDuplicates - позволяет удалить дублирующиеся значения
DataFrameMath - позволяет совершать математические операции с помощью расширенных настроек узла модели
DataFrameRename - позволяет переименовать столбцы датасета
DataFrameReplace - позволяет заменять отсутствующие значения