5 алгоритмов обнаружения аномалий, которые должен знать каждый специалист по данным
1 min read
Реальный набор данных часто содержит аномалии или выбросы данных. Причиной аномалий может быть повреждение данных, экспериментальные ошибки или человеческие ошибки. Наличие аномалий может повлиять на производительность модели, поэтому для обучения надежной модели науки о данных в наборе данных не должно быть аномалий.
В этой статье мы обсудим 5 таких методов обнаружения аномалий и сравним их эффективность на случайной выборке данных.
Что такое аномалии?
Аномалии — это точки данных, которые выделяются среди других точек данных в наборе данных и не подтверждают нормальное поведение данных. Эти точки данных или наблюдения отклоняются от обычных поведенческих моделей набора данных.
Обнаружение аномалий — это метод неконтролируемой обработки данных для обнаружения аномалий в наборе данных. Аномалию можно разделить на несколько категорий
Выбросы: короткие / небольшие аномальные закономерности, которые появляются несистематически при сборе данных.
Изменение событий: систематическое или внезапное изменение прежнего нормального поведения.
Дрейфы: медленное, ненаправленное, долгосрочное изменение данных.
Обнаружение аномалий очень полезно для обнаружения мошеннических транзакций, выявления заболеваний или обработки любых тематических исследований с высоким уровнем дисбаланса. Методы обнаружения аномалий можно использовать для создания более надежных моделей науки о данных.
Простые статистические методы, такие как среднее значение, медиана, квантили, могут использоваться для обнаружения значений одномерных аномалий в наборе данных. Для обнаружения аномалий также могут использоваться различные методы визуализации данных и исследовательского анализа данных.
В этой статье мы обсудим некоторые алгоритмы неконтролируемого машинного обучения для обнаружения аномалий и далее сравним их производительность для случайного набора данных
Isolation Forest — это неконтролируемый алгоритм обнаружения аномалий, который использует скрытый алгоритм случайного леса (деревья решений) для обнаружения выбросов в наборе данных. Алгоритм пытается разделить или разделить точки данных таким образом, чтобы каждое наблюдение было изолировано от других.
Обычно аномалии лежат вдали от кластера точек данных, поэтому их легче изолировать по сравнению с обычными точками данных.
Из вышеупомянутых изображений можно заметить, что для обычных точек данных требуется сравнительно большее количество разделов, чем для точек аномальных данных.
Оценка аномалии вычисляется для всех точек данных, и оценка аномалии точек> порогового значения может рассматриваться как аномалия.
Обычный алгоритм SVM пытается найти гиперплоскость, которая лучше всего разделяет два класса точек данных. Для одноклассной SVM, где у нас есть один класс точек данных, и задача состоит в том, чтобы предсказать гиперсферу, которая отделяет кластер точек данных от аномалий.
Фактор локальных выбросов — это еще один метод обнаружения аномалий, который учитывает плотность точек данных, чтобы решить, является ли точка аномалией или нет. Фактор локального выброса вычисляет оценку аномалии, называемую оценкой аномалии, которая измеряет, насколько точка изолирована по отношению к окружающему району. При вычислении оценки аномалии учитывается как локальная, так и глобальная плотность.
Алгоритмы обнаружения аномалий очень полезны для выявления случаев мошенничества или выявления заболеваний, когда распределение целевого класса сильно несбалансировано. Алгоритмы обнаружения аномалий также предназначены для дальнейшего повышения производительности модели за счет удаления аномалий из обучающей выборки.
Помимо описанных выше алгоритмов машинного обучения, специалист по данным всегда может использовать передовые статистические методы для обработки аномалий.