Обнаружение мошенничества с помощью машинного обучения
1 min read
«Люди поразительно плохо распознают мошенничество. Исследования показывают, что даже когда мы ищем признаки обмана, наша точность вряд ли лучше случайности».
Проблема
Все больше компаний и потребителей переходят на онлайн и бесконтактные формы оплаты. Миллионы американцев стали жертвами мошенничества с кредитными картами, которое обошлось им в тысячи долларов и негативно повлияло на их кредитный рейтинг. The Wall Street Journal сообщила, что убытки от мошенничества, в том числе убытки, связанные с кредитными и дебетовыми картами, обошлись банкам, продавцам и, в некоторых случаях, держателям карт в 16,9 миллиарда долларов в 2019 году. Совсем недавно, в декабре 2020 года, в отчете Nilson Report глобальные потери от мошенничества с картами оценивались в количественном выражении в размере 16,9 млрд долларов США. 28,65 миллиарда долларов.
Решение
Разработайте способ обнаружения и отклонения мошеннических транзакций в режиме реального времени до их утверждения и обработки. Это может быть достигнуто путем доступа к данным, связанным с транзакцией, таким как физическое местоположение, приобретенные товары, сумма в долларах и соответствие предыдущим покупкам держателя карты.
Дорожная карта
Нам нужно предсказать, является ли транзакция по кредитной карте действительной транзакцией или мошеннической транзакцией. Следующие шаги будут выполняться с использованием машинного обучения и Python.
1. Импортируйте необходимые программные библиотеки.
2. Получите доступ к набору данных и импортируйте его.
3. Анализ данных и исследование.
4. Очистка и нормализация данных.
5. Разделите данные на обучающие и тестовые наборы данных.
6. Обучите модели на обучающих данных.
7. Делайте прогнозы по тестовым данным.
8. Оцените производительность модели.
9. Сделайте выводы из оценок.
Программа
Цель: предсказать, является ли транзакция действительной транзакцией или мошеннической транзакцией, используя модели машинного обучения.
Импортируйте необходимые программные библиотеки
Набор данных о кредитных картах содержит реальные банковские операции держателей кредитных карт в Европе в 2013 году. Набор данных о кредитных картах можно найти, перейдя по этой ссылке. В целях безопасности фактические имена переменных не включены и помечены буквой V, за которой следует число, за исключением количества и класса. Есть 30 столбцов функций и 1 целевой столбец с именем Class.
У нас очень несбалансированный набор данных. Большинство транзакций явно действительны с несколькими случаями мошенничества.
Визуализируйте корреляции между функциями и целевой переменной Class. Мы будем использовать метод корреляции Пирсона.