07.12.2022

Обнаружение мошенничества с помощью машинного обучения

1 min read

«Люди поразительно плохо распознают мошенничество. Исследования показывают, что даже когда мы ищем признаки обмана, наша точность вряд ли лучше случайности».

Проблема
Все больше компаний и потребителей переходят на онлайн и бесконтактные формы оплаты. Миллионы американцев стали жертвами мошенничества с кредитными картами, которое обошлось им в тысячи долларов и негативно повлияло на их кредитный рейтинг. The Wall Street Journal сообщила, что убытки от мошенничества, в том числе убытки, связанные с кредитными и дебетовыми картами, обошлись банкам, продавцам и, в некоторых случаях, держателям карт в 16,9 миллиарда долларов в 2019 году. Совсем недавно, в декабре 2020 года, в отчете Nilson Report глобальные потери от мошенничества с картами оценивались в количественном выражении в размере 16,9 млрд долларов США. 28,65 миллиарда долларов.
Решение
Разработайте способ обнаружения и отклонения мошеннических транзакций в режиме реального времени до их утверждения и обработки. Это может быть достигнуто путем доступа к данным, связанным с транзакцией, таким как физическое местоположение, приобретенные товары, сумма в долларах и соответствие предыдущим покупкам держателя карты.
Дорожная карта
Нам нужно предсказать, является ли транзакция по кредитной карте действительной транзакцией или мошеннической транзакцией. Следующие шаги будут выполняться с использованием машинного обучения и Python.
1. Импортируйте необходимые программные библиотеки.

2. Получите доступ к набору данных и импортируйте его.

3. Анализ данных и исследование.

4. Очистка и нормализация данных.

5. Разделите данные на обучающие и тестовые наборы данных.
6. Обучите модели на обучающих данных.

7. Делайте прогнозы по тестовым данным.

8. Оцените производительность модели.

9. Сделайте выводы из оценок.
Программа
Цель: предсказать, является ли транзакция действительной транзакцией или мошеннической транзакцией, используя модели машинного обучения.
Импортируйте необходимые программные библиотеки

Набор данных о кредитных картах содержит реальные банковские операции держателей кредитных карт в Европе в 2013 году. Набор данных о кредитных картах можно найти, перейдя по этой ссылке. В целях безопасности фактические имена переменных не включены и помечены буквой V, за которой следует число, за исключением количества и класса. Есть 30 столбцов функций и 1 целевой столбец с именем Class.

У нас очень несбалансированный набор данных. Большинство транзакций явно действительны с несколькими случаями мошенничества.
Визуализируйте корреляции между функциями и целевой переменной Class. Мы будем использовать метод корреляции Пирсона.