دورية أكاديمية

Comparative Analysis of K-Nn, Naïve Bayes, and logistic regression for credit card fraud detection.

التفاصيل البيبلوغرافية
العنوان: Comparative Analysis of K-Nn, Naïve Bayes, and logistic regression for credit card fraud detection.
Alternate Title: Análisis comparativo de K-NN, Naïve-Bayes y regresión logística para la detección de fraude con tarjetas de crédito. (Spanish)
Análise comparativa de K-NN, Naïve-Bayes e regressão logística para detecção de fraudes com cartão de crédito. (Portuguese)
المؤلفون: Arora, Kavita, Pathak, Sonal, Linh, Nguyen Thi Dieu
المصدر: Ingeniería Solidaria; Sep-Dec2023, Vol. 19 Issue 3, p1-22, 22p
مصطلحات موضوعية: CREDIT card fraud, LOGISTIC regression analysis, FRAUD investigation, K-nearest neighbor classification, MACHINE learning, BANKING industry, DEEP learning, FRAUD
Abstract (English): Introduction: This paper highlights the outcome of the comparative study of "Various Machine learning algorithms namely K-NN, Naive Bayes, and Logistic Regression for Credit Card Fraud Detection" carried out based on a dataset taken from UCI.com in 2022-23 at Manav Rachna International Institute of Research and Studies. Problem: Credit card fraud is still rife today and the modes are increasingly varied. Quite often we hear of fraud cases that cause irreplaceable injury to banks and financial institutions which cannot be compensated in terms of costs. To avoid scams with various modes of credit cards, we must be able to identify and find out the modes often used by fraudsters. This scheme liberates such financial institutions and banks with complete and appropriate information using Machine Learning Techniques, not only about the modes that scammers or fraudsters often use but also ways to protect against such frauds. Objective: The present paper discusses the various machine learning models based on classification and regression, namely K-Nearest Neighbors, Naïve Bayes, and Logistic Regression, which are successfully able to achieve the classification accuracy of 80% using Logistic Regression with a Precision of 78%, Recall of 100%, and F1-Score of 88% for fraudulent credit card transactions. Methodology: The comparative analysis demonstrates that for Precision, Recall, and Accuracy parameters, the K-Nearest Neighbor is a better approach for detecting fraudulent transactions than the Logistic Regression and Naïve Bayes. Methodology: The accuracy is marginal high in Logistic Regression but the False Positive parameters are not able to identify the imbalanced data; therefore, they disguise the results and accuracy of Logistic Regression and K-Nearest Neighbor deems fit for such cases. Conclusion: This scheme depicts the automated fraud classification systems using machine learning techniques, namely K-Nearest Neighbor, Logistic Regression, and Naive Bayes, to produce a model that can distinguish valid and invalid credit card transactions. Originality: Through this research, the most relevant features are used to go through the visualization of accuracy with the confusion matrix, and accuracy calculations are obtained from the dataset used. Limitations: Deep learning techniques could have been used to fetch even better results. [ABSTRACT FROM AUTHOR]
Abstract (Spanish): Introducción: este artículo muestra el resultado de un estudio comparativo de "varios algoritmos de machine learning, a saber, K-NN, Naïve-Bayes y regresión logística para la detección de fraudes con tarjetas de crédito", realizado con base en un conjunto de datos tomado de UCI.com en 2022-23 en el Instituto Internacional de Investigaciones y Estudios Manav Rachna. Problema: el fraude con tarjetas de crédito está muy extendido hoy en día y las modalidades son cada vez más variadas. A menudo, se oye hablar de casos de fraude que causan daños irreparables a bancos e instituciones financieras, que no pueden ser compensados en términos de costos. Para evitar estafas con diversos modos de tarjetas de crédito, se debe poder identificar y descubrir los modos que suelen utilizar los estafadores. Este esquema proporciona a dichas instituciones financieras y bancos información completa y adecuada utilizando técnicas de machine learning, no solo sobre los modos que suelen utilizar los estafadores o defraudadores, sino también sobre las formas de protegerse contra dichos fraudes. Objetivo: el presente artículo analiza los diversos modelos de machine learning basados en clasificación y regresión, a saber, K-Nearest Neighbors (K-NN), Naïve Bayes y regresión logística, que pueden lograr con éxito una precisión de clasificación del 80% utilizando regresión logística con una precisión de 78%, Retiro del 100% y F1-Score del 88% para transacciones fraudulentas con tarjeta de crédito. Método: el análisis comparativo muestra que, para los parámetros de precisión, recuperación y exactitud, el K-NN es un mejor enfoque para detectar transacciones fraudulentas que la regresión logística y el Naïve Bayes. Resultados: la precisión es marginalmente alta en la regresión logística, pero los parámetros de falso positivo no pueden identificar los datos desequilibrados; por lo tanto, disfrazan los resultados y la precisión de la regresión logística y el K-NN se considera adecuado para tales casos. Conclusión: este esquema describe los sistemas automatizados de clasificación de fraude que utilizan técnicas de machine learning, a saber, K-NN, Regresión logística y Naïve Bayes, para producir un modelo que pueda distinguir transacciones con tarjetas de crédito válidas e inválidas. Originalidad: a través de esta investigación, se utilizan las características más relevantes para visualizar la precisión con la matriz de confusión y se obtienen cálculos de precisión a partir del conjunto de datos utilizado. Limitaciones: se podrían haber utilizado técnicas de Deep learning para obtener mejores resultados. [ABSTRACT FROM AUTHOR]
Abstract (Portuguese): Introdução: Este artigo apresenta o resultado de um estudo comparativo de "vários algoritmos de aprendizagem automática, nomeadamente K-NN, Naïve-Bayes e regressão logística para detecção de fraude de cartão de crédito", realizado com base num conjunto de dados retirados da UCI. com em 2022-23 no Instituto Internacional de Pesquisa e Estudos Manav Rachna. Problema: As fraudes com cartões de crédito são hoje muito difundidas e as modalidades são cada vez mais variadas. É frequente ouvirmos falar de casos de fraude que causam danos irreparáveis a bancos e instituições financeiras, que não podem ser compensados em termos de custos. Para evitar fraudes com vários tipos de cartões de crédito, você deve ser capaz de identificar e descobrir os métodos que os golpistas costumam usar. Este esquema fornece a estas instituições financeiras e bancos informação completa e adequada através de técnicas de aprendizagem automática, não só sobre os métodos que os burlões ou fraudadores costumam utilizar, mas também sobre as formas de se protegerem contra tais fraudes. Objetivo: O presente artigo discute os vários modelos de aprendizado de máquina baseados em classificação e regressão, nomeadamente K-Nearest Neighbours (K-NN), Naïve Bayes e regressão logística, que podem atingir com sucesso uma precisão de classificação de 80. % usando regressão logística com uma precisão de 78%, saque de 100% e pontuação F1 de 88% para transações fraudulentas com cartão de crédito. Método: A análise comparativa mostra que para parâmetros de precisão, recall e exatidão, K-NN é uma abordagem melhor para detectar transações fraudulentas do que a regressão logística e Naïve Bayes. Resultados: A precisão é marginalmente alta na regressão logística, mas os parâmetros falsos positivos não conseguem identificar dados desequilibrados; portanto, disfarçam os resultados e a precisão da regressão logística e o K-NN é considerado adequado para tais casos. Conclusão: Este esquema descreve sistemas automatizados de classificação de fraude que utilizam técnicas de aprendizagem automática, nomeadamente K-NN, Regressão Logística e Naïve Bayes, para produzir um modelo que pode distinguir transações de cartão de crédito válidas e inválidas. Originalidade: Através desta pesquisa, os recursos mais relevantes são utilizados para visualizar a precisão com a matriz de confusão e os cálculos de precisão são obtidos a partir do conjunto de dados utilizado. Limitações: Técnicas de aprendizagem profunda poderiam ter sido utilizadas para obter melhores resultados. [ABSTRACT FROM AUTHOR]
Copyright of Ingeniería Solidaria is the property of Universidad Cooperativa de Colombia and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
قاعدة البيانات: Complementary Index
الوصف
تدمد:19003102
DOI:10.16925/2357-6014.2023.03.05