ANTI FRAUDE TECH S.A.

Academia de mulheres em Tech - data engineer (azure) Accenture e Gama Academy (Verão 2023)

Contexto e objetivo | Descrição dos arquivos | Principais ferramentas | Instrução de execução | Ferramentas | Créditos |

:brain: CONTEXTO E OBJETIVO

As fraudes em conta corrente podem ocorrer por meio de phishing, onde o fraudador envia e-mails falsos, mensagens de texto, ou utilizar técnicas de engenharia social, como manipulação psicológica, para obter informações confidenciais, como senhas e dados bancários. Também podem ocorrer por meio de skimming, onde os dados do cartão de crédito ou débito são roubados por meio de um dispositivo eletrônico instalado em um caixa eletrônico ou em um terminal de pagamento. Outra forma de fraude em conta corrente é o roubo de identidade, em que o fraudador usa informações pessoais roubadas para abrir contas falsas ou realizar transações em nome da vítima.

Tendo em vista que é muito importante tomar medidas de segurança para proteger sua conta corrente, desenvolvemos para as empresas bancárias uma aplicação em Python para carga de arquivos em um banco de dados SQL e geração de relatórios estatísticos, visando a descoberta dessas fraudes. O filtro da conta fraudada, foi contruído com base naquelas movimentações abaixo de 2 minutos de espaçamento entre as transações.

Observação: É importante ressaltar que as informações referentes a contas correntes são consideradas dados sensíveis e, portanto, devem ser protegidas de forma adequada. No entanto, no contexto da avaliação deste trabalho, optamos por disponibilizar dados fictícios para ilustrar nossos resultados e análises.

:floppy_disk: DESCRIÇÃO DOS ARQUIVOS DO PROJETO

Esse projeto inclui arquivos executáveis e de destino, além de você conseguir acesso ao nosso diretório fonte (repositório), como a seguir:

Arquivos executáveis:

connection.py - Usado para conectar e popular nossos dados para o banco de dados da Azure via SQL Alchemy
main.ipynb - Usado para criar esquemas das tabelas, limpeza e organização dados originais para se tornarem tratados
query_filtrar_fraudes.ipynb - Usado para filtrar as fraudes (in, out e total) em Python com com PySpark e Pandas
migration.py - Usado para realizar a conexão com o banco de dados e importar as tabelas para o Power BI com o Pandas
create_table.sql - Usado para criar tabelas de cliente, transações e fraudes
fraud_view.sql - Usado para criar visualização das fraudes utilizando SQL
state_code.sql - Usado para criar tabela de estados para a tentaiva de gráfico por região em nosso Dashboard
projeto_final.pbix - Usado para o arquivo final do Dashboard do Power BI com todas as measures finais

Arquivos de destino:

requirements.txt - Contém as versões dos módulos/bibliotecas utilizadas nos nossos códigos
docker-compose.yaml - Contém o código de configurações para utilização do PySpark e Jupyter notebook
pasta clients - Contém os csv ligados aos clientes, os datasets originais e os nossos já tratados
pasta transaction - Contém os csv ligados as transações, os datasets originais e os nossos já tratados
pasta fraude - Contém os csv ligados a fraudes, separados por fraudes totais, de transações Out (dinehiro que saiu) ou In (dinheiro que entrou)

Diretório fonte:

Trabalho-final-grupo2 - Inclui todos os arquivos listados acima

:book: PRINCIPAIS FERRAMENTAS UTILIZADAS

Primeiramente, utilizamos oSpark que é uma biblioteca de processamento de dados distribuído que oferece uma plataforma escalável para análise e processamento de grandes volumes de dados em tempo real. Sua importância reside na sua capacidade de acelerar o processamento de dados através da execução em paralelo em clusters de servidores, permitindo a execução de algoritmos sofisticados em grandes conjuntos de dados. No contexto de detecção de fraudes, o Spark é especialmente útil para analisar conjuntos de dados para detectar padrões e anomalias que possam indicar atividades fraudulentas. O PySpark tornou-se uma ferramenta essencial dentro do nosso trabalho para a detecção de fraudes, permitindo a identificação e ação imediata em transações suspeitas feitas em contas de clientes com um intervalo menor que 2 minutos, ajudando a prevenir perdas financeiras e proteger a segurança dos usuários de conta corrente.

Também contamos com o auxílio da bibliteca Pandas nos Dataframes, já que tal ferramenta, além de posuir compatibilidade com o Spark, auxilia com sua melhor visualização do Dataframe, com facilidade de uso, por ser mais popular e ter filtragens de dados melhor documentadas. O Pandas também foi utilizado para a conexão com o SQL Server para população e atividades do nosso banco de dados.

Utilizamos, ainda, a Azure que é uma plataforma de computação em nuvem oferecida pela Microsoft, que fornece uma ampla variedade de serviços de infraestrutura e aplicativos para empresas. A Azure foi importante para o uso de máquinas virtuais e bancos de dados nas fraudes de conta corrente, pois permitiu ao nosso grupo criar e gerenciar esses recursos de forma rápida, conjunta e escalável, além de fornecer alta disponibilidade, segurança e desempenho.

Além disso, trabalhamos com o SQL, que é uma linguagem de programação utilizada para gerenciar e manipular bancos de dados relacionais. Ela permitiu a criação, atualização e consulta dos nossos dados no banco de dados, através do SQL Server que é um sistema de gerenciamento de banco de dados relacional da Microsoft que utiliza a linguagem SQL. Quando utilizamos em conjunto com a plataforma Azure, o SQL Server se tornou uma solução altamente escalável e flexível para armazenamento e processamento de dados, permitindo que nosso grupo gerenciasse nossos bancos de dados de forma eficiente e sem conjunto na nuvem.

Por fim, utilizamos o Power BI, uma ferramenta de business intelligence desenvolvida pela Microsoft, que permite a criação de dashboards e relatórios interativos com base em dados de diversas fontes. Para o nosso dashboard de fraudes de conta corrente, o Power BI foi importante por permitir a visualização clara e rápida dos dados, bem como a criação de gráficos e tabelas que facilitam a identificação de padrões e anomalias. Com o uso do Power BI, foi possível reunir informações de diversas fontes, como transações bancárias e dados de clientes, e consolidá-las em um único painel, tornando a análise mais eficiente e precisa.

:clipboard: INSTRUÇÃO DE EXECUÇÃO

A ordem de possível execução dos arquivos do programa a seguir, deve ser executada após realizar o dowload do arquivo ZIP do nosso caderno:

1) Contextualização e entendimento da organização

Antes de iniciar qualquer trabalho é essencial entender o contexto do que se trata, por isso indicamos que você leia todas as notas feitas neste documento e se sentir necessário esquise mais sobre o assunto. Para ajudar você a entender como pensamos e montamos este projeto, indicamos que você entre no nosso Miro que foi nossa fonte de Brainstorm do tema e o que queriamos do projeto final, das tabelas, fluxograma, measures e muito mais, e junto indicamos ver o nosso Kanban onde temos toda a organização e tarefas que realizamos drante o projeto para chegar no nosso Dashboard final.

2) Arquivos CSV (as tabelas que utilzamos para todo o projeto)

Caso você queira checar nossos dados e realizar sua próprias análises, deve separar os principais datasets tratdos, dentre eles dentro da pasta "data" temos uma outra pasta "clients", na qual você pode acessar a pasta "clients_clean" e usufruir de qualquer um dos csv ali dispostos. Utilizando o mesmo caminho você pode acessar as transações abrindo a pasta de "transaction" e depois "transaction_clean". Por fim abra a pasta "fraudes" e acesse ou o dataset principal "dataset_fraude.csv", ou o dataset com as fraudes de entrada "dataset_fraudes_in.csv", ou apenas o dataset com fraudes de saída "dataset_fraudes_out.csv".

3) Arquivos executáveis (arquivos que podem ser modificados e analisados para entender os processos)

Você pode explorar qualquer um dos nossos arquivos executáveis, descritos aqui no tópico "Descrição dos arquivos do projeto". Os arquivos com extensão .py ou .ipynb são ligados a códigos de Python utiliados para fazer a limpeza e organização dos dados, a filtragem de fraudes ou para a conexão dos dados com a Azure ou Power BI. Também possuímos os arquivos com extensão .sql, que sâo utilizados para as measures do nosso Dashboard, diferente do nosso arquivo com extensão .pbix que você pode visualizar o arquivo final do Power BI do nosso Dashboard.

4) Dashboard Power BI

Caso você não queira abrir os arquivos, disponibilizamos aqui o link para nosso dashboard interativo. Nele, você pode obter diversos insights, questionamentos e filtragens por categorias ou dados únicos.