DIO-LiveCoding-AWS-BigData
Repositório de código do Dio Live Coding com AWS EMR e Python.
Neste repositório há os arquivos de configuração e execução de análise de dados.
Instruções
- Acessar S3: https://s3.console.aws.amazon.com/s3/
- Criar estrutura de data lake : dio-live-datalake
- Criar estrutura de pastas:
- data
- output
- temp
- Acessar EMR: https://console.aws.amazon.com/elasticmapreduce/
- O cluster será criado pelo MrJob e não pelo console
- Infraestrutura como código
- Criar chave SSH
- Obter Id e chave secreta AWS para configurar MrJob
- Ambiente linux
- Criar ambiente virtual python: _virtualenv --python=python3.6 venvdiolive
- Acessar com o vs code
- Instalar vscode no Ubuntu
- Criar algoritmo de análise de palavras
- dio-live-wordcount-test.py
- map-reduce-count : contar
- Instalar boto3: pip install boto3
- Instalar mrjob: pip install mrjob
- Acessar S3
- Upload de arquivo para o bucket
- Ambiente virtual python: source venv_teste/bin/activate
- nano ~/.mrjob.conf
- _python3 dio-live-wordcount-test.py -r emr s3://{your_s3_bucket_name}/data/SherlockHolmes.txt --output-dir=s3://{your_s3_bucket_name}/output/logs1 --cloud-tmp-dir=s3://{your_s3_bucketname}/temp/