pedrosiracusa / BIOS

Gather together a group to skill-share, co-work, and create community
http://mozillascience.github.io/studyGroup/
Other
2 stars 2 forks source link

Configure sua máquina! #3

Open pedrosiracusa opened 6 years ago

pedrosiracusa commented 6 years ago

Configure sua máquina!

Vamos começar a pôr a mão na massa, explorar datasets e descobrir coisas incríveis??

Ótimo! Mas primeiro precisamos configurar nossas máquinas e instalar alguns programas que nos ajudarão nesta tarefa.

O objetivo desta thread é apresentar e ajudar os colegas a instalarem algumas das ferramentas mais utilizadas por cientistas de dados no momento. Como a ciência de dados é um campo de pesquisa muito aquecido, ferramentas são criadas e tornam-se obsoletas muito rapidamente, e portanto a ideia é irmos atualizando com o passar do tempo.

Cada resposta aqui deve ser um mini-tutorial sobre a instalação/configuração de alguma ferramenta que você julgue relevante para o grupo. Os mini-tutoriais devem ser sucintos mas claros o suficiente para que colegas iniciantes consigam seguir. Além disso, é muito interessante que ele contenha uma referência para um tutorial mais completo na web. Para mantermos a organização, caso tenha dificuldade em seguir algum mini-tutorial crie uma nova issue detalhando ao máximo sua dificuldade.

pedrosiracusa commented 6 years ago

Anaconda

Uma distribuição Python pronta para Data Science!

Anaconda é uma distribuição da linguagem Python, criada por uma empresa chamada Continuum Analytics. Em miúdos, uma distribuição da linguagem Python é como se fosse uma "versão especializada" da linguagem, que adiciona funcionalidades e vem pré-carregada com um conjunto de pacotes próprios para atender alguma comunidade específica. Veja aqui algumas das distribuições mais populares. Pois bem, a distribuição Anaconda é especializada em Data Science, e facilita muito a instalação de todos os componentes necessários para análise de dados usando Python. E o mais legal: é disponibilizada gratuitamente para download para as plataformas Linux, Windows e macOS.

Instalação

A instalação é bem fácil! Vou descrever brevemente o processo para os ambientes Windows e Linux. A menos que você tenha um bom motivo para não fazê-lo, instale a versão com Python3.x !!!!. Se você não sabe por qual arquitetura optar (32-bit ou 64-bit) escolha a 64-bit se seu computador tiver menos que 4 anos. Caso contrário vc pode verificar a arquitetura no seu sistema ou, por via das dúvidas, instalar a versão 32-bit. Para macOS (eu particularmente nunca instalei) o processo é parecido com Windows, e está detalhado aqui.

Em ambiente Windows:

  1. Faça o download do instalador (com Python3.x).
  2. Execute o instalador e aceite todas as opções por default, EXCETO quando aparece a opção Add Anaconda to my PATH environment variable, que por definição está desmarcada. Esta opção DEVE SER MARCADA. Também não precisa instalar o Microsoft VSCode, que o instalador irá sugerir.
  3. Após o processo, uma aplicação chamada Anaconda fica instalada no seu sistema, com algumas ferramentas muito legais para análise de dados. Dê uma olhada!

Em ambiente Linux:

  1. Faça o [download] do script de instalação da distribuição com Python3.x (um arquivo .sh).
  2. Execute o script one foi baixado. Não execute como super-usuário ('sudo')!
  3. O script instalará automaticamente a distribuição para você. Aceite todas as opções por default, EXCET0 quando surge a pergunta Do you wish the installer to prepend the Anaconda<2 or 3> install location to PATH in your /home/<user>/.bashrc ?, que por default é No. Você deve digitar Yes. Quando o instalador perguntar sobre o Microsoft VSCode, você não precisa instalá-lo!

Conclusão

Parabéns! Você acabou de instalar uma das ferramentas mais poderosas, que cientistas de dados no mundo inteiro estão usando, alguns para ganhar [MUITO] dinheiro. Na verdade o que você acabou de instalar foi um conjunto de ferramentas! Uma das mais notáveis é o Jupyter hoje considerada a terceira ferramenta mais utilizada por cientistas de dados.

O Jupyter é um projeto pensado para computação científica, e se baseia em documentos chamados Jupyter notebooks, que permitem que o usuário construa e documente, ao mesmo tempo, sua análise de dados. Um notebook executa kernel de várias linguagens, o que permite que você escreva códigos em células e os execute instantaneamente. Além do kernel para Python, também existem kernels para outras linguagens, como R e Julia. Veja aqui alguns documentos criados com o jupyter notebook.

Referências

  1. Tutorial de instalação em Windows
  2. Tutorial de instalação em Linux
  3. Tutorial de instalação em macOS