rgriva / Kaggle

Code for the Talking Data competition on Kaggle
1 stars 0 forks source link

What's the issue? #1

Open AlessandroRiv opened 6 years ago

AlessandroRiv commented 6 years ago

Acho que o melhor jeito de se comunicar pelo github pra trocar ideia das coisas que estamos fazendo é usando os issues mesmo. Seguem 2 links com o que eu acho vai ser o que precisamos saber sobre issues no momento:

rgriva commented 6 years ago

@AlessandroRiv Realmente é bem maneiro! Gostei dos links, são ferramentas bem interessantes!

AlessandroRiv commented 6 years ago

Uma coisa que eu fiz de diferente do que eu lembro de ter visto na sua linha comando foi que eu naveguei pela linha de comando até o diretório onde está o csv que quero mudar aí uso cat test.csv| sed 's/(aqui entra a coisa que vc quer que ele ache)/(aqui entra a coisa que vc quer que ele coloque no lugar)/g' > test_timed.csv A parte final do comando, depois do >, serve pra vc colocar o nome do arquivo que ele vai criar com as alterações que vc tá fazendo usando sed. Se não colocar nada nessa parte final ele só printa a cara do csv no próprio terminal. Outra coisa que não tava ligado é que dá pra ver, pelo terminal, as linhas inicias do csv usando head test.csv. Esse link aqui pode ser útil pra algumas coisas dessas.

Então, inicialmente a gente quer tirar o 2017-01- e trocar pro nada. O comando fica sed 's/2017-01-//g' se liga que entre o segundo e o terceiro / deixamos um espaço vazio pra ele trocar pelo vazio mesmo. Agora os dados estão sem o mês e o ano, salvo o fato de o mês talvez não ser exatamente esse que botei pq não lembro o mês que era. Então as linhas da coluna click_time estão algo como 10 04:00:30

Além disso, queremos trocar o cabeçalho da coluna de click_time pra virar outras 4 colunas days, hours, minutes, seconds. Então, usamos o conectivo -e pra fazer várias alterações ao mesmo tempo e usamos a opção -E pra ele entender o espaço. Fica: sed -E -e 's/[[:space:]]/,/g' -e 's/:/,/g' -e 's/click_time/days,hours,minutes,seconds/g'

Agora as linhas das colunas days, hours, minutes, seconds estão assim: 10,04,00,30 Aí é só ler pelo pyton normalmente.