Closed marciofornari closed 4 years ago
Oi, Marcio
no arquivo dados_agregados_limpos.csv
não tem os ids dos times por que a ideia é que esse arquivo tenha dados prontos pra treinar modelos de Machine Learning. Como o nome do time é mais informativo do que o id, preferimos manter o nome do time. De toda forma, você pode fazer joins
com os nomes dos times nos arquivos times_ids.csv
pra pegar os ids, se preferir. Entretanto, repare que os ids podem mudar ano a ano.
Pra converter os campos CA, CV, A de decimal pra inteiro, você pode usar a função astype do Pandas.
Por último, não é tão fácil juntar os arquivos de todos os anos em um só, já que cada ano tem seu formato próprio. Além disso, há dados em certos anos que não estão presentes em outros. Assim, mesmo que juntássemos tudo, alguns dados continuariam presentes só nos seus respectivos anos. Se você pudesse fazer isso, ficaríamos super felizes em receber seu pull request. Isso iria ajudar muita gente com certeza.
Olá @arnaldog12, vou tentar fazer um trabalho de juntar os arquivos. Sou analista de Business Intelligence e irei montar um Dashboard em uma ferramenta de BI e irei disponibilizar isso futuramente. Por isso a ideia de criar ligações entre os IDS dos times nos dados_agregados e o cadastro dos times e o arquivo unico das Rodadas de todos os anos. Nesse dashboard a ideia é disponibilizar campos para os usuários fazerem filtros por exemplo: Saber em 2018 no jogo entre Grêmio x Internacional qual jogador teve a maior pontuação, ou, nos últimos 3 anos no jogo entre Corinthians x Palmeiras quais posições tiveram maior pontuação. Isso tudo eu consigo saber, porém teria que ser em um arquivo único para facilitar.
Legal, Marcio. Desejo sucesso nessa sua ferramenta e aguardo ansiosamente o seu Pull Request. Abraços,
Ola, tudo bem? Estou desenvolvendo um relatório porém no arquivo dados_agregados_limpos.csv o ID dos times que é a coluna ClubeID é o nome do próprio time e no arquivo times_ids.csv a coluna id são números. Outra situação que encontrei é que no arquivo dados_agregados são alguns campos como CA, CV, A, estão vindos todos como Decimal 1.0, 2.0, etc, o correto seria vir no formato Inteiro.
Uma questão que gostaria que vocês disponibilizassem seriam juntar todos os arquivos das rodadas de todos os anos em um arquivo completo com os dados das rodadas e o ano. Assim ficaria somente 1 arquivo com as colunas, atletas, ca, fc, o numero da rodada e o ano.