henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.
MIT License
451 stars 253 forks source link

IDs dos Times Dados_Agregados.csv e times_ids.csv #65

Closed marciofornari closed 4 years ago

marciofornari commented 4 years ago

Ola, tudo bem? Estou desenvolvendo um relatório porém no arquivo dados_agregados_limpos.csv o ID dos times que é a coluna ClubeID é o nome do próprio time e no arquivo times_ids.csv a coluna id são números. Outra situação que encontrei é que no arquivo dados_agregados são alguns campos como CA, CV, A, estão vindos todos como Decimal 1.0, 2.0, etc, o correto seria vir no formato Inteiro.

Uma questão que gostaria que vocês disponibilizassem seriam juntar todos os arquivos das rodadas de todos os anos em um arquivo completo com os dados das rodadas e o ano. Assim ficaria somente 1 arquivo com as colunas, atletas, ca, fc, o numero da rodada e o ano.

arnaldog12 commented 4 years ago

Oi, Marcio no arquivo dados_agregados_limpos.csv não tem os ids dos times por que a ideia é que esse arquivo tenha dados prontos pra treinar modelos de Machine Learning. Como o nome do time é mais informativo do que o id, preferimos manter o nome do time. De toda forma, você pode fazer joins com os nomes dos times nos arquivos times_ids.csv pra pegar os ids, se preferir. Entretanto, repare que os ids podem mudar ano a ano.

Pra converter os campos CA, CV, A de decimal pra inteiro, você pode usar a função astype do Pandas.

Por último, não é tão fácil juntar os arquivos de todos os anos em um só, já que cada ano tem seu formato próprio. Além disso, há dados em certos anos que não estão presentes em outros. Assim, mesmo que juntássemos tudo, alguns dados continuariam presentes só nos seus respectivos anos. Se você pudesse fazer isso, ficaríamos super felizes em receber seu pull request. Isso iria ajudar muita gente com certeza.

marciofornari commented 4 years ago

Olá @arnaldog12, vou tentar fazer um trabalho de juntar os arquivos. Sou analista de Business Intelligence e irei montar um Dashboard em uma ferramenta de BI e irei disponibilizar isso futuramente. Por isso a ideia de criar ligações entre os IDS dos times nos dados_agregados e o cadastro dos times e o arquivo unico das Rodadas de todos os anos. Nesse dashboard a ideia é disponibilizar campos para os usuários fazerem filtros por exemplo: Saber em 2018 no jogo entre Grêmio x Internacional qual jogador teve a maior pontuação, ou, nos últimos 3 anos no jogo entre Corinthians x Palmeiras quais posições tiveram maior pontuação. Isso tudo eu consigo saber, porém teria que ser em um arquivo único para facilitar.

arnaldog12 commented 4 years ago

Legal, Marcio. Desejo sucesso nessa sua ferramenta e aguardo ansiosamente o seu Pull Request. Abraços,