henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.
MIT License
450 stars 253 forks source link

Dúvidas em relação aos dados disponibilizados #64

Closed gabriel19913 closed 4 years ago

gabriel19913 commented 4 years ago

Olá pessoal, ótimo trabalho que vocês tem desenvolvido. Vou trabalhar com os dados disponibilizados por vocês em um projeto, mas tenho algumas dúvidas que gostaria de saber se vocês poderiam me ajudar.

  1. No arquivo 2017_dados_agregados.csv presente na pasta data/2017, notei que não há dados para 'avg.CV' apesar de 'avg.CV.l05' estar presente, já para CA o'avg.CA' está presente enquanto o 'avg.CA.l05'não está. Então imagino que possa ter ocorrido alguma confusão com essas variáveis.
  2. Outra questão que gostaria de saber é em relação aos 'dados_agregados_limpos.csv' lá estão presentes somente os anos de 2014, 2016, 2017. Existe algum motivo dos dados de demais anos não terem sido inseridos? Porque estou fazendo uma engenharia reversa pra tentar obter e limpar os dados para os arquivos dos outros anos assim como vocês fizeram para esses que foram incluídos, e estou tendo um pouco de dificuldade rsrs.
arnaldog12 commented 4 years ago

oi, @gabriel19913

eu posso te responder a questão 2, já que era eu que criava esse arquivo. Basicamente, ele não existe mais desde 2018 por que, a partir desse ano, o padrão dos dados mudaram e o meu script pra gerar tal arquivo não iria funcionar mais pra ele.

Então, se você tiver disposição pra gerar esse arquivo pro outros anos, sinta-se bem vindo e vai ser de grande valia.

A questão 1, eu acredito que o @henriquepgomide pode lhe responder melhor.

Um grande abraço

henriquepgomide commented 4 years ago

@gabriel19913

Tudo bem?

A primeira pergunta foi bem respondida pelo Arnaldo, como sempre. Se você for trabalhar com modelagem de dados, lembre-se que cartões amarelos são infrequentes; talvez trabalhar com faltas seja um caminho melhor.

Quanto aos dados limpos, eu simplesmente parei de gerar devido à baixa procura. A partir de 2017, parte do interesse meu e do Arnaldo foi desviado para outros pontos ligados ao cartola e nossas vidas profissionais.

Estou disponível para conversar sobre os assuntos e sobre o repositório!

Grande abraço e até! :)

gabriel19913 commented 4 years ago

Muito obrigado pelas respostas @henriquepgomide e @arnaldog12. E gostaria muito de agradecer pelo trabalho que vocês realizaram. Vou utilizar os dados brutos mesmo e extrair características a partir deles. Vi que em alguns arquivos você acrescentaram informações sobre o time também além de outras features. O que vocês consideraram durante a pesquisa de vocês como features determinantes na predição da pontuação?

Abraço.