henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.
MIT License
450 stars 253 forks source link

Problemas com os dados #7

Closed arnaldog12 closed 7 years ago

arnaldog12 commented 7 years ago

Sabe dizer por que alguns jogadores/técnicos apresentam NA na coluna atletas.clube.id.full.name, @henriquepgomide?

Isso não é um problema quando a sigla do time é VAS, GRE, COR, etc... Mas, quando a sigla é ATL fica mais complicado corrigir. Talvez dê para completar pelo time dos jogadores com mesmo id, mas só por enquanto ninguém muda de time (se já não aconteceu).

arnaldog12 commented 7 years ago

Também reparei que os dados da primeira rodada para todos os jogadores estão como NA. Sabe dizer por que?

arnaldog12 commented 7 years ago

Reparei agora também que existem erros na pontuação de alguns jogadores (536 para ser mais exato, de acordo com minha análise de dados).

Por exemplo, na segunda rodada, Luís Fabiano do Vasco fez 13.3 pontos, mas seus scouts só contabilizam 1 Falta Sofrida (FS), 1 Impedimento (I) e 1 Finalização para Fora (FF), que seria igual a 0,7. Naquele jogo, na verdade, ele fez ao menos um gol e uma assistência (link).

Eu acho que esses erros são da própria API do cartola, correto, @henriquepgomide?

Contando com os erros, após a limpeza dos dados, tenho até agora 3977 jogadores com scouts até a 10a rodada.

Será que é melhor eu corrigir a pontuação dos jogadores de acordo com os scouts - mesmo sabendo que isso não é o certo (como no caso do Luís Fabiano) -, ou simplesmente apagar esses dados para evitar ruído quando treinarmos o modelo?

Eu, particularmente, prefiro a segunda opção, mesmo sabendo que estamos perdendo dados. Porém, prefiro perder dados errados do que corrigir algo que pode acabar prejudicando.

henriquepgomide commented 7 years ago

Ola Adalberto!

Obrigado por trazer atenção a estes tópicos. Eu acho que no momento, podemos ir com a segunda opção.

É muito provável que o problema seja a API do cartola. Eu tentarei recuperar os arquivos para consertar o problema.

Grande abraço,

El vie., 30 jun. 2017 23:04, Arnaldo Gualberto notifications@github.com escribió:

Reparei agora também que existem erros na pontuação de alguns jogadores (536 para ser mais exato, de acordo com minha análise de dados).

Por exemplo, na segunda rodada, Luís Fabiano do Vasco fez 13.3 pontos, mas seus scouts só contabilizam 1 Falta Sofrida (FS), 1 Impedimento (I) e 1 Finalização para Fora (FF), que seria igual a 0,7. Naquele jogo, na verdade, ele fez ao menos um gol e uma assistência (link http://globoesporte.globo.com/rj/futebol/brasileirao-serie-a/jogo/21-05-2017/vasco-bahia/ ).

Eu acho que esses erros são da própria API do cartola, correto, @henriquepgomide https://github.com/henriquepgomide?

Contando com os erros, após a limpeza dos dados, tenho até agora 3977 jogadores com scouts até a 10a rodada.

Será que é melhor eu corrigir a pontuação dos jogadores de acordo com os scouts - mesmo sabendo que isso não é o certo (como no caso do Luís Fabiano) -, ou simplesmente apagar esses dados para evitar ruído quando treinarmos o modelo?

Eu, particularmente, prefiro a segunda opção, mesmo sabendo que estamos perdendo dados. Porém, prefiro perder dados errados do que corrigir algo que pode acabar prejudicando.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/henriquepgomide/caRtola/issues/7#issuecomment-312404112, or mute the thread https://github.com/notifications/unsubscribe-auth/ABxKo-lL7d96SK602AshI-V83zxOohOnks5sJakYgaJpZM4OIrfA .

-- Prof. Dr. Henrique Pinto Gomide Centro de Ensino Superior de Juiz de Fora - CES-JF Centro de Pesquisa, Intervenção e Avaliação em Álcool e outras Drogas - CREPEIA

Center for Research, Intervention and Evaluation on Alcohol and Drugs - CREPEIA

Tel: +55 32 99184 5463 Skype: henrique.pinto.gomide Web: http://henriquepgomide.github.io http://henriquepgomide.github.io Viva sem tabaco - www.vivasemtabaco.com.br Development blog - http://crepeia.github.io/wati/

arnaldog12 commented 7 years ago

Dados de 2017 limpos e organizados

arnaldog12 commented 7 years ago

Achei alguns problemas agora com os dados agregados _(db/cartolaaggregated.csv):

henriquepgomide commented 7 years ago

Olá Arnaldo! Acredito que os problemas tenham sido resolvidos. :)