henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.
MIT License
450 stars 253 forks source link

team_data_scrapter.R - Reescrever captura dos dados dos confrontos dos times #45

Closed henriquepgomide closed 5 years ago

henriquepgomide commented 6 years ago

Bem, a CBF mudou o sistema de frontend da tabela do campeonato brasileiro.

Precisamos agora adaptar o script para que ele capte os dados dos confrontos entre os times do campeonato brasileiro.

joaomamorim commented 6 years ago

Agradeço a galera pelo projeto, tá muito legal o projeto de vocês. Referente à issue:

Por isso a tabela de partidas está desatualizada?

henriquepgomide commented 6 years ago

Muito obrigado @joaomamorim!

Na mosca. Esta é a razão da tabela desatualizada.

henriquepgomide commented 6 years ago

Como são poucos jogos por rodada. Por hora atualizarei na mão os resultados.

mathanssen commented 5 years ago

Opa, beleza? Tenho visto seu modelo, bel legal, parabéns! Sobre o site da CBF ter mudado, encontrei um site que já traz as informações da tabela e jogos da rodada de uma forma limpa: https://us.soccerway.com/national/brazil/serie-a/2018/regular-season/r45710/?ICID=TN_02_01_10

Para trazer a rodada: (precisa excluir os dados de jogos que já ocorreram)

page <- GET( "https://us.soccerway.com/national/brazil/serie-a/2018/regular-season/r45710/?ICID=TN_02_01_10" )

theurl <- htmlTreeParse(page, useInternal = TRUE) tables <- readHTMLTable(theurl) n.rows <- unlist(lapply(tables, function(t) dim(t)[1])) info <- tables[[which.max(n.rows)]]

Para trazer a tabela, alteramos para "2".

serenini commented 5 years ago

Pessoal, como ficou essa questão para esse ano? Vi que os dados da primeira rodada não tem o nome do adversário

henriquepgomide commented 5 years ago

@mathanssen e @alvinegro , Implementei a solução proposta por @mathanssen ! Muito obrigado por apontar o site. A partir de agora os dados das rodadas estão salvos no em 'data/2019/2019_partidas'. Abraços,