Estou enfrentando dificuldades para baixar dados D-1 de todos os endpoints. Mesmo utilizando filtro de dados, meu IP é bloqueado depois de algumas requisições.
Baixar os arquivos inteiros diariamente e fazer um diff não me parece uma solução eficaz.
Sugiro a disponibilização dos dados (pode ser uma foto atualizada da base toda, assim como é feito na aba de arquivos), mas em formato parquet em cloud pública, permitindo fazer extrações de dados com PySpark, por exemplo.
Com Spark eu poderia filtrar os dados que gostaria de extrair mais facilmente.
Posso colaborar na criação do lake, se for possível.
Boa noite.
Estou enfrentando dificuldades para baixar dados D-1 de todos os endpoints. Mesmo utilizando filtro de dados, meu IP é bloqueado depois de algumas requisições.
Baixar os arquivos inteiros diariamente e fazer um diff não me parece uma solução eficaz.
Sugiro a disponibilização dos dados (pode ser uma foto atualizada da base toda, assim como é feito na aba de arquivos), mas em formato parquet em cloud pública, permitindo fazer extrações de dados com PySpark, por exemplo. Com Spark eu poderia filtrar os dados que gostaria de extrair mais facilmente.
Posso colaborar na criação do lake, se for possível.
Abraços!