O PR #1045 irá corrigir as extensões de arquivos que são baixados sem extensão. Simplesmente refazer a raspagem nos municípios onde essa mudança terá efeito exigiria deletar os arquivos obsoletos no sistema de arquivos em nuvem, no banco de diários e no motor de busca. Além de que serão "os mesmos arquivos" mas agora com metadados como "scraped_at" modificados.
Sugiro atualizar os arquivos diretamente no sistema de arquivos com um script detectando a extensão da mesma maneira que o pipeline está fazendo. Então atualizar os file_path e url (esse apenas no motor de busca) direto nos bancos.
O PR #1045 irá corrigir as extensões de arquivos que são baixados sem extensão. Simplesmente refazer a raspagem nos municípios onde essa mudança terá efeito exigiria deletar os arquivos obsoletos no sistema de arquivos em nuvem, no banco de diários e no motor de busca. Além de que serão "os mesmos arquivos" mas agora com metadados como "scraped_at" modificados.
Sugiro atualizar os arquivos diretamente no sistema de arquivos com um script detectando a extensão da mesma maneira que o pipeline está fazendo. Então atualizar os
file_path
eurl
(esse apenas no motor de busca) direto nos bancos.