Closed gilsondev closed 1 year ago
Possibilidade de rodar a pipeline no Github actions, e uma das etapas serem feitas via Selenium (download do CSV):
Uma forma de executar a pipeline via Actions de forma periódica: https://futurestud.io/tutorials/github-actions-trigger-builds-on-schedule-cron
Essa demanda tem o objetivo de desenvolver uma pipeline de dados em que irá executar os seguintes passos:
https://rdap.registro.br/domain/<dominio>
. Os dados a serem coletados são:ldhName
)fn
)email
)document_normalized
com somente os dígitos do CNPJ/CPF que vem da colunadocumento
slug
com a normalização do domínio destf.gov.br
parastf
organization_normalized
com o nome da instituição em minúscula, sem caracteres e acentos a partir do valor da colunanome
agent_normalized
com o nome do representante em minúscula, sem caracteres e acentos a partir do valor da colunanome_contato
deparment_normalized
com o nome do departamento que fez o registro do domínio, sem caracteres e acentos a partir do valor coletado via RDAPSchema e amostra dos dados
A tabela abaixo traz o schema da tabela de domínios:
Abaixo temos um exemplo de como os dados serão inseridos na base: