Closed fititnt closed 3 years ago
Feito. Quando necessário ter uma cópia local, o repositório usado será o https://github.com/EticaAI/EticaAI-linguistic-datasets-pt-data.
Em geral, mesmo enquanto não houver alguma automação para fazer commits automáticos, vamos usar como e-mail "bot[at]etica.ai" e nome "Etica.AI (bot) na conta.
O domínio usado para servir o conteúdo (talvez seja alterado no futuro) é o https://data-pt.etica.ai
Atualmente o diretório
data/
tem informações de demonstração. Porém a tendência é que, mesmo que os conjuntos de dados tendam a ser pequenos, eventualmente eles podem ficar bem grandes (mesmo que seja por acidente) e isso pode começar a deixar pesado para quem for fazergit clone
deste repositório. Outro problema é que eventualmente pode haver automação em como esses dados são gerados, e a quantidade de alterações feitas em nome de humanos poderia gerar muito ruído.Situação atual
Proposta: criar repositório apenas para dados
Talvez a melhor alternativa (pelo menos enquanto não usar outros lugares para armazenar dados) seja ter um repositório apenas para isso.
Porém indicar fortemente no repositório que, para fins de documentação e fins de "onde estão os scripts" apontar para esse projeto