EticaAI / EticaAI-linguistic-datasets-pt

Conjuntos de dados linguísticos em português via cooperação com comunidades
The Unlicense
0 stars 1 forks source link

Repositório exclusivo para conter cópia de dados que hoje estão em `EticaAI-linguistic-datasets-pt/data/` #5

Closed fititnt closed 3 years ago

fititnt commented 3 years ago

Atualmente o diretório data/ tem informações de demonstração. Porém a tendência é que, mesmo que os conjuntos de dados tendam a ser pequenos, eventualmente eles podem ficar bem grandes (mesmo que seja por acidente) e isso pode começar a deixar pesado para quem for fazer git clone deste repositório. Outro problema é que eventualmente pode haver automação em como esses dados são gerados, e a quantidade de alterações feitas em nome de humanos poderia gerar muito ruído.

Situação atual

Captura de tela de 2020-12-03 12-35-14 Captura de tela de 2020-12-03 12-35-29

Proposta: criar repositório apenas para dados

Talvez a melhor alternativa (pelo menos enquanto não usar outros lugares para armazenar dados) seja ter um repositório apenas para isso.

Porém indicar fortemente no repositório que, para fins de documentação e fins de "onde estão os scripts" apontar para esse projeto

fititnt commented 3 years ago

Captura de tela de 2020-12-03 13-46-31

Captura de tela de 2020-12-03 13-49-20


Captura de tela de 2020-12-03 13-49-53


Captura de tela de 2020-12-03 14-05-17

fititnt commented 3 years ago

Feito. Quando necessário ter uma cópia local, o repositório usado será o https://github.com/EticaAI/EticaAI-linguistic-datasets-pt-data.

Em geral, mesmo enquanto não houver alguma automação para fazer commits automáticos, vamos usar como e-mail "bot[at]etica.ai" e nome "Etica.AI (bot) na conta.

O domínio usado para servir o conteúdo (talvez seja alterado no futuro) é o https://data-pt.etica.ai