Closed edalcin closed 10 months ago
@Phenome Subi de prioridade essa tarefa. A ideia é:
Podemos conversar sobre isso, ou fazer um "sprint" juntos na próxima reunião!
Sugiro criar um arquivo dento de referências, chamado iptSources.json
, com a estrutura exemplo:
[
{
"collection": "reflora",
"baseUrl": "https://ipt.jbrj.gov.br/reflora/",
"datasets": [
"alcb_herbarium",
"ase_herbarium",
"b_herb",
"brba"
]
},
{
"ipt": "jabot",
"baseUrl": "https://ipt.jbrj.gov.br/jabot/",
"datasets": [
"cen",
"cepec_herbarium"
]
},
{
"ipt": "cria",
"baseUrl": "http://ipt1.cria.org.br/ipt",
"datasets": [
"cen",
"cepec_herbarium"
]
}
]
Daí podemos processar o eml.do
para comparar a versão, e se necessário processar o archive.do
/referencias/source.json comitado!
O ideal acho que seria criar uma coleção no Mongo por "collection". Ou, criar uma coleção única com o "tag" "collection" em cada documento. Acho que a segunda opção é melhor, porque seria fácil filtrar e exportar para outra coleção.
Criado o taxasources.json:
https://github.com/edalcin/DarwinCoreJSON/blob/main/referencias/taxasources.json
Resolvido e implementado com o sources.json
Seria legal gerar uma coleção de ocorrências para cada fonte de dados. Por exemplo, uma lista de URLs com arquivos DwC "reflora.txt" iria gerar a coleção "occurReflora" no MongoDB. Uma lista em "gbif.txt" iria gerar "occurGbif". Desta forma, poderíamos não só comparar, mas ofertar na interface as ocorrências em diferentes fontes de dados.