edalcin / DarwinCoreJSON

1 stars 0 forks source link

Implementar mais de uma fonte de ocorrências #45

Closed edalcin closed 10 months ago

edalcin commented 1 year ago

Seria legal gerar uma coleção de ocorrências para cada fonte de dados. Por exemplo, uma lista de URLs com arquivos DwC "reflora.txt" iria gerar a coleção "occurReflora" no MongoDB. Uma lista em "gbif.txt" iria gerar "occurGbif". Desta forma, poderíamos não só comparar, mas ofertar na interface as ocorrências em diferentes fontes de dados.

edalcin commented 11 months ago

@Phenome Subi de prioridade essa tarefa. A ideia é:

Podemos conversar sobre isso, ou fazer um "sprint" juntos na próxima reunião!

Phenome commented 11 months ago

Sugiro criar um arquivo dento de referências, chamado iptSources.json, com a estrutura exemplo:

[
  {
    "collection": "reflora",
    "baseUrl": "https://ipt.jbrj.gov.br/reflora/",
    "datasets": [
      "alcb_herbarium",
      "ase_herbarium",
      "b_herb",
      "brba"
    ]
  },
  {
    "ipt": "jabot",
    "baseUrl": "https://ipt.jbrj.gov.br/jabot/",
    "datasets": [
      "cen",
      "cepec_herbarium"
    ]
  },
  {
    "ipt": "cria",
    "baseUrl": "http://ipt1.cria.org.br/ipt",
    "datasets": [
      "cen",
      "cepec_herbarium"
    ]
  }
]

Daí podemos processar o eml.do para comparar a versão, e se necessário processar o archive.do

edalcin commented 11 months ago

/referencias/source.json comitado!

O ideal acho que seria criar uma coleção no Mongo por "collection". Ou, criar uma coleção única com o "tag" "collection" em cada documento. Acho que a segunda opção é melhor, porque seria fácil filtrar e exportar para outra coleção.

edalcin commented 11 months ago

Criado o taxasources.json:

https://github.com/edalcin/DarwinCoreJSON/blob/main/referencias/taxasources.json

edalcin commented 10 months ago

Resolvido e implementado com o sources.json