Closed lubianat closed 3 years ago
Oi!
Respondendo:
O lorem ipsum no abstract é proposital, eu ia escrever só depois que tu tivesse lido kkkk
Eu conheço o ShEx, mas como é um trabalho relativamente simplista acho que se eu fosse tentar aprender agora acabaria dobrando o tempo que ia levar kkkkk. Mas se você acha válido eu posso incluir na metodologia. E vou tentar incluir uma seção na introdução sobre os "instances of cell" como um exemplo da ausência de um data model formal.
O resto eu concordo contigo e vou tentar implementar no próximo commit.
Obrigado!
Show, é isso aí. Não precisa de muito mermo, é só algo pra gente começar.
E é bem simples, mas acho que conseguimos fazer um ciclo completo: projeto, análise e publicação.
Não uma publicação formal e tal, mas um report público para quem se interessar. Um mini preprint, ou algo do tipo.
Vou fazer aqui que fica tudo no mesmo lugar.
Primeiramente: cara, tá muito bom!
Os detalhes aqui, para arredondar mais:
Tá com o lorem ipsum de abstract. Mas tá beleza, não precisa de abstract.
Seria legal o título deixar claro que é um estudo de caso do Panglao DB.
"The data from PanglaoDB will be matched " --> qual data? No caso, seria os metadados referentes a tipos celulares, tecidos, organismos etc, não?
""or if the actual labels are semantically similar, which can be assessed either manually or using automated sequence similarity approaches, such as Levenshtein distance and word2vec"
É melhor definir isso a priori. Se mudarmos de opinião, registramos a mudança depois. Acho que pode deixar só o match do Open Refine mesmo e depois, ao descrever os resultados, mencionamos matchs parciais e coisas do tipo.
Quality Assesment -> Tá massa. Tem mto "instance of cell" no lugar de "instance of cell type", mas esses eu já tou corrigindo manualmente rs. Tem formas legais de fazer quality assesment automático (tipo usando ShEx, mas é overkill e podemos pensar depois.
Nas estatísticas do Panglao DB você colocou as estatísticas dos dados, seria interessante ter estatísticas dos metadados. Ou seja, quantos tipos celulares? Quantas espécies? Quantos genes? coisas desse tipo