LR-POR / cl-conllu

tool for working with conllu files in CL
Apache License 2.0
13 stars 5 forks source link

(data) add function to access MISC key-value pairs #72

Closed odanoburu closed 5 years ago

odanoburu commented 5 years ago

the conllu format demands that the MISC field be a list; it is often a list of key-value pairs. the library should provide a function to access these to avoid code repetition in applications that use it.

arademaker commented 5 years ago

Isto vai quebrar alguns códigos não? O corpus UD_Portuguese-Bosque TODO segue o padrão esperado no campo MISC? Como lidar com casos onde não tivemos K/V pair no campo? O codigo poderia ser robusto à isso?

odanoburu commented 5 years ago

não vai quebrar nada pq não é chamado em lugar nenhum! quem sabe que seus dados estão nesse formato pode chamar essa função, se quiser, ao invés de escrever a sua.

O codigo poderia ser robusto à isso?

se você preferir robustez mesmo com o que falei acima, posso implementar!

arademaker commented 5 years ago

Acho que não faz mal simplesmente ser robusto ao campo não poder ser retornado no formato key/value. alias. a lib como um todo precisa de mais robustez com uso de handles, vide #14

odanoburu commented 5 years ago

correção: na verdade o código já é robusto. não sei pq disse que não era o.O

ele simplesmente retorna nil pra qualquer formato diferente, como se não tivesse achado.

arademaker commented 5 years ago

sua documentação começa com assume... e o segundo split assume o = como separador. vc poderia no segundo split, ao encontrar um item da lista sem =, emitir um warning.

odanoburu commented 5 years ago

sim, pq não tem pq chamar essa função num documento que não siga esse formato... vc acha melhor trocar a palavra?

e o segundo split assume o = como separador. vc poderia no segundo split, ao encontrar um item da lista sem =, emitir um warning.

feito! mas acho que sem usar uma biblio de logging, fica muito ad hoc...

arademaker commented 5 years ago

are we using split-sequence elsewhere?