Closed odanoburu closed 5 years ago
Isto vai quebrar alguns códigos não? O corpus UD_Portuguese-Bosque TODO segue o padrão esperado no campo MISC? Como lidar com casos onde não tivemos K/V pair no campo? O codigo poderia ser robusto à isso?
não vai quebrar nada pq não é chamado em lugar nenhum! quem sabe que seus dados estão nesse formato pode chamar essa função, se quiser, ao invés de escrever a sua.
O codigo poderia ser robusto à isso?
se você preferir robustez mesmo com o que falei acima, posso implementar!
Acho que não faz mal simplesmente ser robusto ao campo não poder ser retornado no formato key/value. alias. a lib como um todo precisa de mais robustez com uso de handles, vide #14
correção: na verdade o código já é robusto. não sei pq disse que não era o.O
ele simplesmente retorna nil pra qualquer formato diferente, como se não tivesse achado.
sua documentação começa com assume...
e o segundo split assume o =
como separador. vc poderia no segundo split, ao encontrar um item da lista sem =
, emitir um warning.
sim, pq não tem pq chamar essa função num documento que não siga esse formato... vc acha melhor trocar a palavra?
e o segundo split assume o = como separador. vc poderia no segundo split, ao encontrar um item da lista sem =, emitir um warning.
feito! mas acho que sem usar uma biblio de logging, fica muito ad hoc...
are we using split-sequence elsewhere?
the conllu format demands that the MISC field be a list; it is often a list of key-value pairs. the library should provide a function to access these to avoid code repetition in applications that use it.