LR-POR / tools

Tools for checking the compatibility between a lexical resource and a treebank
BSD 3-Clause "New" or "Revised" License
2 stars 0 forks source link

esqueleto codigo #2

Closed arademaker closed 3 years ago

arademaker commented 3 years ago

https://github.com/LR-POR/check-tools/blob/7baa03fef24101a62720b33d596fffaf680abffe/CheckUnification.py#L18

a idéia aqui é que na primeira unificação o loop poderia ser interrompido né?

leoalenc commented 3 years ago

https://github.com/LR-POR/check-tools/blob/7baa03fef24101a62720b33d596fffaf680abffe/CheckUnification.py#L18

a idéia aqui é que na primeira unificação o loop poderia ser interrompido né?

@arademaker , obrigado, vc tem razão. Fiz uma nova versão bem mais detalhada que atende a essa sua observação em https://github.com/LR-POR/check-tools/commit/bdc4d54289ab4117b4abcc4d8868ea75a30549c9. Esse código tem algumas sugestões para a @analununes implementar. Eu até poderia fazer isso de forma amadorística, mas antes do seminário em 13/05 não poderia.

analununes commented 3 years ago

No commit d0fccc5b142e00cf18d920eef8bd5b4dcac4bab1 implementei as funções morphobr_to_fst e bosque_to_fst. Era pra ser assim mesmo? Tem alguma feature faltando?

arademaker commented 3 years ago
% python CheckUnification.py ~/work/ud-portuguese-bosque/documents/CF0010.conllu
Traceback (most recent call last):
  File "/Users/ar/work/check-tools/CheckUnification.py", line 18, in <module>
    print(bosque_to_fst(token["form"],token["lemma"],token["upos"],token["feats"]))
NameError: name 'bosque_to_fst' is not defined

coding no master, precisamos resolver este erro.

arademaker commented 3 years ago

apaguei branch issue-2, nos clones locais, apagar a branch antes de recriar.

arademaker commented 3 years ago

O que esta saida quer dizer?

% python CheckUnification.py ~/work/ud-portuguese-bosque/documents/CF0010.conllu
[ Cat    = 'PROPN'  ]
[ Form   = 'Prandi' ]
[ Gender = 'Masc'   ]
[ Lemma  = 'Prandi' ]
[ Number = 'Sing'   ]
[ Cat      = 'VERB'  ]
...
analununes commented 3 years ago

De [Cat = PROPN] a [Number = Sing] são os campos da fst de "Prandi" (classe, forma flexionada, lema e features), em [Cat = VERB] começa outra fst. As fst's foram printadas uma seguida da outra, adicionei uma quebra de linha para facilitar a leitura.

analununes commented 3 years ago

@leoalenc no arquivo generate_morphobr_to_bosque eu criei um dicionário com as tags do MorphoBr como chaves e os valores são features correspondentes na UD. As tags de Degree não estão completas, não achei algo equivalente a AUG e DIM nas features de Degree da UD. tem uma issue relacionada a isso. Você pode conferir se o dicionáriol está certo?

Acho que agora só falta ler o MorphoBr. Conversei com o @arademaker e decidimos criar um arquivo json para facilitar a leitura. Vou falar sobre isso aqui.

leoalenc commented 3 years ago

@leoalenc no arquivo generate_morphobr_to_bosque eu criei um dicionário com as tags do MorphoBr como chaves e os valores são features correspondentes na UD. As tags de Degree não estão completas, não achei algo equivalente a AUG e DIM nas features de Degree da UD. tem uma issue relacionada a isso. Você pode conferir se o dicionáriol está certo?

Acho que agora só falta ler o MorphoBr. Conversei com o @arademaker e decidimos criar um arquivo json para facilitar a leitura. Vou falar sobre isso aqui.

@analununes , ficou bem legal, vou checar o dicionário e retorno.