UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

determinantes e palavras estrangeiras #237

Open arademaker opened 5 years ago

arademaker commented 5 years ago

Testando a ferramenta de visualização nova http://www.let.rug.nl/kleiweg/conllu/ com um arquivo, achei duas sentenças com problemas de determinantes e palavras estrangeiras, seguindo documentação UD para X postag, entendi que free shops deve ser analisado como adj seguido de noun. Arrumei dependencias em 668d1765.

wellington36 commented 3 years ago

Aparentemente ainda temos varios casos de palavras estrangeiras marcadas com POS tag X (com 162 marcados com essa tag):

cat *.conllu | udapy -q util.Eval node='if node.upos == "X": print(node)' 
node<CF81-11#26, status>
node<CF81-11#27, quo>
node<CF82-1#12, pole>
node<CF82-1#13, position>
node<CF82-2#28, safety>
node<CF82-2#29, car>
node<CF139-2#7, jet>
node<CF139-2#8, lag>
node<CF147-1#19, jam>
node<CF147-1#20, sessions>
node<CF151-49#26, drag>
node<CF151-49#27, queen>
node<CF151-49#29, drag>
node<CF151-49#30, king>
node<CF161-7#19, hit>
....
wellington36 commented 3 years ago

Aparentemente ainda temos varios casos de palavras estrangeiras marcadas com POS tag X (com 162 marcados com essa tag):

cat *.conllu | udapy -q util.Eval node='if node.upos == "X": print(node)' 
node<CF81-11#26, status>
node<CF81-11#27, quo>
node<CF82-1#12, pole>
node<CF82-1#13, position>
node<CF82-2#28, safety>
node<CF82-2#29, car>
node<CF139-2#7, jet>
node<CF139-2#8, lag>
node<CF147-1#19, jam>
node<CF147-1#20, sessions>
node<CF151-49#26, drag>
node<CF151-49#27, queen>
node<CF151-49#29, drag>
node<CF151-49#30, king>
node<CF161-7#19, hit>
....

Pela documentação da postag X não devemos usá-la para palavras estrangeiras.