Open arademaker opened 5 years ago
Aparentemente ainda temos varios casos de palavras estrangeiras marcadas com POS tag X
(com 162 marcados com essa tag):
cat *.conllu | udapy -q util.Eval node='if node.upos == "X": print(node)'
node<CF81-11#26, status>
node<CF81-11#27, quo>
node<CF82-1#12, pole>
node<CF82-1#13, position>
node<CF82-2#28, safety>
node<CF82-2#29, car>
node<CF139-2#7, jet>
node<CF139-2#8, lag>
node<CF147-1#19, jam>
node<CF147-1#20, sessions>
node<CF151-49#26, drag>
node<CF151-49#27, queen>
node<CF151-49#29, drag>
node<CF151-49#30, king>
node<CF161-7#19, hit>
....
Aparentemente ainda temos varios casos de palavras estrangeiras marcadas com POS tag
X
(com 162 marcados com essa tag):cat *.conllu | udapy -q util.Eval node='if node.upos == "X": print(node)' node<CF81-11#26, status> node<CF81-11#27, quo> node<CF82-1#12, pole> node<CF82-1#13, position> node<CF82-2#28, safety> node<CF82-2#29, car> node<CF139-2#7, jet> node<CF139-2#8, lag> node<CF147-1#19, jam> node<CF147-1#20, sessions> node<CF151-49#26, drag> node<CF151-49#27, queen> node<CF151-49#29, drag> node<CF151-49#30, king> node<CF161-7#19, hit> ....
Pela documentação da postag X não devemos usá-la para palavras estrangeiras.
Testando a ferramenta de visualização nova http://www.let.rug.nl/kleiweg/conllu/ com um arquivo, achei duas sentenças com problemas de determinantes e palavras estrangeiras, seguindo documentação UD para
X
postag, entendi quefree shops
deve ser analisado como adj seguido de noun. Arrumei dependencias em 668d1765.