Closed leoalenc closed 3 weeks ago
@leoalenc , como explicado no e-mail que mandei há pouco, @juliana-gurgel , @dominickmaia e eu conseguimos rodar o comando de geração de bugs de um arquivo conllu (POPEL et al., p. 98). A saída do terminal da Juliana foi esta:
udapy -HAM ud.MarkBugs < yrl_complin-ud-test.conllu > bugs.html
2024-07-19 10:14:42,577 [ INFO] execute - No reader specified, using read.Conllu
2024-07-19 10:14:42,577 [ INFO] execute - ---- ROUND ----
2024-07-19 10:14:42,577 [ INFO] execute - Executing block read.Conllu
2024-07-19 10:14:42,703 [ INFO] execute - Executing block ud.MarkBugs
2024-07-19 10:14:42,860 [WARNING] after_process_document - ud.MarkBugs Error Overview:
mark-upos 3
det-upos 4
multi-obj 15
degree-upos 41
no-VerbForm 96
finverb-mood 2737
TOTAL 2896
2024-07-19 10:14:42,861 [ INFO] execute - Executing block write.TextModeTreesHtml
Os valores acima indicam que três dos seis tipos de bugs tiveram aumento de ocorrências desde o lançamento da v2.14 até agora: | Tipo de Bug | Quantidade na v2.14 | Novos Bugs | Quantidade Atual |
---|---|---|---|---|
degree-upos | 36 | 5 | 41 | |
no-VerbForm | 88 | 8 | 96 | |
finverb-mood | 2580 | 157 | 2737 | |
TOTAL | 2725 | 170 | 2896 |
Nós três ficamos com a impressão de que a maioria esmagadora dos bugs tem a ver com a falta de indicação do modo verbal nos atributos da coluna feat. Seria correto dizer que essa ausência se justifique por o sistema verbal do nheengatu não marcar modo na flexão do verbo? Resolver esse tipo de caso seria resolver 95% do nosso problema atual com o escore de udapi que afeta a nota do corpus em 31%.
Vou continuar estudando os bugs para entender os outros casos.
@leoalenc , nos últimos três dias, tenho analisado as 15 sentenças marcadas como contendo erro de multi-obj
. A questão #8 do meu repositório privado lista uma tabela (ainda em construção) com o que tem sido feito. Este commit apresenta a revisão de MooreFP1994:0:0:16
, em que apresento minha revisão da sentença propondo que a deprel
do id
3 passe de obj
para iobj
para evitar o erro acusado pelo Udapi por já haver um ccomp
regido pelo verbo yururé. Acredito inclusive que essa estratégia pode funcionar para várias outras sentenças. Segue minha anotação para conferência:
# sent_id = MooreFP1994:0:0:16
# text = Ayururé se manha upitá arama yané rendawa upé se ratiwa uxari waá yandé arã.
# text_eng = I asked my mother to stay in our farm that my grandfather left for us.
# text_por = Pedi para minha mãe ficar na nossa fazenda que meu avô deixou para nós.
# text_source = p. 108
# text_orig = a-yururé se-mẫỹã u-pitá arãma iane-rẽndá upé [se-ratíwa u-šári waʔá yãndé arã]S'Rel
# text_annotator = Leonel Figueiredo de Alencar
# reviewer1 = Hélio Leonam Barroso Silva
1 Ayururé yururé VERB V Number=Sing|Person=1|VerbForm=Fin 0 root _ TokenRange=0:7
2 se se PRON PRON2 Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 3 nmod:poss _ TokenRange=8:10
3 manha manha NOUN N Number=Sing 1 iobj _ TokenRange=11:16
4 upitá pitá VERB V Person=3|VerbForm=Fin 1 ccomp _ TokenRange=17:22
5 arama arama ADP ADP AdpType=Post 4 mark _ TokenRange=23:28
6 yané yané PRON PRON2 Case=Gen|Number=Plur|Person=1|Poss=Yes|PronType=Prs 7 nmod:poss _ TokenRange=29:33
7 rendawa tendawa NOUN N Number=Sing|Rel=Cont 4 obl _ TokenRange=34:41
8 upé upé ADP ADP AdpType=Post 7 case _ TokenRange=42:45
9 se se PRON PRON2 Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 10 nmod:poss _ TokenRange=46:48
10 ratiwa tatiwa NOUN N Number=Sing|Rel=Cont 11 nsubj _ TokenRange=49:55
11 uxari xari VERB V Person=3|VerbForm=Fin 7 acl:relcl _ TokenRange=56:61
12 waá waá PRON REL Number=Sing|PronType=Rel 11 obj _ TokenRange=62:65
13 yandé yandé PRON PRON Number=Plur|Person=1|PronType=Prs 11 iobj _ TokenRange=66:71
14 arã arã ADP ADP AdpType=Post 13 case _ SpaceAfter=No|TokenRange=72:75
15 . . PUNCT PUNCT _ 1 punct _ SpaceAfter=No|TokenRange=75:76
@leoalenc , acabei de revisar Avila2021:0:0:16
, que é uma das sentenças apontadas pelo Udapi como contendo erro de multi-obj
. A sentença revisada pode ser visualizada neste commit do meu repositório privado. Minha proposta de resolução do erro é idêntica à da revisão do comentário acima: substituir a deprel
obj
do verbo purandú por iobj
. Devo postar aqui no comentário mesmo? Devo criar uma questão para cada sentença revisada mencionando esta questão #402 para não acumular comentários demais numa mesma questão?
@leoalenc , acabei de revisar
Avila2021:0:0:16
, que é uma das sentenças apontadas pelo Udapi como contendo erro demulti-obj
. A sentença revisada pode ser visualizada neste commit do meu repositório privado. Minha proposta de resolução do erro é idêntica à da revisão do comentário acima: substituir adeprel
obj
do verbo purandú poriobj
. Devo postar aqui no comentário mesmo? Devo criar uma questão para cada sentença revisada mencionando esta questão #402 para não acumular comentários demais numa mesma questão?
@heliolbs , excelente trabalho! Pode continuar trabalhando da forma como tem feito, collocando aqui o link do commit. Você pode definir uma issue aqui para o problema dos dois objetos, com cada sentença a ser corrigida como tarefa. Pode abrir esta issue a partir deste meu comentário.
- [x] corrigir erro de dois objetos na sentença
MooreFP1994:0:0:19
- [x] corrigir demais erros desse tipo
- [x] verificar
mark-upos
- [x] verificar
det-upos
- [x] verificar
degree-upos
- [x] verificar
no-VerbForm
- [x] verificar
finverb-mood
udapy -HAM ud.MarkBugs < yrl_complin-ud-test.conllu > bugs.html 2024-05-11 00:46:21,772 [ INFO] execute - No reader specified, using read.Conllu 2024-05-11 00:46:21,772 [ INFO] execute - ---- ROUND ---- 2024-05-11 00:46:21,772 [ INFO] execute - Executing block read.Conllu 2024-05-11 00:46:21,869 [ INFO] execute - Executing block ud.MarkBugs 2024-05-11 00:46:22,001 [WARNING] after_process_document - ud.MarkBugs Error Overview: mark-upos 3 det-upos 4 multi-obj 15 degree-upos 36 no-VerbForm 88 finverb-mood 2580 TOTAL 2726 2024-05-11 00:46:22,001 [ INFO] execute - Executing block write.TextModeTreesHtml
Estou fechando a issue porque os erros apontado pelo udapy
que podiam ser corrigidos com mudanças no treebank foram todos sanados. Ver #460 e as demais issues mencionadas acima. Esta é a situação atual:
udapy -HAM ud.MarkBugs < ~/complin/nheengatu/data/corpus/universal-dependencies/yrl_complin-ud-test.conllu > ~/Dropbox/nheengatu/udapi/yrl_complin-ud-test-bugs311024d.html
2024-11-01 00:26:01,116 [ INFO] execute - No reader specified, using read.Conllu
2024-11-01 00:26:01,116 [ INFO] execute - ---- ROUND ----
2024-11-01 00:26:01,116 [ INFO] execute - Executing block read.Conllu
2024-11-01 00:26:01,243 [ INFO] execute - Executing block ud.MarkBugs
2024-11-01 00:26:01,398 [WARNING] after_process_document - ud.MarkBugs Error Overview:
mark-upos 3
det-upos 4
degree-upos 50
TOTAL 57
MooreFP1994:0:0:19
mark-upos
det-upos
degree-upos
no-VerbForm
finverb-mood