CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 2 forks source link

erros de validação apontados pelo Udapi #402

Closed leoalenc closed 3 weeks ago

leoalenc commented 6 months ago
udapy -HAM ud.MarkBugs < yrl_complin-ud-test.conllu > bugs.html
2024-05-11 00:46:21,772 [   INFO] execute - No reader specified, using read.Conllu
2024-05-11 00:46:21,772 [   INFO] execute -  ---- ROUND ----
2024-05-11 00:46:21,772 [   INFO] execute - Executing block read.Conllu
2024-05-11 00:46:21,869 [   INFO] execute - Executing block ud.MarkBugs
2024-05-11 00:46:22,001 [WARNING] after_process_document - ud.MarkBugs Error Overview:
           mark-upos          3
            det-upos          4
           multi-obj         15
         degree-upos         36
         no-VerbForm         88
        finverb-mood       2580
               TOTAL       2726

2024-05-11 00:46:22,001 [   INFO] execute - Executing block write.TextModeTreesHtml
heliolbs commented 4 months ago

@leoalenc , como explicado no e-mail que mandei há pouco, @juliana-gurgel , @dominickmaia e eu conseguimos rodar o comando de geração de bugs de um arquivo conllu (POPEL et al., p. 98). A saída do terminal da Juliana foi esta:

udapy -HAM ud.MarkBugs < yrl_complin-ud-test.conllu > bugs.html
2024-07-19 10:14:42,577 [   INFO] execute - No reader specified, using read.Conllu
2024-07-19 10:14:42,577 [   INFO] execute -  ---- ROUND ----
2024-07-19 10:14:42,577 [   INFO] execute - Executing block read.Conllu
2024-07-19 10:14:42,703 [   INFO] execute - Executing block ud.MarkBugs
2024-07-19 10:14:42,860 [WARNING] after_process_document - ud.MarkBugs Error Overview:
           mark-upos          3
            det-upos          4
           multi-obj         15
         degree-upos         41
         no-VerbForm         96
        finverb-mood       2737
               TOTAL       2896

2024-07-19 10:14:42,861 [   INFO] execute - Executing block write.TextModeTreesHtml
Os valores acima indicam que três dos seis tipos de bugs tiveram aumento de ocorrências desde o lançamento da v2.14 até agora: Tipo de Bug Quantidade na v2.14 Novos Bugs Quantidade Atual
degree-upos 36 5 41
no-VerbForm 88 8 96
finverb-mood 2580 157 2737
TOTAL 2725 170 2896

Nós três ficamos com a impressão de que a maioria esmagadora dos bugs tem a ver com a falta de indicação do modo verbal nos atributos da coluna feat. Seria correto dizer que essa ausência se justifique por o sistema verbal do nheengatu não marcar modo na flexão do verbo? Resolver esse tipo de caso seria resolver 95% do nosso problema atual com o escore de udapi que afeta a nota do corpus em 31%.

Vou continuar estudando os bugs para entender os outros casos.

heliolbs commented 4 months ago

@leoalenc , nos últimos três dias, tenho analisado as 15 sentenças marcadas como contendo erro de multi-obj. A questão #8 do meu repositório privado lista uma tabela (ainda em construção) com o que tem sido feito. Este commit apresenta a revisão de MooreFP1994:0:0:16, em que apresento minha revisão da sentença propondo que a deprel do id 3 passe de obj para iobj para evitar o erro acusado pelo Udapi por já haver um ccomp regido pelo verbo yururé. Acredito inclusive que essa estratégia pode funcionar para várias outras sentenças. Segue minha anotação para conferência:

# sent_id = MooreFP1994:0:0:16
# text = Ayururé se manha upitá arama yané rendawa upé se ratiwa uxari waá yandé arã.
# text_eng = I asked my mother to stay in our farm that my grandfather left for us.
# text_por = Pedi para minha mãe ficar na nossa fazenda que meu avô deixou para nós.
# text_source = p. 108
# text_orig = a-yururé se-mẫỹã u-pitá arãma iane-rẽndá upé [se-ratíwa u-šári waʔá yãndé arã]S'Rel
# text_annotator = Leonel Figueiredo de Alencar
# reviewer1 = Hélio Leonam Barroso Silva
1   Ayururé yururé  VERB    V   Number=Sing|Person=1|VerbForm=Fin   0   root    _   TokenRange=0:7
2   se  se  PRON    PRON2   Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 3   nmod:poss   _   TokenRange=8:10
3   manha   manha   NOUN    N   Number=Sing 1   iobj    _   TokenRange=11:16
4   upitá   pitá    VERB    V   Person=3|VerbForm=Fin   1   ccomp   _   TokenRange=17:22
5   arama   arama   ADP ADP AdpType=Post    4   mark    _   TokenRange=23:28
6   yané    yané    PRON    PRON2   Case=Gen|Number=Plur|Person=1|Poss=Yes|PronType=Prs 7   nmod:poss   _   TokenRange=29:33
7   rendawa tendawa NOUN    N   Number=Sing|Rel=Cont    4   obl _   TokenRange=34:41
8   upé upé ADP ADP AdpType=Post    7   case    _   TokenRange=42:45
9   se  se  PRON    PRON2   Case=Gen|Number=Sing|Person=1|Poss=Yes|PronType=Prs 10  nmod:poss   _   TokenRange=46:48
10  ratiwa  tatiwa  NOUN    N   Number=Sing|Rel=Cont    11  nsubj   _   TokenRange=49:55
11  uxari   xari    VERB    V   Person=3|VerbForm=Fin   7   acl:relcl   _   TokenRange=56:61
12  waá waá PRON    REL Number=Sing|PronType=Rel    11  obj _   TokenRange=62:65
13  yandé   yandé   PRON    PRON    Number=Plur|Person=1|PronType=Prs   11  iobj    _   TokenRange=66:71
14  arã arã ADP ADP AdpType=Post    13  case    _   SpaceAfter=No|TokenRange=72:75
15  .   .   PUNCT   PUNCT   _   1   punct   _   SpaceAfter=No|TokenRange=75:76
heliolbs commented 4 months ago

@leoalenc , acabei de revisar Avila2021:0:0:16, que é uma das sentenças apontadas pelo Udapi como contendo erro de multi-obj. A sentença revisada pode ser visualizada neste commit do meu repositório privado. Minha proposta de resolução do erro é idêntica à da revisão do comentário acima: substituir a deprel obj do verbo purandú por iobj. Devo postar aqui no comentário mesmo? Devo criar uma questão para cada sentença revisada mencionando esta questão #402 para não acumular comentários demais numa mesma questão?

leoalenc commented 4 months ago

@leoalenc , acabei de revisar Avila2021:0:0:16, que é uma das sentenças apontadas pelo Udapi como contendo erro de multi-obj. A sentença revisada pode ser visualizada neste commit do meu repositório privado. Minha proposta de resolução do erro é idêntica à da revisão do comentário acima: substituir a deprel obj do verbo purandú por iobj. Devo postar aqui no comentário mesmo? Devo criar uma questão para cada sentença revisada mencionando esta questão #402 para não acumular comentários demais numa mesma questão?

@heliolbs , excelente trabalho! Pode continuar trabalhando da forma como tem feito, collocando aqui o link do commit. Você pode definir uma issue aqui para o problema dos dois objetos, com cada sentença a ser corrigida como tarefa. Pode abrir esta issue a partir deste meu comentário.

leoalenc commented 3 weeks ago
  • [x] corrigir erro de dois objetos na sentença MooreFP1994:0:0:19
  • [x] corrigir demais erros desse tipo
  • [x] verificar mark-upos
  • [x] verificar det-upos
  • [x] verificar degree-upos
  • [x] verificar no-VerbForm
  • [x] verificar finverb-mood
udapy -HAM ud.MarkBugs < yrl_complin-ud-test.conllu > bugs.html
2024-05-11 00:46:21,772 [   INFO] execute - No reader specified, using read.Conllu
2024-05-11 00:46:21,772 [   INFO] execute -  ---- ROUND ----
2024-05-11 00:46:21,772 [   INFO] execute - Executing block read.Conllu
2024-05-11 00:46:21,869 [   INFO] execute - Executing block ud.MarkBugs
2024-05-11 00:46:22,001 [WARNING] after_process_document - ud.MarkBugs Error Overview:
           mark-upos          3
            det-upos          4
           multi-obj         15
         degree-upos         36
         no-VerbForm         88
        finverb-mood       2580
               TOTAL       2726

2024-05-11 00:46:22,001 [   INFO] execute - Executing block write.TextModeTreesHtml

Estou fechando a issue porque os erros apontado pelo udapy que podiam ser corrigidos com mudanças no treebank foram todos sanados. Ver #460 e as demais issues mencionadas acima. Esta é a situação atual:

udapy -HAM ud.MarkBugs < ~/complin/nheengatu/data/corpus/universal-dependencies/yrl_complin-ud-test.conllu > ~/Dropbox/nheengatu/udapi/yrl_complin-ud-test-bugs311024d.html 
2024-11-01 00:26:01,116 [   INFO] execute - No reader specified, using read.Conllu
2024-11-01 00:26:01,116 [   INFO] execute -  ---- ROUND ----
2024-11-01 00:26:01,116 [   INFO] execute - Executing block read.Conllu
2024-11-01 00:26:01,243 [   INFO] execute - Executing block ud.MarkBugs
2024-11-01 00:26:01,398 [WARNING] after_process_document - ud.MarkBugs Error Overview:
           mark-upos          3
            det-upos          4
         degree-upos         50
               TOTAL         57