LR-POR / PorGram

A Portuguese HPSG Grammar
Other
2 stars 1 forks source link

create and evaluate new random sample of 205 entries #72

Closed leoalenc closed 2 years ago

leoalenc commented 2 years ago

Proceder de modo análogo a #67 com uma nova amostra aleatória de 205 entradas.

leoalenc commented 2 years ago

Com https://github.com/LR-POR/PorGram/commit/4f0aa7ed9eec4352813b1d12cd39df789bb2abe0, concluí avaliação manual da amostra, tendo detectado 45 erros, o que resulta numa acurácia de 78.05%. @arademaker, como nas amostras de #66 e #67, os erros decorrem das seguintes causas:

  1. erros de anotação do UD_Portuguese-Bosque
  2. limitações do esquema de anotação desse treebank
  3. limitações dos módulos em Python de extração de valências (tanto o módulo do @lucasrct quanto os meus scripts de construção automática de entradas, ver https://github.com/LR-POR/tools/issues/39)

Exemplos de 1

; annotation error: passive "se"
; no pronominal verb (FER)
registar_2 := refl-int-verb-lex & ; ERROR:trans-verb-lex
  [ STEM < "registar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_registar_v_2_rel" ]
  """
  Não se prevê, aliás, que até ao final do mês se registem alterações com significado.
  """. 
; annotation error: post-verbal subject incorrectly annotated as obj
faltar_2 := trans-verb-lex & ; ERROR:nonrefl-int-verb-lex
  [ STEM < "faltar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_faltar_v_2_rel" ]
  """
  Embora ainda faltem três dias@obj->nsubj@ de prova, a verdade é que o seu momento de forma é excelente, aliás como o comprovam os resultados alcançados na presente temporada.
  """. 

Exemplo de 2: em-PP é anotada como obl, mas integra a valência verbal

; pronominal verb (BOR, FER)
; abstract em-PP is a complement of the pronominal verb
; FER suggests this PP is a complement
refugiar_1 := trans-verb-lex & ; ERROR:refl-ine-obj-verb-lex (TODO: refl-loc-obj-verb-lex)
  [ STEM < "refugiar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_refugiar_v_1_rel" ]
  """
  Traumatizado, refugio-me no Canal 1, onde se estreia Tudo pelos Outros, com Vítor Norte a mostrar que estaria muito melhor num palco.
  """. 

Exemplo de 3: o verbo é pronominal, conforme Borba (1991) e Perini (2019), entre outros, mas o expletivo não ocorre com o particípio passado.

; annotation of past participle of pronominal verb represents source of error for valence extraction
; pronominal verb with a por-PP complement (BOR)
; C181 is non-standard
; C60   VSubj>Experiencer      Refl      V      por NP>Stimulus
;   Belinha se apaixonou pelo professor.
;   ‘Belinha fell in love with the teacher’ 
; C181  VSubj>Experiencer      V      por NP>Stimulus
;   Belinha apaixonou pelo professor.
;       ‘Belinha fell in love with the teacher’ (PER19)
; new-ditrans.tdl:apaixonar_v3 := nom-acc-per-ditransitive-verb-lex & ; ERROR:refl-per-obj-verb-lex
; sample-1647-entries.tdl:apaixonar_1 := refl-per-obj-verb-lex
apaixonar_2 := nonrefl-per-obj-verb-lex & ; ERROR:refl-por-obj-verb-lex
  [ STEM < "apaixonar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_apaixonar_v_2_rel" ]
  """
  Presidente diz estar apaixonado por June
  """. 

Para fechar a issue, aplicarei a gramática na análise de exemplos simplificados.

leoalenc commented 2 years ago

@arademaker, o erro do exemplo do tipo 1 do meu comentário anterior constitui objeto desta issue: https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/394.

leoalenc commented 2 years ago

Com exceção do tipo nonrefl-goa-obj-verb-lex, todos os tipos da amostra já haviam sido testados em #67. Os resultados do teste de dois verbos com o tipo nonrefl-goa-obj-verb-lex, a saber _partir2 e _dar5:

os estudantes partiram para o sertão 2 298 a artista partiu para a briga 1 196 a janela dava para o quintal 1 362

As entradas correspondentes geradas automaticamente a partir do UD_Portuguese-Bosque:

; C105  VSubj>Theme     V      para NP>Goal
; Os aventureiros partiram para o sertão.
; ‘the adventurers left for the backlands’
; [...] "vou partir para a briga" ‘I am going to start a fight’ [..]. (PER19)
; para-PP with NP denoting an action, e.g., "partir para o tapa" (BOR)
; relative variant with para-PP complement (FER)
partir_2 := nonrefl-goa-obj-verb-lex & ; BOR 
  [ STEM < "partir" >,
    SYNSEM.LKEYS.KEYREL.PRED "_partir_v_2_rel" ]
  """
  A saída, diz, «é partir para o ataque».
  """. 
dar_5 := nonrefl-goa-obj-verb-lex & ; BOR
  [ STEM < "dar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_dar_v_5_rel" ]
  """
  A comparação é perversa e dá para os dois lados.
  """. 
leoalenc commented 2 years ago

Com https://github.com/LR-POR/PorGram/commit/64bf5d35a87f5d4ae470dcc829e9aaef89d7a1a5, posso fechar a issue.

arademaker commented 2 years ago

Sobre https://github.com/LR-POR/PorGram/issues/72#issuecomment-1034938995

  1. Como no segundo exemplo do caso 1 vc decide por subj vs obj?

  2. O que seriam BOR, FER? Se temos argumento para considerar que o verbo refugiar pede um complemento em-PP, porque a anotação UD não poderia ser diferente?

  3. Não ficou claro a explicação do motivo do código não estar funcionando no caso 3. E qual seria a mudança a ser feita no código para resolver a limitação. O que é C105, C60 e C181?

leoalenc commented 2 years ago

Sobre #72 (comment)

  1. Como no segundo exemplo do caso 1 vc decide por subj vs obj?

@arademaker , vejamos:

; annotation error: post-verbal subject incorrectly annotated as obj
faltar_2 := trans-verb-lex & ; ERROR:nonrefl-int-verb-lex
  [ STEM < "faltar" >,
    SYNSEM.LKEYS.KEYREL.PRED "_faltar_v_2_rel" ]
  """
  Embora ainda **faltem** três dias@obj->nsubj@ de prova, a verdade é que o seu momento de forma é excelente, aliás como o comprovam os resultados alcançados na presente temporada.
  """. 

Observe que o verbo em negrito está na terceira pessoa do plural, tal como o NP três dias. Em português, não existe concordância de um verbo finito com o objeto desse verbo. A concordância dá-se com o sujeito. Se três dias não é sujeito, mas objeto, como você justificaria a forma do verbo? Sujeitos pós-verbais constituem um dos mais estudados capítulos da sintaxe das línguas românicas. No português contemporâneo, normalmente ocorre com os chamados verbos inacusativos:

Chegaram os livros. (português standard) Chegou os livros. (português não standard)

O verbo faltar é intransitivo no exemplo em tela: algo falta, i.e., inexiste, é necessário (para alguma coisa) etc.:

https://aulete.com.br/faltar https://www.infopedia.pt/dicionarios/lingua-portuguesa/faltar

Possui, nessa acepção, um único argumento. Se analisássemos esse argumento como objeto, como erroneamente faz o Bosque, o verbo teria de ser impessoal, ou seja, sem sujeito. Verbos impessoais, contudo, são conjugados na língua padrão apenas na terceira pessoal do singular. Enfim, trata-se de erro grosseiro de anotação, que afeta outros exemplos, conforme issue que vou abrir no repositório do Bosque.

  1. O que seriam BOR, FER?

Veja, @arademaker, o início do arquivo random-sample-50-entries.tdl, o primeiro da série, conforme #66. Eventualmente, vou juntar todas as amostras aleatórias revisadas num único arquivo.

Se temos argumento para considerar que o verbo refugiar pede um complemento em-PP, porque a anotação UD não poderia ser diferente?

@arademaker, não sei se entendi sua pergunta. Quem sabe você mesmo não a responde? Sugiro reler Alencar et al. (2022), na parte que trata do obl. Seja como for, reafirmo que se trata de limitação da teoria de UD, sob o ponto de vista da construção de uma gramática com base na teoria da HPSG e também sob a perspectiva de um modelo como o do Propbank, não distinguir entre complementos e adjuntos quando se trata de oblíquos. Não estou querendo dizer que essa limitação seja eliminada em UD, apenas que ela cria dificuldades para a extração das valências, dificuldade essa que pode ser superada se incluirmos informações de um propbank, conforme propus em https://github.com/LR-POR/valex/issues/5.

  1. Não ficou claro a explicação do motivo do código não estar funcionando no caso 3.

Simples, @arademaker. Se não existe expletivo realizado, o código não poderá, dada a arquitetura atual, inserir expl na moldura. Não vejo isso como erro, mas limitação.

E qual seria a mudança a ser feita no código para resolver a limitação.

@arademaker , no momento não saberia dizer exatamente. Vou pensar sobre o assunto. Você tem alguma ideia? Seja como for, vários dicionários, inclusive o de valências do Perini (2019), e o levantamento de verbos do Verbo-Web especificam quais verbos exigem ou admitem um reflexivo expletivo (os chamados verbos pronominais). Por outro lado, é possível que alguns verbos pronominais que não ocorrem com expletivo no particípio passado no Bosque ocorram com o expletivo noutras formas que não o particípio passado no mesmo treebank.

O que é C105, C60 e C181?

@arademaker , veja Perini (2019).