cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Onde está o root? #15

Closed suemi-higuchi closed 3 years ago

suemi-higuchi commented 7 years ago

Dúvida rápida. Nestas sentenças abaixo:

22.conllu:2

Seu irmão, Sílvio de Andrade Abreu, foi deputado estadual por Minas Gerais de 1971 a 1975, e seu sobrinho Sílvio de Andrade Abreu Júnior, passou igualmente a representar esse estado na Câmara dos Deputados a partir de 1975.

Aqui o UD errou feio ao dizer que deputado é verbo; daí eu fui no UDPipe e troquei por secretário e ele passou a dizer que secretário é o root (a função de "foi" está como auxiliar). O Palavras acertou no deputados e colocou "foi" como root.

22.conlllu:3

Ainda como coronel, Hugo Abreu foi para os EUA, onde atuou como assessor da delegação brasileira na Junta Interamericana de Defesa e na Comissão Mista de Defesa Brasil-Estados Unidos.

Aqui o UD colocou o "foi" como verbo, e por conseguinte, root.

Todos os dois verbos "foi" são root? O UD errou no primeiro caso?

GPPassos commented 7 years ago

Não, nesse caso o root deveria ser "deputado", mesmo. O erro do parser na primeira frase foi achar que "deputado" era verbo, mas a análise com "secretário" foi correta.

Em casos de verbo de ligação (copula), o predicado é a cabeça da cláusula, enquanto o verbo de ligação (aqui, "foi", do verbo "ser") depende do mesmo via cop: non-verbal clauses

Na segunda frase, o "foi" é do verbo "ir", e então atua como verbo transitivo indireto, sendo a raiz da frase.

arademaker commented 7 years ago

@suemi-higuchi se trocar para 'governador' (sempre tentando sufixos diferentes, dado que aprendemos que o udpipe usa bastante a morfologia para POS tagging) também obtive análise como NOUN. Mas trocando secretário por governador, a análise é completamente diferente. Com governador, o root é passou. Essa sentença é bem complexa, @claudiafreitas vai comentar? Em especial, de 1971 a 1975 modificando Minas ?

A segunda frase também está bem errada. Ainda não pode modificar coronel, me parece que modifica foi. Acho que a análise de

Hugo Abreu foi para os EUA ainda como coronel, onde atuou como assessor da delegação brasileira na Junta Interamericana de Defesa e na Comissão Mista de Defesa Brasil-Estados Unidos.

Está bem correta e pode indicar como deve ficar a análise da frase original. A dica da @claudiafreitas de reordenar as inversões é boa.

arademaker commented 7 years ago

Sugiro fechar estes issues quando as duas frases forem corrigidas.

suemi-higuchi commented 7 years ago

@GPPassos e @arademaker. A Cláudia apontou uma questão aqui q deixa dúvida na forma como o UD está tratando isso. Vejam este caso abaixo:

# text = Ela está no Rio
1   Ela ela PRON    _   Case=Nom|Gender=Fem|Number=Sing|Person=3|PronType=Prs   5   nsubj   _   _
2   está    estar   AUX _   Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   5   cop _   _
3-4 no  _   _   _   _   _   _   _   _
3   em  em  ADP _   _   5   case    _   _
4   o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   5   det _   _
5   Rio Rio PROPN   _   Gender=Masc|Number=Sing 0   root    _   SpaceAfter=No

No mesmo link http://universaldependencies.org/u/overview/simple-syntax.html#nonverbal-clauses, notem que o UD explica que está colocando todos os seis casos abaixo como nonverbal:

In order to achieve a consistent treatment of nonverbal predication in v2, we first define six categories of nonverbal predication that can be found cross-linguistically (with or without a copula):

    Equation (aka identification): “she is my mother”  
    Attribution: “she is nice”  
    Location: “she is in the bathroom”  
    Possession: “the book is hers”  
    Benefaction: “the book is for her”  
    Existence: “there is food (in the kitchen)”  

Mas, "she is in the bathroom" não é cópula, certo? É o verbo "estar" em algum lugar. O que vocês acham?

arademaker commented 7 years ago

@claudiafreitas não entendi seu ponto não. Acho que para os casos deste issue, concordo com o que já tinha sido dito antes: foi->ser vs. foi->ir.

claudiafreitas commented 7 years ago

@arademaker , eu concordo com vc e com a análise que sempre fizemos. Mas reparei que, na V2. na página indicada pelo guilherme, eles explicitamente dizem que a análise de "she is nice" e "she is in the bathroom" deve ser a mesma, com o root sendo "nice" e "bathroom", respectivamente. E isso me confundiu.. o que v acha?

arademaker commented 7 years ago

Mas "ela é legal" e "ela está no banheiro" ainda é diferente de "ela foi ao banheiro", caso que estamos tratando aqui.

claudiafreitas commented 7 years ago

mas o tempo inteiro, no nosso bosque, fizemos "ela está no banheiro" com "está" como root.. porque a documentação indicava isso. mas na consigo mais achar a V1, pra saber se houve mudança ou se comemos mosca.

GPPassos commented 7 years ago

Essa é uma questão bem enrolada e, pelo que entendi, sujeita à documentação específica da língua.

Essa página diz que existem esses 6 casos de cláusula não-verbal, mas não que os 6 casos recebem o mesmo tratamento. É diferenciado o caso "equacional" (caso 1, "Ela é minha mãe") do caso "existencial" (caso 6, "Há comida na geladeira"), e é dito que, para os outros casos (2 a 5, incluindo esse de localização) deve ser decidido se será assimilado ao equacional ou ao existencial, a depender da "lógica interna da língua".

Do caso existencial, se diz:

If there is an overt word used in existential constructions (category 6), which is different from the copula in equational constructions (either a different lemma or with different syntax), then it should be regarded as the head of existential clauses, taking a subject (and often a locative obl).

O que isso significa não ficou muito claro para mim, uma vez que no inglês a frase "There is food" é tratada como

expl(is,there)
nsubj(is,food)

(ou seja, is é considerado root).

Há muitas issues (antigas) em que esssa questão da copula foi discutida, mas destaco esse comentário do Dan: https://github.com/UniversalDependencies/docs/issues/170#issuecomment-210089318

Clauses are also excluded (that was the original @ngiordani 's inquiry), even if their meaning is other than local/temporal: in This is because we do not know what to do, the verb is is the head. The reasoning is that 1. with local/temporal the be is existential rather than linking; 2. there may be multiple local/temporal modifiers but we would have to select one as the predicate; 3. as for clauses, the clause may have its internal subject (in addition to the external subject of the copula) and we do not want to attach two subjects to the same node.

Isso implicaria no "está" root na frase "Ela está no banheiro". Possivelmente esse foi o critério no Bosque, mas seria interessante verificar.

claudiafreitas commented 7 years ago

isso, @GPPassos ! quando eles afirmam que a decisão irá depender da lógica da língua é a deixa para termos root está em "ela está na sala". (antes isso estava mais explícito, mas tudo bem. desse jeito funciona pra gente). Reparem que casos como "tem muita gente aqui" o root será "gente", pois temos uma construção existencial (= Há muita gente aqui)

documentei aqui: https://github.com/own-pt/bosque-UD/wiki/C%C3%B3pula-e-constru%C3%A7%C3%B5es-existenciais--SER,-ESTAR,-TER

GPPassos commented 7 years ago

Vish, agora quem ficou confuso fui eu.

Pelo que entendi da documentação e das discussões, o existencial é necessariamente o caso em que o root é o verbo (haver/existir/ser). O que é aberto a discussão é se:

  1. o caso de localização vai ser tratado como cópula (em semelhança à construção equacional); ou
  2. se vai ser tratado como um verbo mesmo (em semelhança à construção existencial).

Ou seja, se entendi corretamente (estou em dúvida naquele trecho que colei aqui), pelo UD, ou fazemos todos esses casos serem cópula, ou fazemos no "tem muita gente aqui" o "ter" ser a raiz da frase.

A segunda solução é o que o Dan disse que é usado nos corpora de línguas latinas/românicas. Fui conferir uns exemplos.

Uma observação interessante é que no inglês "There is food", foi decidido usar nsubj para "food", enquanto nessas línguas está sendo usado obj (obj(había,personas)).

Será que isso não deveria ser revisado no Bosque/UD Portuguese para se assemelhar mais a esses idiomas?

Aqui teve uma discussão sobre isso: https://github.com/UniversalDependencies/docs/issues/461#issuecomment-307442162

arademaker commented 7 years ago

@claudiafreitas eu insisto que preferiria tentar começar a documentar estas decisões nas páginas de documentação oficiais do projeto UD, mesmo que elas mudem bastante ainda.

@GPPassos certamente precisamos revisar muito do bosque, estas coisas estão certamente problemáticas lá. O tratamento original do PALAVRAS segue linhas completamente diferentes. Nos slides, There is food in the kitchen, eles ainda usam expl(is, there)

arademaker commented 7 years ago

@GPPassos em

Près de l'autoroute, il y a une autre chute magnifique : Brandywine falls.

muito estranho ser il o sujeito não? Mas como não leio francês, não sei qual seria a tradução literal de y a une

GPPassos commented 7 years ago

Sim, o caso do "There is food in the kitchen" é o caso do existencial. Acontece o expl(is, there), mas também nsubj(is, food).

Também não estudei muito francês (estou usando o pouquíssimo que sei + internet), mas realmente, o "il" ser sujeito ali é estranho. Provavelmente deveria ser expl.

Vi agora que o corpus é automaticamente convertido com algumas correções manuais, então talvez esse seja um erro da conversão (mas é possível que na anotação original de alguma forma consideram isso sujeito sintático, assim como há quem considere sujeito gramatical o "there" em "There is").

claudiafreitas commented 7 years ago

Ainda o existencial: sim, @GPPassos, não é cópula, tem root. Mas reparem que a sugestão deles fica estranho em PT: desde sempre a tradição gramatical considerou ter/haver como sem sujeito. ou seja: tem gente na sala

obj (gente, tem)

obl (sala, tem)

Vou corrigir na wik. E sim, @arademaker. Mas como ainda estamos acertando algumas coisas, prefiro manter primeiro a nossa wiki. Em breve isa e luisa passam o que está lá para a documentação geral.

GPPassos commented 7 years ago

Concordo que não é legal usar nsubj pra esse caso!

Então ficamos com a proposta pra correção/modificação dos nossos treebanks usar o obj no caso do existencial, com o verbo root? Em que momento fazemos esse tipo de alteração?

Seria bom deixarmos claro quais são critérios que já estão sendo respeitados no Bosque (em tese) dos novos critérios que vamos usar para corrigir/melhorar o Bosque.

( @arademaker )

claudiafreitas commented 7 years ago

Então ficamos com a proposta pra correção/modificação dos nossos treebanks usar o obj no caso do existencial, com o verbo root? Em que momento fazemos esse tipo de alteração?

Não precisamos alterar. O Bosque já estava assim. O que precisamos é indicar que nós fazemos difererente do inglês. Isso está na wiki (por enquanto)

arademaker commented 3 years ago

discussão longa sobre os casos de copula. De fato, durante revisão do mini certamente teremos situações como estas para serem revisadas, com recorte para selecionar para discussão em alguma conversa com o @leoalenc. Mas este issue vou considerar encerrado por não ter nenhuma ação concreta pendente.