Closed suemi-higuchi closed 3 years ago
Não, nesse caso o root deveria ser "deputado", mesmo. O erro do parser na primeira frase foi achar que "deputado" era verbo, mas a análise com "secretário" foi correta.
Em casos de verbo de ligação (copula), o predicado é a cabeça da cláusula, enquanto o verbo de ligação (aqui, "foi", do verbo "ser") depende do mesmo via cop
: non-verbal clauses
Na segunda frase, o "foi" é do verbo "ir", e então atua como verbo transitivo indireto, sendo a raiz da frase.
@suemi-higuchi se trocar para 'governador' (sempre tentando sufixos diferentes, dado que aprendemos que o udpipe usa bastante a morfologia para POS tagging) também obtive análise como NOUN. Mas trocando secretário por governador, a análise é completamente diferente. Com governador, o root é passou
. Essa sentença é bem complexa, @claudiafreitas vai comentar? Em especial, de 1971 a 1975
modificando Minas
?
A segunda frase também está bem errada. Ainda
não pode modificar coronel
, me parece que modifica foi
. Acho que a análise de
Hugo Abreu foi para os EUA ainda como coronel, onde atuou como assessor da delegação brasileira na Junta Interamericana de Defesa e na Comissão Mista de Defesa Brasil-Estados Unidos.
Está bem correta e pode indicar como deve ficar a análise da frase original. A dica da @claudiafreitas de reordenar as inversões é boa.
Sugiro fechar estes issues quando as duas frases forem corrigidas.
@GPPassos e @arademaker. A Cláudia apontou uma questão aqui q deixa dúvida na forma como o UD está tratando isso. Vejam este caso abaixo:
# text = Ela está no Rio
1 Ela ela PRON _ Case=Nom|Gender=Fem|Number=Sing|Person=3|PronType=Prs 5 nsubj _ _
2 está estar AUX _ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 5 cop _ _
3-4 no _ _ _ _ _ _ _ _
3 em em ADP _ _ 5 case _ _
4 o o DET _ Definite=Def|Gender=Masc|Number=Sing|PronType=Art 5 det _ _
5 Rio Rio PROPN _ Gender=Masc|Number=Sing 0 root _ SpaceAfter=No
No mesmo link http://universaldependencies.org/u/overview/simple-syntax.html#nonverbal-clauses, notem que o UD explica que está colocando todos os seis casos abaixo como nonverbal:
In order to achieve a consistent treatment of nonverbal predication in v2, we first define six categories of nonverbal predication that can be found cross-linguistically (with or without a copula):
Equation (aka identification): “she is my mother”
Attribution: “she is nice”
Location: “she is in the bathroom”
Possession: “the book is hers”
Benefaction: “the book is for her”
Existence: “there is food (in the kitchen)”
Mas, "she is in the bathroom" não é cópula, certo? É o verbo "estar" em algum lugar. O que vocês acham?
@claudiafreitas não entendi seu ponto não. Acho que para os casos deste issue, concordo com o que já tinha sido dito antes: foi->ser vs. foi->ir.
@arademaker , eu concordo com vc e com a análise que sempre fizemos. Mas reparei que, na V2. na página indicada pelo guilherme, eles explicitamente dizem que a análise de "she is nice" e "she is in the bathroom" deve ser a mesma, com o root sendo "nice" e "bathroom", respectivamente. E isso me confundiu.. o que v acha?
Mas "ela é legal" e "ela está no banheiro" ainda é diferente de "ela foi ao banheiro", caso que estamos tratando aqui.
mas o tempo inteiro, no nosso bosque, fizemos "ela está no banheiro" com "está" como root.. porque a documentação indicava isso. mas na consigo mais achar a V1, pra saber se houve mudança ou se comemos mosca.
Essa é uma questão bem enrolada e, pelo que entendi, sujeita à documentação específica da língua.
Essa página diz que existem esses 6 casos de cláusula não-verbal, mas não que os 6 casos recebem o mesmo tratamento. É diferenciado o caso "equacional" (caso 1, "Ela é minha mãe") do caso "existencial" (caso 6, "Há comida na geladeira"), e é dito que, para os outros casos (2 a 5, incluindo esse de localização) deve ser decidido se será assimilado ao equacional ou ao existencial, a depender da "lógica interna da língua".
Do caso existencial, se diz:
If there is an overt word used in existential constructions (category 6), which is different from the copula in equational constructions (either a different lemma or with different syntax), then it should be regarded as the head of existential clauses, taking a subject (and often a locative obl).
O que isso significa não ficou muito claro para mim, uma vez que no inglês a frase "There is food" é tratada como
expl(is,there)
nsubj(is,food)
(ou seja, is é considerado root
).
Há muitas issues (antigas) em que esssa questão da copula foi discutida, mas destaco esse comentário do Dan: https://github.com/UniversalDependencies/docs/issues/170#issuecomment-210089318
Clauses are also excluded (that was the original @ngiordani 's inquiry), even if their meaning is other than local/temporal: in This is because we do not know what to do, the verb is is the head. The reasoning is that 1. with local/temporal the be is existential rather than linking; 2. there may be multiple local/temporal modifiers but we would have to select one as the predicate; 3. as for clauses, the clause may have its internal subject (in addition to the external subject of the copula) and we do not want to attach two subjects to the same node.
Isso implicaria no "está" root
na frase "Ela está no banheiro".
Possivelmente esse foi o critério no Bosque, mas seria interessante verificar.
isso, @GPPassos ! quando eles afirmam que a decisão irá depender da lógica da língua é a deixa para termos root está em "ela está na sala". (antes isso estava mais explícito, mas tudo bem. desse jeito funciona pra gente). Reparem que casos como "tem muita gente aqui" o root será "gente", pois temos uma construção existencial (= Há muita gente aqui)
documentei aqui: https://github.com/own-pt/bosque-UD/wiki/C%C3%B3pula-e-constru%C3%A7%C3%B5es-existenciais--SER,-ESTAR,-TER
Vish, agora quem ficou confuso fui eu.
Pelo que entendi da documentação e das discussões, o existencial é necessariamente o caso em que o root é o verbo (haver/existir/ser). O que é aberto a discussão é se:
Ou seja, se entendi corretamente (estou em dúvida naquele trecho que colei aqui), pelo UD, ou fazemos todos esses casos serem cópula, ou fazemos no "tem muita gente aqui" o "ter" ser a raiz da frase.
A segunda solução é o que o Dan disse que é usado nos corpora de línguas latinas/românicas. Fui conferir uns exemplos.
Existenciais puros:
# sent_id = fr-ud-train_00220
# text = Près de l'autoroute, il y a une autre chute magnifique : Brandywine falls.
6 il il PRON _ Gender=Masc|Number=Sing|Person=3|PronType=Prs 8 nsubj _ _
7 y y PRON _ _ 8 expl _ _
8 a avoir VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ _
9 une un DET _ Definite=Ind|Gender=Fem|Number=Sing|PronType=Art 11 det _ _
10 autre autre ADJ _ Gender=Fem|Number=Sing 11 amod _ _
11 chute chute NOUN _ Gender=Fem|Number=Sing 8 obj _ _
12 magnifique magnifique ADJ _ Gender=Fem|Number=Sing 11 amod _ _
# sent_id = es-train-001-s16
# text = Según el censo de 2010, había 37 personas residiendo en Moquino.
7 había haber VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Imp|VerbForm=Fin 0 root _ _
8 37 3 NUM _ NumType=Card 9 nummod _ _
9 personas persona NOUN _ Gender=Fem|Number=Plur 7 obj _ _
10 residiendo residir VERB _ VerbForm=Ger 9 acl _ _
11 en en ADP _ _ 12 case _ _
12 Moquino moquino PROPN _ _ 10 obl _ SpaceAfter=No
Localização:
# sent_id = es-train-001-s26
# text = Una de las primeras jugadas del partido estuvo en los pies de Aguero a los 18 minutos pero finalmente su disparo no paso a mayores.
1 Una uno PRON _ Gender=Fem|Number=Sing|PronType=Ind 9 nsubj _ _
(...)
9 estuvo estar VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 en en ADP _ _ 12 case _ _
11 los el DET _ Definite=Def|Gender=Masc|Number=Plur|PronType=Art 12 det _ _
12 pies pie NOUN _ Gender=Masc|Number=Plur 9 obl _ _
13 de de ADP _ _ 14 case _ _
14 Aguero aguero PROPN _ _ 12 nmod _ _
Uma observação interessante é que no inglês "There is food", foi decidido usar nsubj
para "food", enquanto nessas línguas está sendo usado obj
(obj(había,personas)
).
Será que isso não deveria ser revisado no Bosque/UD Portuguese para se assemelhar mais a esses idiomas?
Aqui teve uma discussão sobre isso: https://github.com/UniversalDependencies/docs/issues/461#issuecomment-307442162
@claudiafreitas eu insisto que preferiria tentar começar a documentar estas decisões nas páginas de documentação oficiais do projeto UD, mesmo que elas mudem bastante ainda.
@GPPassos certamente precisamos revisar muito do bosque, estas coisas estão certamente problemáticas lá. O tratamento original do PALAVRAS segue linhas completamente diferentes. Nos slides, There is food in the kitchen
, eles ainda usam expl(is, there)
@GPPassos em
Près de l'autoroute, il y a une autre chute magnifique : Brandywine falls.
muito estranho ser il
o sujeito não? Mas como não leio francês, não sei qual seria a tradução literal de y a une
Sim, o caso do "There is food in the kitchen" é o caso do existencial. Acontece o expl(is, there)
, mas também nsubj(is, food)
.
Também não estudei muito francês (estou usando o pouquíssimo que sei + internet), mas realmente, o "il" ser sujeito ali é estranho. Provavelmente deveria ser expl
.
Vi agora que o corpus é automaticamente convertido com algumas correções manuais, então talvez esse seja um erro da conversão (mas é possível que na anotação original de alguma forma consideram isso sujeito sintático, assim como há quem considere sujeito gramatical o "there" em "There is").
Ainda o existencial: sim, @GPPassos, não é cópula, tem root. Mas reparem que a sugestão deles fica estranho em PT: desde sempre a tradição gramatical considerou ter/haver como sem sujeito. ou seja: tem gente na sala
obj (gente, tem)
obl (sala, tem)
Vou corrigir na wik. E sim, @arademaker. Mas como ainda estamos acertando algumas coisas, prefiro manter primeiro a nossa wiki. Em breve isa e luisa passam o que está lá para a documentação geral.
Concordo que não é legal usar nsubj
pra esse caso!
Então ficamos com a proposta pra correção/modificação dos nossos treebanks usar o obj
no caso do existencial, com o verbo root?
Em que momento fazemos esse tipo de alteração?
Seria bom deixarmos claro quais são critérios que já estão sendo respeitados no Bosque (em tese) dos novos critérios que vamos usar para corrigir/melhorar o Bosque.
( @arademaker )
Então ficamos com a proposta pra correção/modificação dos nossos treebanks usar o obj no caso do existencial, com o verbo root? Em que momento fazemos esse tipo de alteração?
Não precisamos alterar. O Bosque já estava assim. O que precisamos é indicar que nós fazemos difererente do inglês. Isso está na wiki (por enquanto)
discussão longa sobre os casos de copula. De fato, durante revisão do mini certamente teremos situações como estas para serem revisadas, com recorte para selecionar para discussão em alguma conversa com o @leoalenc. Mas este issue vou considerar encerrado por não ter nenhuma ação concreta pendente.
Dúvida rápida. Nestas sentenças abaixo:
22.conllu:2
Aqui o UD errou feio ao dizer que deputado é verbo; daí eu fui no UDPipe e troquei por secretário e ele passou a dizer que secretário é o root (a função de "foi" está como auxiliar). O Palavras acertou no deputados e colocou "foi" como root.
22.conlllu:3
Aqui o UD colocou o "foi" como verbo, e por conseguinte, root.
Todos os dois verbos "foi" são root? O UD errou no primeiro caso?