Closed fcbr closed 7 years ago
@livyreal in http://universaldependencies.org/u/feat/Polarity.html
In English, verbs are negated using the particle not and adjectives are also negated using prefixes, although the process is less productive than in Czech (wise – unwise, probable – improbable).
here it seems to me that all the 1345 relations are simply renamed Polarity=Neg.
Polarity=Neg
is a feature, though; neg
is a dependency relation. Those are two different fields.
sure, in http://universaldependencies.org/v2/semantic-categories.html they say
Remove neg We have decided to get rid of the neg relation which is not syntactic. Instead we will use ordinary syntactic relations like advmod, aux, etc. a feature Polarity=Neg on the negative word to preserve the information about negation
so, as far as I can see, no one line modification. hope I'm wrong!
At least all the instances of neg
connect "não" or "nada" to something:
$ cat documents/*.conllu | grep -P "\tneg\t" | awk -F'\t' '{print $2}' | sort | uniq -c
9 nada
2 Nada
1193 não
140 Não
1 NÃO
So maybe it is easy to define which deprel
will replace it after all?
So maybe it is easy to define which deprel will replace it after all?
good to know that all negs are "não" e "nada", but I don't think it changes my opinion that moving from the semantics to the syntax will be difficult. happy to be proven wrong.
I agree and this one is probably my biggest concern for v2.
@fcbr vide commit 9df18b0, para mim não ficou claro como eles esperam que o não se ligue ao verbo, mas usei advmod. @claudiafreitas correto? Poderia ter usado também aux? E o Polarity deve ser no não ou no verbo?!
Updated via efb7c5e following the instructions of https://github.com/UniversalDependencies/docs/issues/372#issuecomment-266421991 . Note that the second case in this file is a copula, right? @livyreal and @claudiafreitas , does it work for you ?
@fcbr uma regra possível e clara a partir deste exemplo:
[wordform=não] -neg-> [pos=VERB] =>
[wordform=não,features='Polarity=Neg'] -advmod-> [pos=VERB]
Mas esta regra ainda falha para o caso da copula.
advmod
is good for verbs, but we have negative words that are PRON
and INTJ
.
sent_id CP153-4
Não estava nada à espera disto
Nada PRON
For PRON
cases, first I thought nmod
should be used too, but it holds only between nominals, and "não" is not a nominal. Then, advmod
could be a good relation, but V2 guidelines are more restricted:
We differentiate adverbials realized as adverbs (advmod) and adverbials realized by noun phrases or adpositional phrases ([obl](http://universaldependencies.org/u/dep/obl.html)).
It seems so we could analyse obl(não, nada)
. What do you think @claudiafreitas ? I don't like the solution since there is no case marker there.
For INTJ
the relation that should replace neg
is discourse
(look for "feedback words" in here) .
We also have negative polarity words that were not marked as neg.
# sent_id CP566-8
1 Tanto tanto DET <quant>|<KOMP>|<COMP>|DET|M|S|@>N Gender=Masc|Number=Sing 2 det _ _
2 barulho barulho NOUN <np-idf>|N|M|S|@SUBJ> Gender=Masc|Number=Sing 6 nsubj _ _
3 para para ADP PRP|@N< _ 4 case _ _
4 nada nada PRON <quant>|INDP|M|S|@P< Gender=Masc|Number=Sing|PronType=Ind 2 nmod _ _
5 , , PUNCT PU|@PU _ 2 punct _ _
6 parece parecer VERB <mv>|V|PR|3S|IND|@FS-STA Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ _
7 . . PUNCT PU|@PU _ 6 punct _ _
I would like to have those works with the Polarity=Neg
. I can prepare a list based on a PHD thesis on polarity if you agree.
More examples where neg=advmod does NOT work:
« Em 79 houve uma leve reabertura de crédito , mas nada significativo » , afirma.
1 « « PUNCT PU|@PU _ 4 punct _ _
2 Em em ADP PRP|@ADVL> _ 3 case _ _
3 79 79 NUM <card>|NUM|M|S|@P< _ 4 nmod _ _
4 houve haver VERB <mv>|<first-cjt>|V|PS|3S|IND|@FS-ACC> Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin 16 ccomp _ _
5 uma um DET <arti>|ART|F|S|@>N Definite=Ind|Gender=Fem|Number=Sing|PronType=Art 7 det _ _
6 leve leve ADJ ADJ|F|S|@>N Gender=Fem|Number=Sing 7 amod _ _
7 reabertura reabertura NOUN <np-idf>|N|F|S|@<ACC Gender=Fem|Number=Sing 4 dobj _ _
8 de de ADP PRP|@N< _ 9 case _ _
9 crédito crédito NOUN <np-idf>|N|M|S|@P< Gender=Masc|Number=Sing 7 nmod _ _
10 , , PUNCT PU|@PU _ 4 punct _ _
11 mas mas CONJ <co-postnom>|KC|@CO _ 7 cc _ _
12 nada nada ADV <quant>|<det>|ADV|@>A _ 13 neg _ _
13 significativo significativo ADJ <cjt>|ADJ|M|S|@N<PRED Gender=Masc|Number=Sing 7 amod _ _
14 » » PUNCT PU|@PU _ 4 punct _ _
15 , , PUNCT PU|@PU _ 4 punct _ _
16 afirma afirmar VERB <mv>|V|PR|3S|IND|@FS-STA Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ _
17 . . PUNCT PU|@PU _ 16 punct _ _
Joakim Nivre talked about clause-level negation in "I would say the default assumption is to use "advmod" for clause-level negation like English "not" and to add the feature Polarity=Neg to this word, rather than to the verb." I don't know a way of recognizing "clause-level" negation automatically.
great, Valeria!
I think if we look to the word that the negative word is pointing we can get it automatically.
neg(significativo, nada)
We know "signifiticativo" is a ADJ, so the relation should NOT be advmod
.
We can take all neg
that point to VERB
:
before:
neg(VERB, ADV)
after
advmod(VERB, ADV)
and maybe got all clause-level negation (or most of all).
@livyreal "Não estava nada à espera disto" --> Nada ADV (e não PRON) / (nada = nem um pouco; de jeito nenhum)
@vcvpaiva e @livyreal , nao entendi por que advmod em "mas nada significativo" não funciona. Afinal, ADV pode sim modificar ADJ... advmod: " serves to modify a predicate or a modifier word."
maybe got all clause-level negation (or most of all).
yes, I think it works, I looked at 50 examples and only one fails.
example that works:
O senador pode ser lido não como ex-presidente , mas como uma espécie de parente distante de a família.
"nao" is modifying ex-president, I think.
1 O o DET
@vcvpaiva , em
O senador pode ser lido não como ex-presidente , mas como uma espécie de parente distante de a família.
"não" modifica "ser lido", não acha?
one example that seems dubious "...colocou em o espaço a astronave não tripulada Clementine " but the issue here seems to be whether "tripulada" is verb or adjective, but if as @claudiafreitas says advmod modifies adverbs and adjectives, then this works too, despite being clearly non-clausal negation.
@claudiafreitas
"não" modifica "ser lido", não acha?
acho sim, na semantica. a frase era pra ser, se fosse escrita pra ser clara, "O senador não pode ser lido como ex-presidente", nao e'? mas do jeito que a syntax esta', o "nao" nao modifica o substantivo? isso 'e uma pergunta nao-retorica!
O senador pode ser lido não como ex-presidente , mas como uma espécie de parente distante de a família.
me parece que o escopo está sobre o nome também.
Concordo com @vcvpaiva (e discordo de @livyreal).
acho sim, na semantica. a frase era pra ser, se fosse escrita pra ser clara, "O senador não pode ser lido como ex-presidente", nao e'?
Sim.
mas do jeito que a syntax esta', o "nao" nao modifica o substantivo? isso 'e uma pergunta nao-retorica!
A sintaxe é um reflexo do sentido. Nao faz sentido termos uma leitura semântica e outra sintática. Daí que sim, a sintaxe está deslocada, em ordem canônica, seria "não pode ser lido como..." "deve ser lido como..." - e a análise sintática deve acompanhar isso:
1 O o DET |ART|M|S|@>N Definite=Def|Gender=Masc|Number=Sing|PronType=Art 2 det 2 senador senador NOUN |N|M|S|@SUBJ> Gender=Masc|Number=Sing 5 nsubj 3 pode poder AUX |V|PR|3S|IND|@FS-STA Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 5 aux 4 ser ser AUX |V|INF|@ICL-AUX< VerbForm=Inf 5 auxpass 5 lido ler VERB ||V|PCP|M|S|@ICL-AUX< Gender=Masc|Number=Sing|VerbForm=Part|Voice=Pass 0 root 6 não não ADV |ADV|@>A 5 advmod _ 7 como como ADP ||PRP|@<ADVL 8 case 8 ex-presidente ex-presidente NOUN |N|M|S|@P< Gender=Masc|Number=Sing 5 nmod 9 , , PUNCT PU|@PU 5 punct
@livyreal, @claudiafreitas acho que podemos fazer o fix que se a part NEG "nao" esta' ligada a verbo (aux our verb) entao a nova relacao 'e advmod. devemos ficar com poucos casos pra verificar, quando a particula nao estiver ligada a verbo e ai verificamos esses na mao, o que acham?
@claudiafreitas adoraria concordar contigo que a analise sintactica segue a semantica(e na verdade concordo totalmente em teoria), mas acho que o ponto maior das UDs e um que acho que v2 foi um retrocesso 'e dizer que elas so' fazem sintaxe. e no caso do caso acima o nao esta' sintaticamente modificando o substantivo ex-presidente, me parece. resolver os neg ligados a verbo e' a "80% solution" e o @fcbr pode implementar facil. com um pouco de sorte 'e mais pra 90e muitos solution.
tb e' o que o @arademaker esta' sugerindo, me parece. teve 3 em 50 que foram debativeis (no meu entender), acho que o fix restrito aos verbos e' uma boa solucao.
A distribuicao das POS tags do head
do neg
e' a seguinte:
1068 VERB
114 NOUN
95 ADJ
31 ADV
19 PRON
7 PROPN
2 NUM
I.e., 79.9% de VERB
.
Vou implementar o fix para VERB
(usando advmod
).
obrigada @fcbr. @livyreal, @claudiafreitas voces acham que podemos implementar o fix pra 95 ADJ 31 ADV e a gente so' investiga mesmo os nouns, pronouns, proper nouns and num? pra esses nao faz sentido mesmo advmod, alguma coisa tem que estar errada, nao?
Por favor deem uma olhada no fix acima. Agora restaram 272 neg
s.
can you provide a listing of the 272remaining? what's the query in the Turku interface?
@fcbr alguma coisa errada em algum lugar, pois quando eu executo a primeira query ganho mais de 70 copias da sentenca
"Paulo Cesar, cobrando falta na cabeça da área, fechou o marcador aos 43min, sem chances de defesa para o goleiro Sílvio, do Santo André."
total de sentencas 353 ???
mas a sentenca "Paulo Cesar, cobrando falta na cabeça da área, fechou o marcador aos 43min, sem chances de defesa para o goleiro Sílvio, do Santo André." e' otima, pois mostra uma coisa que estava me preocupando: sentenca negativa sem 'nao' ou 'nada', com "sem"/without, nao discutido pelos UDers.
Note que melhor usarem agora a nova interface de busca:
Notem que as duas queries abaixo retornam os mesmos casos mais o highlight está em tokens diferentes dependendo da query "<neg" versus ">neg". E notem que parece haver algum bug na numeração dos resultados das buscas e na paginação das respostas:
Sobre o comentário de @vcvpaiva acima estou investigando e os dados do Allegro Graph estão com algum problema, a sentença não deria ter 3 roots e certamente faltam tokens:
http://wnpt.brlcloud.com:10035/repositories/bosque#node/%3Chttp://br.ibm.com/conll/CF132-6%3E
Na nova interface de busca, não temos a relação 'neg' na sentença
Estou tentando achar se esta relação já esteve nesta sentença em algum momento. Esta sentença nunca teve relação neg pelo histórico do git. Logo parece que os dados do Allegro estão com problema.
@livyreal e @claudiafreitas voltando a questão principal, o 'sem chances' temos o sem como 'case' do 'chances'. Aceitamos isso ou isto deveria ser agora um sem conectado em changes por 'advmod' e 'sem' com feature Polarity=Neg
?
@fcbr @arademaker a discussao aqui e' dos 272 casos que vem de
114 NOUN
95 ADJ
31 ADV
19 PRON
7 PROPN
2 NUM
como calculado acima, correto?
eu executei a query http://wnpt.brlcloud.com:10035/repositories/bosque#query/r/neg-sentences e download o resultado pra excel. mas essa query nao esta' correta pras 272 negs, esta? ela esta' me dando, por exemplo, "VITÓRIA Josias de Souza ensinou sexta-feira, nesta Folha, que «pesquisa não é urna»." onde no bluemix nao da' pra ver direito, mas tem um verbo "e'" no "«pesquisa não é urna» e portanto e' neg, mas deve ou devia ter sido corrigida pelo fix d7c5823.
hmmmmmm, a menos que "e'" nesse caso seja copula? continuo sem entender o que e' considerado copula....
e tb eu nao sou boa de Turku query language, mas ate eu consigo ver que nao tem um "and not VERB" na query <neg .
a discussao aqui sao os cerca de 145 casos de neg que apontam pra nouns, proper nouns, numbers and pronouns. pois os 31 ADV e os 95 ADJ estou concordando com Claudia que da' pra ser advmod.
@vcvpaiva Na sentenca que voce mencionou, o neg
esta' ligado a um NOUN
entao nao foi contemplado pelo fix do d7c5823.
Estou chegando a conclusao que estes casos vao acabar tendo que ser revistos um a um na mao. Caso encontrem alguma coisa que de para automatizar otimo, mas nao vou ficar com esperancas.
mas @fcbr se a Livy concordar com ADJ e ADV, os casos problematicos ja' passam pra 145 em vez de 272, ne?
@arademaker e @vcvpaiva não está claro pela nova documentação sem todas as palavras com alguma polaridade negativa deveriam ter a feature Polarity=Neg
. Se vcs acompanharam a discussão de Neg em 371, vcs vão ver que eu já perguntei se "sem" vai ter que estar marcado também. Isto só poderá ser decidido depois de ter respostas lá e pode até ser um outro issue (por este aqui é para as deprel neg
e não para arrumar as palavras com polaridade que não participam desta relação).
estou concordando que podemos usar advmod
para todos os casos. Olhei agora muitos exemplos.
E vejam que a documentacao de advmod inclui todos os ADV
que modificam qualquer palavra, então podemos aplicar.
nao @livyreal, nao concordo com usar advmod para todos os casos nao. so' pros que sao ADJ e ADV mesmo. olhe o caso paradigmatico de neg corretamente aplicada a NOUN:
"Na Europa Ocidental tem-se assistido a uma queda acentuada da fecundidade, o que fez surgir o problema da não substituição das gerações."
"nao" 'e ligado a substituicao, corretamente e nao 'e top-clause negation. vai querer chamar isso de advmod?
sim, pq não advmod
? se não for advmod
vai ser o que? "não" é ADV
e modifica "substituição".
OK, implementei a intersecao entre @livyreal e @vcvpaiva (https://github.com/own-pt/bosque-UD/commit/19f3fea6dc7c7a1a2b18a3ca67cbb5685145dcac), i.e., ADV
e ADJ
.
@vcvpaiva @claudiafreitas do you have any opinion on @livyreal's comment above? this is one of the only two remaining issues for us to be completely valid in v2.
@livyreal disse:
sim, pq não advmod?
porque esta' modificando um substantivo.
se não for advmod vai ser o que?
nmod?
"não" é ADV e modifica "substituição".
sim, e "substituição" e' NOUN, nao 'e VERB/ADJ/ADV. o que eles dizem:
An adverbial modifier of a word is a (non-clausal) adverb or adverbial phrase that serves to modify a predicate or a modifier word.
e ate' aqui eu estava lendo predicate=verb or adjective.
@fcbr voce ja' tentou os testes de #69 pra v2? voce sabe rodar os testes de #69? me parece que continuamos falhando a maioria deles, 25 out of 36 or thereabouts.
@vcvpaiva ainda nao, mas voce tem razao -- estava me referindo aos testes puramente mais "sintaticos".
sobre o "sem" em "Paulo Cesar, cobrando falta na cabeça da área, fechou o marcador aos 43min, sem chances de defesa para o goleiro Sílvio, do Santo André." Discordo TOTALMENTE sobre termos o "sem" como ADV. A não ser que sejamos coerentes para deixar também o "COM" com ADV (e não vejo argumentos pra isso). A solução que parece melhor é manter como está (sem como 'case' do 'chances'. ) E NAO devemos ficar com a sugestão do @arademaker:
sem conectado em changes por 'advmod' e 'sem' com feature Polarity=Neg? No entanto, um dado legal pode ser a indicação da feature Polarity=Neg, se quieserem manter a semântica da negação ("sem" - privação/ausência)
sem conectado em changes por 'advmod' e 'sem' com feature Polarity=Neg?
sobre "não-substituição": eu chutaria PART, como uma partícula negativa, mas então lendo a v2 para PART acho que a POS deve ser ADV mesmo:
PART should in theory not be confused with anything because then it should not be PART; nevertheless, at least some traditional particles are now ADP, ADV, SCONJ or CCONJ, and the particle not would be traditionally ADV in some languages
Quanto à deprel, concordo com @vcvpaiva que a ideia é totalmente nmod, mas isso vai totalmente contra as diretivas.. @livyreal . sabe como eles estão anotando, em inglês, não-fumantes? Alguem quer perguntar isso na lista?
@claudiafreitas non-smokers e outros non-x são no corpus de inglês uma única palavra. Em não-fumantes eu usaria advmod
.
@vcvpaiva sugeriu usarmos nmod
mas nmod
é nome modificando nome, isto é claro nas guidelines:
"The nmod relation is used for nominal dependents of another noun".
Por isto estou dizendo que podemos usar advmod
também em casos em que ADV
modifica nome, por que não há uma relação melhor. Eu simplesmente diria nas guidelines que advmod
modifica também NOUN
. E esta discussão nem adianta jogar na lista por que nós estamos tokenizando estas palavras diferente e estamos assumindo que "não" é ADV
e não PART
como sugerem as guidelines gerais.
@livyreal e @vcvpaiva, olhem isso (é o golden deles, já na versão 2.0): Considerando isso, eu acho que a relação pode ser sim de compound (ADV +NOUN) no caso de "não fumante"; ADP+NOUN para o caso de "sem terra". O que acham?
should be non bondad
1 should should AUX MD VerbForm=Fin 4 aux _ _
2 be be VERB VB VerbForm=Inf 4 cop _ _
3 non non X AFX _ 4 compound _ _
4 bondad bondad NOUN NN Number=Sing 0 root _ _
mas olha que curioso:
they had no knowledge
10 they they PRON PRP Case=Nom|Number=Plur|Person=3|PronType=Prs 11 nsubj _ _
11 had have VERB VBD Mood=Ind|Tense=Past|VerbForm=Fin 9 ccomp _ _
12 no no DET DT _ 13 neg _ _
13 knowledge knowledge NOUN NN Number=Sing 11 dobj _ _
@claudia, sim eu acho que eles nao estao muito consistentes nao. "no knowledge" eu pensaria que era particle e neg pelas guidelines deles.
acho bem estranho chamar de "compound" (mas essa frase esta' estranha pra mim, nunca tinha ouvido "bondad").
@claudiafreitas
Discordo TOTALMENTE sobre termos o "sem" como ADV. A não ser que sejamos coerentes para deixar também o "COM" com ADV (e não vejo argumentos pra isso). ok voce tem razao! erro meu de achar que "without" seria adverbio, e' preposicao ne? nao modifica verbo, modifica substantivo. eu nao entendo bem esse "cases" nao, mas concordo.
mas @livyreal eu nao compro seu argumento de fazer alguma coisa pois nao estamos vendo outra possibilidade nao.
Por isto estou dizendo que podemos usar advmod também em casos em que ADV modifica nome, por que não há uma relação melhor.
se nao temos uma coisa melhor mantemos como no ingles, nao? como disse a claudia
A solução que parece melhor é manter como está (sem como 'case' do 'chances'. )
mas gostaria muito de nao perdermos as marcacoes de neg(ativity) pois acho que essa mudanca da v2 pra longe da semantica nao e' uma boa.
@livyreal
Discordo de
E esta discussão nem adianta jogar na lista
as discussões de UD são sempre sobre várias linguas e outras poderão tokenizar de forma semelhante a PT.
I insist that we need a resolution for this issue. There have been 49 comments made but I still don't see an agreement of what should we do for the general case. And I don't see anyone manually fixing the remaining cases either.
We have "only" 145 cases of neg
remaining. Is there any report that I can provide that will help us find a general rule?
Or is this the case where we need to simply go one by one and fix them manually?
EDIT: to remind every one, this is (roughly) the POS that the neg
s point to (since we already fixed the cases for VERB
, ADV
, ADJ
).
114 NOUN
19 PRON
7 PROPN
2 NUM
I think for the NOUN
cases, it seems that we can make neg => nmod
, no?
Then we would have just a handful of cases to be checked manually.
Related to #102:
http://universaldependencies.org/v2/summary.html
neg
relation is removed from the set of universal relations, and polarity is instead encoded in a feature.We have 1345 of such relations. What should they be replaced with?