Closed suemi-higuchi closed 3 years ago
@suemi-higuchi, lembro de já ter conversado com @claudiafreitas sobre isso. @claudiafreitas acha que o hífen, quando usado para formar palavras, deveria ser respeitado, logo temos uma palavra. Mas seu exemplo é bom para mostrar que mesmo esta regra não é suficiente, veja que
Brasil-Estados Unidos
temos um espaço que faria a análise ser bem estranha Brasil-Estados
seguido de Unidos
. Não queremos isso né ? Então acho que seríamos sim forçados a quebrar o hífen para termos Brasil
, -
e flat:name(Unidos, Estados)
.
Na mesma frase, no entanto, temos pós-guerra
que poderia sem prejuízo ser mantido como está, mas seria consistente?
Discussões relevantes:
https://github.com/UniversalDependencies/docs/issues/342#issuecomment-265399118 - veja que parece razoável termos tratamentos distintos para diferentes casos.
treebanks estão dando suas soluções e documentando, vejam http://universaldependencies.org/cs/overview/tokenization.html
Eu gosto da idéia de usarmos tanto relações quanto multiword tokens http://universaldependencies.org/docs/format.html considerando cada caso.
Já participamos de discussão extensa sobre clitics (https://github.com/UniversalDependencies/docs/issues/315) mas claramente hífens não aparecem apenas neste caso.
@suemi-higuchi
Em 24ece9edf coloquei minha análise, que ainda não está 100% boa não! Veja que o tratamento de Comissão Brasil-Estados Unidos
e Liga Interamericana de Defesa das Américas
não está consistente no uso de flat:name
versus nmod
.
Em c13b892b9 fiz o merge com sua edição. Não gosto da análise de compound sendo usada exatamnte como a flat. Para que dois nomes que não introduzem nenhum significado efetivo? Acho que nomes ou são flat ou tem uma análise interna com nmod, amod etc.
@arademaker @suemi-higuchi
Discordo da análise do Alexandre, concordo com a da Suemi (faço a minha abaixo). É a forma de indicar que "Brasil-Estados Unidos" é compound. Pra mim, é indiferente como segmentar "Brasil-Estados Unidos". Mas talvez eu tenha uma leve preferência pela segmentação um token por linha, com indicação de compound.
No contexto da frase, "Comissão Brasil-Estados Unidos", o problema está em saber se queremos "Comissão X" como duas unidades ou uma. Do ponto de vista de entidades do domínio de história/política, me parece muito claro que "Comissão Brasil-Estados Unidos" conta como uma coisa: um evento ou uma organização ou um grupo de pessoas. Isso já foi exaustivamente discutido, e temos uma posição - "compound", que atende ser uma unidade mas ter alguma sintaxe. Já conversamos muito sobre isso, Alexandre, nós 3. E vamos respeitar a decisão da Suemi, a tese é dela - e a posição dela tem respaldo teórico.
Se a cada vez tivermos que argumentar sobre a análise com o Alexandre, que pensa diferente, o trabalho não avança e perdemos todos um tempo precioso. Mas isso não quer dizer que a discussão não possa ser retomada nunca, pelo contrário: o legal é, tomada uma decisão, verificar, com o avanço da prática, os contra exemplos e problemas da decisão tomada, porque isso sempre vai acontecer. Mas é absolutamente improdutivo, ficar voltando nisso ("Comissão X" é compound ou nmod?) eternamente. A dúvida da Suemi tinha a ver com como lidar com o hífen em um determinado contexto.
Eu acho que o hífen, como parte do compound, deve ser compound. Mas não sei se, no fim das contas, isso faz diferença (ou se acaba confundindo o parser com um detalhe irrelevante).
9 Comissão Comissão PROPN _ Gender=Fem|Number=Sing 5 obl _ _
10 Brasil Brasil PROPN _ Number=Sing 9 compound _ SpaceAfter=No
11 - - PUNCT _ _ 10 compound _ SpaceAfter=No
12 Estados Estados PROPN _ Number=Sing 10 compound _ _
13 Unidos Unidos PROPN _ Number=Sing 12 flat:name _ _
@claudiafreitas cada vez mais concordo que várias decisões são possível e cada pessoa tem sua preferência. Além disso, as decisões também precisam ser tomadas considerando o alinhamento de ferramentas nas etapas de processamento. Mas só dei minha opinião. O ponto mais relevante aqui é mesmo o hífen que parece termos concordado.
ps: só acho que PUNCT sempre se liga por PUNCT nunca por outra relação em UD.
@arademaker , sua análise não é de nmod(Brasil, Comissão)? Isso é diferente sim do que propomos: compound (Brasil, Comissão) E vc fez conj (estados unidos, Brasil). Divergimos, nao?
PUNCT: esse é um ponto - chato e pouco relevante. Se mantemos punct, como garantir que "Brasil-EUA" são um compound? esse é meu único receio de manter como punct.. Porque uma coisa é o travessão punct, outra coisa é o hífen..
The term derives from Ancient Greek ὑφ᾽ ἕν (hyph’ hén), contracted from ὑπό ἕν (hypó hén), "in one" (literally "under one").[2][3]
The term (ἡ) ὑφέν ((he) hyphén), was used for a tie-like (‿) sign written below two consecutive letters to indicate that they belong to the same word (when it was necessary to avoid ambiguity before the space was in regular use).
Na minha visão, anotações são custosas de fazer, preservar estrutura que pode ser 'planarizada' é melhor do que fazer o inverso, que não dá para automatizar.
mas "planarizar" é o que: alguém terá que "planarizar", é isso? Porque, como está, o que entregamos são então 2 coisas, separadas por punct (2 compound separados por punct) ?
Issue antigo sobre processamento de outro sample do dhbb. Discussão sobre named entities e hífens vá travessão.
@arademaker , o tracinho entre Brasil-Estados Unidos deveria ser punct? (sentence 17, 35.conllu)
Assim?