cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Brasil-Estados Unidos #19

Closed suemi-higuchi closed 3 years ago

suemi-higuchi commented 6 years ago

@arademaker , o tracinho entre Brasil-Estados Unidos deveria ser punct? (sentence 17, 35.conllu)

1-2 No  _   _   _   _   _   _   _   _
1   Em  em  ADP _   _   3   case    _   _
2   o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   3   det _   _
3   pós-guerra  pós-guerra  NOUN    _   Gender=Masc|Number=Sing 5   obl _   SpaceAfter=No
4   ,   ,   PUNCT   _   _   3   punct   _   _
5   participou  participar  VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin   0   root    _   _
6   ainda   ainda   ADV _   _   5   advmod  _   _
7-8 da  _   _   _   _   _   _   _   _
7   de  de  ADP _   _   9   case    _   _
8   a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    9   det _   _
9   Comissão    Comissão    PROPN   _   Gender=Fem|Number=Sing  5   obl _   _
10  Brasil-Estados  Brasil-Estados  PROPN   _   Number=Sing 9   flat:name   _   _
11  Unidos  Unidos  PROPN   _   Number=Sing 9   flat:name   _   _
12  e   e   CCONJ   _   _   15  cc  _   _
13-14   da  _   _   _   _   _   _   _   _
13  de  de  ADP _   _   15  case    _   _
14  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    15  det _   _
15  Liga    Liga    PROPN   _   Gender=Fem|Number=Sing  9   conj    _   _
16  Interamericana  Interamericana  PROPN   _   Number=Sing 15  flat:name   _   _
17  de  de  ADP _   _   18  case    _   _
18  Defesa  Defesa  PROPN   _   Number=Sing 15  flat:name   _   _
19-20   das _   _   _   _   _   _   _   _
19  de  de  ADP _   _   21  case    _   _
20  as  o   DET _   Definite=Def|Gender=Fem|Number=Plur|PronType=Art    21  det _   _
21  Américas    Américas    PROPN   _   Number=Sing 15  flat:name   _   SpaceAfter=No
22  .   .   PUNCT   _   _   5   punct   _   _

Assim?

# sent_id = 17
# text = No pós-guerra, participou ainda da Comissão Brasil-Estados Unidos e da Liga Interamericana de Defesa das Américas.
1-2 No  _   _   _   _   _   _   _   _
1   Em  em  ADP _   _   3   case    _   _
2   o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   3   det _   _
3   pós-guerra  pós-guerra  NOUN    _   Gender=Masc|Number=Sing 5   obl _   SpaceAfter=No
4   ,   ,   PUNCT   _   _   3   punct   _   _
5   participou  participar  VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin   0   root    _   _
6   ainda   ainda   ADV _   _   5   advmod  _   _
7-8 da  _   _   _   _   _   _   _   _
7   de  de  ADP _   _   9   case    _   _
8   a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    9   det _   _
9   Comissão    Comissão    PROPN   _   Gender=Fem|Number=Sing  5   obl _   _
10  Brasil  Brasil  PROPN   _   Number=Sing 9   compound    _   SpaceAfter=No
11  -   -   PUNCT   _   _   10  punct   _   SpaceAfter=No
12  Estados Estados PROPN   _   Number=Sing 10  compound    _   _
13  Unidos  Unidos  PROPN   _   Number=Sing 12  flat:name   _   _
14  e   e   CCONJ   _   _   17  cc  _   _
15-16   da  _   _   _   _   _   _   _   _
15  de  de  ADP _   _   17  case    _   _
16  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    17  det _   _
17  Liga    Liga    PROPN   _   Gender=Fem|Number=Sing  9   conj    _   _
18  Interamericana  Interamericana  PROPN   _   Number=Sing 17  compound    _   _
19  de  de  ADP _   _   20  case    _   _
20  Defesa  Defesa  PROPN   _   Number=Sing 17  compound    _   _
21-22   das _   _   _   _   _   _   _   _
21  de  de  ADP _   _   23  case    _   _
22  as  o   DET _   Definite=Def|Gender=Fem|Number=Plur|PronType=Art    23  det _   _
23  Américas    Américas    PROPN   _   Number=Sing 20  compound    _   SpaceAfter=No
24  .   .   PUNCT   _   _   5   punct   _   _
arademaker commented 6 years ago

@suemi-higuchi, lembro de já ter conversado com @claudiafreitas sobre isso. @claudiafreitas acha que o hífen, quando usado para formar palavras, deveria ser respeitado, logo temos uma palavra. Mas seu exemplo é bom para mostrar que mesmo esta regra não é suficiente, veja que

Brasil-Estados Unidos temos um espaço que faria a análise ser bem estranha Brasil-Estados seguido de Unidos. Não queremos isso né ? Então acho que seríamos sim forçados a quebrar o hífen para termos Brasil, - e flat:name(Unidos, Estados).

Na mesma frase, no entanto, temos pós-guerra que poderia sem prejuízo ser mantido como está, mas seria consistente?

arademaker commented 6 years ago

Discussões relevantes:

arademaker commented 6 years ago

@suemi-higuchi

Em 24ece9edf coloquei minha análise, que ainda não está 100% boa não! Veja que o tratamento de Comissão Brasil-Estados Unidos e Liga Interamericana de Defesa das Américas não está consistente no uso de flat:name versus nmod.

Em c13b892b9 fiz o merge com sua edição. Não gosto da análise de compound sendo usada exatamnte como a flat. Para que dois nomes que não introduzem nenhum significado efetivo? Acho que nomes ou são flat ou tem uma análise interna com nmod, amod etc.

claudiafreitas commented 6 years ago

@arademaker @suemi-higuchi

Discordo da análise do Alexandre, concordo com a da Suemi (faço a minha abaixo). É a forma de indicar que "Brasil-Estados Unidos" é compound. Pra mim, é indiferente como segmentar "Brasil-Estados Unidos". Mas talvez eu tenha uma leve preferência pela segmentação um token por linha, com indicação de compound.

No contexto da frase, "Comissão Brasil-Estados Unidos", o problema está em saber se queremos "Comissão X" como duas unidades ou uma. Do ponto de vista de entidades do domínio de história/política, me parece muito claro que "Comissão Brasil-Estados Unidos" conta como uma coisa: um evento ou uma organização ou um grupo de pessoas. Isso já foi exaustivamente discutido, e temos uma posição - "compound", que atende ser uma unidade mas ter alguma sintaxe. Já conversamos muito sobre isso, Alexandre, nós 3. E vamos respeitar a decisão da Suemi, a tese é dela - e a posição dela tem respaldo teórico.

Se a cada vez tivermos que argumentar sobre a análise com o Alexandre, que pensa diferente, o trabalho não avança e perdemos todos um tempo precioso. Mas isso não quer dizer que a discussão não possa ser retomada nunca, pelo contrário: o legal é, tomada uma decisão, verificar, com o avanço da prática, os contra exemplos e problemas da decisão tomada, porque isso sempre vai acontecer. Mas é absolutamente improdutivo, ficar voltando nisso ("Comissão X" é compound ou nmod?) eternamente. A dúvida da Suemi tinha a ver com como lidar com o hífen em um determinado contexto.

Eu acho que o hífen, como parte do compound, deve ser compound. Mas não sei se, no fim das contas, isso faz diferença (ou se acaba confundindo o parser com um detalhe irrelevante).

9   Comissão    Comissão    PROPN   _   Gender=Fem|Number=Sing  5   obl _   _
10  Brasil  Brasil  PROPN   _   Number=Sing 9   compound    _   SpaceAfter=No
11  -   -   PUNCT   _   _   10  compound    _   SpaceAfter=No
12  Estados Estados PROPN   _   Number=Sing 10  compound    _   _
13  Unidos  Unidos  PROPN   _   Number=Sing 12  flat:name   _   _
arademaker commented 6 years ago

@claudiafreitas cada vez mais concordo que várias decisões são possível e cada pessoa tem sua preferência. Além disso, as decisões também precisam ser tomadas considerando o alinhamento de ferramentas nas etapas de processamento. Mas só dei minha opinião. O ponto mais relevante aqui é mesmo o hífen que parece termos concordado.

ps: só acho que PUNCT sempre se liga por PUNCT nunca por outra relação em UD.

claudiafreitas commented 6 years ago

@arademaker , sua análise não é de nmod(Brasil, Comissão)? Isso é diferente sim do que propomos: compound (Brasil, Comissão) E vc fez conj (estados unidos, Brasil). Divergimos, nao?

PUNCT: esse é um ponto - chato e pouco relevante. Se mantemos punct, como garantir que "Brasil-EUA" são um compound? esse é meu único receio de manter como punct.. Porque uma coisa é o travessão punct, outra coisa é o hífen..

The term derives from Ancient Greek ὑφ᾽ ἕν (hyph’ hén), contracted from ὑπό ἕν (hypó hén), "in one" (literally "under one").[2][3]

The term (ἡ) ὑφέν ((he) hyphén), was used for a tie-like (‿) sign written below two consecutive letters to indicate that they belong to the same word (when it was necessary to avoid ambiguity before the space was in regular use).

arademaker commented 6 years ago

Na minha visão, anotações são custosas de fazer, preservar estrutura que pode ser 'planarizada' é melhor do que fazer o inverso, que não dá para automatizar.

claudiafreitas commented 6 years ago

mas "planarizar" é o que: alguém terá que "planarizar", é isso? Porque, como está, o que entregamos são então 2 coisas, separadas por punct (2 compound separados por punct) ?

arademaker commented 3 years ago

Issue antigo sobre processamento de outro sample do dhbb. Discussão sobre named entities e hífens vá travessão.