cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Uso de compound e flat para Comissões e afins? #13

Closed suemi-higuchi closed 3 years ago

suemi-higuchi commented 7 years ago

Vi que vocês já falaram alguma coisa sobre flat, compound e fixed, mas ainda tenho dúvidas. Estabelecemos que "federal" é compound de "deputado" (deputado federal). Nos casos abaixo também? Seria algo assim como eu coloquei?

Estou tentando entender aqui na wiki.

# A Comissão de Fiscalização Financeira e Tomada de Contas...
1 A 
2 Comissão 
3 de
4 Fiscalização - 2 - compound
5 Financeira - 4 - flat:name
6 e
7 Tomada - 4 - flat:name
8 de
9 Contas - 4 - flat:name
# As Comissões de Fiscalização Financeira e Comércio Exterior...
1 As 
2 Comissões 
3 de
4 Fiscalização - 2 - compound
5 Financeira - 4 - flat:name
6 e
7 Comércio - 4 - conj 
8 Exterior - 7 - flat:name
claudiafreitas commented 7 years ago

@suemi-higuchi e @arademaker Minha sugestão: por enquanto, chamamos tudo o que for PROPN de flat e tudo o que for papel de compound. E, em ambos os casos, no campo MISC, adicionamos NE no head da expressão. assim, tudo o que está nas listas abaixo será FLAT com a indicação NE no misc:

E esses serão COMPOUND

Formulação política é mais complicado, mas acho mais prudente por enquanto deixarmos como Compound (com a indicação NE)

Se estiverem de acordo, é preciso indicar o NE nos casos que já foram corrigidos.

Ainda nesse assunto, e retomando isso: https://github.com/cpdoc/dhbb-nlp/commit/b4f35311d29151ac7ad58113d4b1e8c168474517

'Faculdade de Medicina da Universidade de São Paulo' são mais complicados né @suemi-higuchi e @claudiafreitas ? Se juntar tudo, temos uma única entidade. Mas perdemos a informação de que temos duas menções à Faculdade e a Universidade.

Continuo achando que segmentações maiores são melhores e que, no caso de a EMs que são nomes de verbetes, devemos considerar de fato uma MWE. Toda essa discussão sobre segmentação já foi feita pela Suemi aqui (suemi, nao consigo mais acessar porque me pede permissão): https://docs.google.com/document/d/181y_zhZW39E2fk6jPASGGvTYEy7s2Dxl4aAPX_1qNj8

Quanto a

Mas perdemos a informação de que temos duas menções à Faculdade e a Universidade.

acho que isso pode ser feito a posteriori. È mais simples deixar tudo junto – porque já temos os léxicos e os tipos de NE associados a eles (LOCAL; ORG etc)

Ainda, em favor desse tipo de tratamento, que considera o que é flat e compound como uma unidade só, temos as indicações da wordnet (e se a ideia é, em algum futuro, poder aplicar wordnet...) por exemplo: http://wnpt.brlcloud.com/wn/synset?id=10373801-n&hunchentoot-session=114667%3A06FA95E9491D7761B6AB54184AC09678 e http://wnpt.brlcloud.com/wn/synset?id=08123970-n&hunchentoot-session=114667%3A06FA95E9491D7761B6AB54184AC09678

suemi-higuchi commented 7 years ago

Certo, @claudiafreitas . Mas no caso dos exemplos que coloquei lá em cima (e que são muito recorrentes no DHBB), de que forma você sugere anotar? Os nomes denotam mais de uma entidade, veja:

  1. As Comissões de Fiscalização Financeira e Comércio Exterior...
  2. reuniu representantes das Associações dos Policiais Militares e dos Bombeiros Militares...
  3. esforço conjunto dos ministérios do Planejamento e da Saúde...

Ficaria estranho usar Flat nestes casos, não?

claudiafreitas commented 7 years ago

@suemi-higuchi tem razão, isso não dá conta das coordenações entre NE, e as coordenações evidenciam que existe uma sintaxe. E se chamarmos pessoas e lugares de flat, e organizações de compound? O que acham dessa análise?

1   As  o   DET <artd>|ART|F|P|@>N  Definite=Def|Gender=Fem|Number=Plur|PronType=Art    2   det _   _
2   Comissões   comissões   PROPN   <np-def>|N|F|P|@SUBJ>   Gender=Fem|Number=Plur  4   compound    _   MISC=NE
3   de  de  ADP PRP|@N< _   4   case    _   _
4   Fiscalização    Fiscalização    PROPN   _   Number=Sing 9   nsubj   _   _
5   Financeira  financeira  PROPN   _   Number=Sing 4   compound    _   _
6   e   e   CCONJ   <co-subj>|KC|@CO    _   7   cc  _   _
7   Comércio    Comércio    PROPN   _   Number=Sing 4   conj    _   MISC=NE
8   Exterior    exterior    PROPN   <first-cjt>|ADJ|F|S|@N< Gender=Fem|Number=Sing  7   compound    _   _
9   declararam  declarar    VERB    <mv>|V|PS|3P|IND|@FS-STA    Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin   0   root    _   _
10  não não ADV _   Polarity=Neg    11  advmod  _   _
11  existir existir VERB    <mv>|V|INF|@ICL-P<  VerbForm=Inf    9   xcomp   _   _
12  inconveniente   inconveniente   NOUN    <np-idf>|N|M|S|@<OC Gender=Masc|Number=Sing 11  obj _   SpaceAfter=No
13  .   .   PUNCT   PU|@PU  _   9   punct   _   SpaceAfter=No
suemi-higuchi commented 7 years ago

@claudiafreitas eu concordo com o uso de compound ligando 'Fiscalização' e 'Comércio' à Comissões, mas tenho dúvidas se Financeira deve ser também um compound de Comissões e não um flat de Fiscalização. Afinal, são duas comissões, não? 'Fiscalização Financeira' e 'Comércio Exterior'... Elas não deveriam estar mais grudadas?

1 As o DET |ART|F|P|@>N Definite=Def|Gender=Fem|Number=Plur|PronType=Art 2 det _ _
2 Comissões comissões PROPN |N|F|P|@subj> Gender=Fem|Number=Plur 9 nsubj _ MISC=NE
3 de de ADP PRP|@n< _ 2 compound    _ _
4 Fiscalização Fiscalização PROPN _ Number=Sing 2 compound  _ _
5 Financeira financeira PROPN _ Number=Sing 4 flat  _ _
6 e e CCONJ |KC|@co _ 7 cc  _ _
7 Comércio Comércio PROPN _ Number=Sing 4 conj _ _
8 Exterior exterior PROPN |ADJ|F|S|@n< Gender=Fem|Number=Sing 7 flat    _ _
9 declararam declarar VERB |V|PS|3P|IND|@fs-sta Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 não não ADV _ Polarity=Neg 11 advmod _ _
11 existir existir VERB |V|INF|@icl-p< VerbForm=Inf 9 xcomp _ _
12 inconveniente inconveniente NOUN |N|M|S|@<OC Gender=Masc|Number=Sing 11 obj _ SpaceAfter=No
13 . . PUNCT PU|@pu _ 9 punct _ SpaceAfter=No

Uma dúvida que não estou conseguindo esclarecer com os exemplos no site do UD: o compound funciona da mesma forma que o flat, isto é, se houver mais de dois tokens, todos eles apontarão para o primeiro (principal)? Vi que Cláudia fez isso com Fiscalização e Financeira, mas lendo aqui fiquei na dúvida. Os exemplos do Compound UD2 são pobres

Minhas dúvidas sobre Compound e Flat continuam aqui na wiki: https://github.com/cpdoc/dhbb-nlp/wiki/Compound-e-flat

arademaker commented 7 years ago

Vamos fazer como

# text = Here are the eating habits of Presidents Obama and Thrump.
1   Here    here    ADV RB  PronType=Dem    0   root    _   _
2   are be  AUX VBP Mood=Ind|Tense=Pres|VerbForm=Fin    1   cop _   _
3   the the DET DT  Definite=Def|PronType=Art   5   det _   _
4   eating  eat VERB    VBG VerbForm=Ger    5   amod    _   _
5   habits  habit   NOUN    NNS Number=Plur 1   nsubj   _   _
6   of  of  ADP IN  _   8   case    _   _
7   Presidents  Presidents  PROPN   NNPS    Number=Plur 8   compound    _   _
8   Obama   Obama   PROPN   NNP Number=Sing 5   nmod    _   _
9   and and CCONJ   CC  _   10  cc  _   _
10  Thrump  Thrump  PROPN   NNP Number=Sing 8   conj    _   SpaceAfter=No
11  .   .   PUNCT   .   _   1   punct   _   SpaceAfter=No
arademaker commented 7 years ago

@suemi-higuchi de quais arquivos sairam estes exemplos? Não estou encontrado ...

suemi-higuchi commented 7 years ago

Então, decidimos por esta análise, certo @arademaker e @claudiafreitas ?

# text = As Comissões de Fiscalização Financeira e Comércio Exterior declararam não existir inconveniente.
1   As  o   DET _   Definite=Def|Gender=Fem|Number=Plur|PronType=Art    2   det _   _
2   Comissões   comissões   PROPN   _   Gender=Fem|Number=Plur  4   compound    _   _
3   de  de  ADP _   _   4   case    _   _
4   Fiscalização    Fiscalização    PROPN   _   Number=Sing 9   nsubj   _   _
5   Financeira  financeira  PROPN   _   Number=Sing 4   compound    _   _
6   e   e   CCONJ   _   _   7   cc  _   _
7   Comércio    Comércio    PROPN   _   Number=Sing 4   conj    _   _
8   Exterior    exterior    PROPN   _   Gender=Fem|Number=Sing  7   compound    _   _
9   declararam  declarar    VERB    _   Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin   0   root    _   _
10  não não ADV _   Polarity=Neg    11  advmod  _   _
11  existir existir VERB    _   VerbForm=Inf    9   xcomp   _   _
12  inconveniente   inconveniente   NOUN    _   Gender=Masc|Number=Sing 11  obj _   SpaceAfter=No
13  .   .   PUNCT   _   _   9   punct   _   SpaceAfter=No
# text = A Universidade Federal do Rio de Janeiro fechou hoje à tarde.
1   A   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    2   det _   _
2   Universidade    Universidade    PROPN   _   Gender=Fem|Number=Sing  9   nsubj   _   _
3   Federal Federal PROPN   _   Number=Sing 2   compound    _   _
4-5 do  _   _   _   _   _   _   _   _
4   de  de  ADP _   _   6   case    _   _
5   o   o   DET _   Definite=Def|Gender=Masc|Number=Sing|PronType=Art   6   det _   _
6   Rio Rio PROPN   _   Gender=Masc|Number=Sing 2   compound    _   _
7   de  de  ADP _   _   8   case    _   _
8   Janeiro Janeiro PROPN   _   Number=Sing 6   flat:name   _   _
9   fechou  fechar  VERB    _   Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin   0   root    _   _
10  hoje    hoje    ADV _   _   9   advmod  _   _
11-12   à   _   _   _   _   _   _   _   _
11  a   a   ADP _   _   13  case    _   _
12  a   o   DET _   Definite=Def|Gender=Fem|Number=Sing|PronType=Art    13  det _   _
13  tarde   tarde   NOUN    _   Gender=Fem|Number=Sing  9   obl _   SpaceAfter=No
14  .   .   PUNCT   _   _   9   punct   _   SpaceAfter=No
arademaker commented 7 years ago

sim, mas sempre cite o no do arquivo e id da sentença.

suemi-higuchi commented 7 years ago

É que estes exemplos eu criei direto no UDPipe

arademaker commented 7 years ago

Pois. outra coisa importante, só usarmos exemplos do corpus! Senão as discussões começam a ficar abstratas demais e inconclusivas.

claudiafreitas commented 7 years ago

@arademaker e @suemi-higuchi : Em "Universidade Federal do Rio de Janeiro", o "de" do "rio de janeiro" nao deveria ser flat também? Ou seja, se Rio de Janeiro é flat, não há estrutura, é como "João da Silva":

7   de  de  ADP _   _   6   flat:name   _   _

e não

7   de  de  ADP _   _   8   case    _   _
arademaker commented 7 years ago

Pois é, ainda não desce redondo para mim mas ok , mas podemos fazer isso automaticamente depois

arademaker commented 3 years ago

Outra discussão antiga sobre MWE de nomes. Uso de compound segundo discussões mais recentes de UD me parece errado. nomes longos como títulos de comissões tem sintaxe interna. NER é outra camada de anotação.

De qq modo, vou fechar isso. No novo sample UD-mini podemos ter outro issue para revisão sistemática de nomes.