Closed suemi-higuchi closed 3 years ago
@suemi-higuchi e @arademaker Minha sugestão: por enquanto, chamamos tudo o que for PROPN de flat e tudo o que for papel de compound. E, em ambos os casos, no campo MISC, adicionamos NE no head da expressão. assim, tudo o que está nas listas abaixo será FLAT com a indicação NE no misc:
E esses serão COMPOUND
Formulação política é mais complicado, mas acho mais prudente por enquanto deixarmos como Compound (com a indicação NE)
Se estiverem de acordo, é preciso indicar o NE nos casos que já foram corrigidos.
Ainda nesse assunto, e retomando isso: https://github.com/cpdoc/dhbb-nlp/commit/b4f35311d29151ac7ad58113d4b1e8c168474517
'Faculdade de Medicina da Universidade de São Paulo' são mais complicados né @suemi-higuchi e @claudiafreitas ? Se juntar tudo, temos uma única entidade. Mas perdemos a informação de que temos duas menções à Faculdade e a Universidade.
Continuo achando que segmentações maiores são melhores e que, no caso de a EMs que são nomes de verbetes, devemos considerar de fato uma MWE. Toda essa discussão sobre segmentação já foi feita pela Suemi aqui (suemi, nao consigo mais acessar porque me pede permissão): https://docs.google.com/document/d/181y_zhZW39E2fk6jPASGGvTYEy7s2Dxl4aAPX_1qNj8
Quanto a
Mas perdemos a informação de que temos duas menções à Faculdade e a Universidade.
acho que isso pode ser feito a posteriori. È mais simples deixar tudo junto – porque já temos os léxicos e os tipos de NE associados a eles (LOCAL; ORG etc)
Ainda, em favor desse tipo de tratamento, que considera o que é flat e compound como uma unidade só, temos as indicações da wordnet (e se a ideia é, em algum futuro, poder aplicar wordnet...) por exemplo: http://wnpt.brlcloud.com/wn/synset?id=10373801-n&hunchentoot-session=114667%3A06FA95E9491D7761B6AB54184AC09678 e http://wnpt.brlcloud.com/wn/synset?id=08123970-n&hunchentoot-session=114667%3A06FA95E9491D7761B6AB54184AC09678
Certo, @claudiafreitas . Mas no caso dos exemplos que coloquei lá em cima (e que são muito recorrentes no DHBB), de que forma você sugere anotar? Os nomes denotam mais de uma entidade, veja:
Ficaria estranho usar Flat nestes casos, não?
@suemi-higuchi tem razão, isso não dá conta das coordenações entre NE, e as coordenações evidenciam que existe uma sintaxe. E se chamarmos pessoas e lugares de flat, e organizações de compound? O que acham dessa análise?
1 As o DET <artd>|ART|F|P|@>N Definite=Def|Gender=Fem|Number=Plur|PronType=Art 2 det _ _
2 Comissões comissões PROPN <np-def>|N|F|P|@SUBJ> Gender=Fem|Number=Plur 4 compound _ MISC=NE
3 de de ADP PRP|@N< _ 4 case _ _
4 Fiscalização Fiscalização PROPN _ Number=Sing 9 nsubj _ _
5 Financeira financeira PROPN _ Number=Sing 4 compound _ _
6 e e CCONJ <co-subj>|KC|@CO _ 7 cc _ _
7 Comércio Comércio PROPN _ Number=Sing 4 conj _ MISC=NE
8 Exterior exterior PROPN <first-cjt>|ADJ|F|S|@N< Gender=Fem|Number=Sing 7 compound _ _
9 declararam declarar VERB <mv>|V|PS|3P|IND|@FS-STA Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 não não ADV _ Polarity=Neg 11 advmod _ _
11 existir existir VERB <mv>|V|INF|@ICL-P< VerbForm=Inf 9 xcomp _ _
12 inconveniente inconveniente NOUN <np-idf>|N|M|S|@<OC Gender=Masc|Number=Sing 11 obj _ SpaceAfter=No
13 . . PUNCT PU|@PU _ 9 punct _ SpaceAfter=No
@claudiafreitas eu concordo com o uso de compound ligando 'Fiscalização' e 'Comércio' à Comissões, mas tenho dúvidas se Financeira deve ser também um compound de Comissões e não um flat de Fiscalização. Afinal, são duas comissões, não? 'Fiscalização Financeira' e 'Comércio Exterior'... Elas não deveriam estar mais grudadas?
1 As o DET |ART|F|P|@>N Definite=Def|Gender=Fem|Number=Plur|PronType=Art 2 det _ _
2 Comissões comissões PROPN |N|F|P|@subj> Gender=Fem|Number=Plur 9 nsubj _ MISC=NE
3 de de ADP PRP|@n< _ 2 compound _ _
4 Fiscalização Fiscalização PROPN _ Number=Sing 2 compound _ _
5 Financeira financeira PROPN _ Number=Sing 4 flat _ _
6 e e CCONJ |KC|@co _ 7 cc _ _
7 Comércio Comércio PROPN _ Number=Sing 4 conj _ _
8 Exterior exterior PROPN |ADJ|F|S|@n< Gender=Fem|Number=Sing 7 flat _ _
9 declararam declarar VERB |V|PS|3P|IND|@fs-sta Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 não não ADV _ Polarity=Neg 11 advmod _ _
11 existir existir VERB |V|INF|@icl-p< VerbForm=Inf 9 xcomp _ _
12 inconveniente inconveniente NOUN |N|M|S|@<OC Gender=Masc|Number=Sing 11 obj _ SpaceAfter=No
13 . . PUNCT PU|@pu _ 9 punct _ SpaceAfter=No
Uma dúvida que não estou conseguindo esclarecer com os exemplos no site do UD: o compound funciona da mesma forma que o flat, isto é, se houver mais de dois tokens, todos eles apontarão para o primeiro (principal)? Vi que Cláudia fez isso com Fiscalização e Financeira, mas lendo aqui fiquei na dúvida. Os exemplos do Compound UD2 são pobres
Minhas dúvidas sobre Compound e Flat continuam aqui na wiki: https://github.com/cpdoc/dhbb-nlp/wiki/Compound-e-flat
Vamos fazer como
# text = Here are the eating habits of Presidents Obama and Thrump.
1 Here here ADV RB PronType=Dem 0 root _ _
2 are be AUX VBP Mood=Ind|Tense=Pres|VerbForm=Fin 1 cop _ _
3 the the DET DT Definite=Def|PronType=Art 5 det _ _
4 eating eat VERB VBG VerbForm=Ger 5 amod _ _
5 habits habit NOUN NNS Number=Plur 1 nsubj _ _
6 of of ADP IN _ 8 case _ _
7 Presidents Presidents PROPN NNPS Number=Plur 8 compound _ _
8 Obama Obama PROPN NNP Number=Sing 5 nmod _ _
9 and and CCONJ CC _ 10 cc _ _
10 Thrump Thrump PROPN NNP Number=Sing 8 conj _ SpaceAfter=No
11 . . PUNCT . _ 1 punct _ SpaceAfter=No
@suemi-higuchi de quais arquivos sairam estes exemplos? Não estou encontrado ...
Então, decidimos por esta análise, certo @arademaker e @claudiafreitas ?
# text = As Comissões de Fiscalização Financeira e Comércio Exterior declararam não existir inconveniente.
1 As o DET _ Definite=Def|Gender=Fem|Number=Plur|PronType=Art 2 det _ _
2 Comissões comissões PROPN _ Gender=Fem|Number=Plur 4 compound _ _
3 de de ADP _ _ 4 case _ _
4 Fiscalização Fiscalização PROPN _ Number=Sing 9 nsubj _ _
5 Financeira financeira PROPN _ Number=Sing 4 compound _ _
6 e e CCONJ _ _ 7 cc _ _
7 Comércio Comércio PROPN _ Number=Sing 4 conj _ _
8 Exterior exterior PROPN _ Gender=Fem|Number=Sing 7 compound _ _
9 declararam declarar VERB _ Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 não não ADV _ Polarity=Neg 11 advmod _ _
11 existir existir VERB _ VerbForm=Inf 9 xcomp _ _
12 inconveniente inconveniente NOUN _ Gender=Masc|Number=Sing 11 obj _ SpaceAfter=No
13 . . PUNCT _ _ 9 punct _ SpaceAfter=No
# text = A Universidade Federal do Rio de Janeiro fechou hoje à tarde.
1 A o DET _ Definite=Def|Gender=Fem|Number=Sing|PronType=Art 2 det _ _
2 Universidade Universidade PROPN _ Gender=Fem|Number=Sing 9 nsubj _ _
3 Federal Federal PROPN _ Number=Sing 2 compound _ _
4-5 do _ _ _ _ _ _ _ _
4 de de ADP _ _ 6 case _ _
5 o o DET _ Definite=Def|Gender=Masc|Number=Sing|PronType=Art 6 det _ _
6 Rio Rio PROPN _ Gender=Masc|Number=Sing 2 compound _ _
7 de de ADP _ _ 8 case _ _
8 Janeiro Janeiro PROPN _ Number=Sing 6 flat:name _ _
9 fechou fechar VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
10 hoje hoje ADV _ _ 9 advmod _ _
11-12 à _ _ _ _ _ _ _ _
11 a a ADP _ _ 13 case _ _
12 a o DET _ Definite=Def|Gender=Fem|Number=Sing|PronType=Art 13 det _ _
13 tarde tarde NOUN _ Gender=Fem|Number=Sing 9 obl _ SpaceAfter=No
14 . . PUNCT _ _ 9 punct _ SpaceAfter=No
sim, mas sempre cite o no do arquivo e id da sentença.
É que estes exemplos eu criei direto no UDPipe
Pois. outra coisa importante, só usarmos exemplos do corpus! Senão as discussões começam a ficar abstratas demais e inconclusivas.
@arademaker e @suemi-higuchi : Em "Universidade Federal do Rio de Janeiro", o "de" do "rio de janeiro" nao deveria ser flat também? Ou seja, se Rio de Janeiro é flat, não há estrutura, é como "João da Silva":
7 de de ADP _ _ 6 flat:name _ _
e não
7 de de ADP _ _ 8 case _ _
Pois é, ainda não desce redondo para mim mas ok , mas podemos fazer isso automaticamente depois
Outra discussão antiga sobre MWE de nomes. Uso de compound segundo discussões mais recentes de UD me parece errado. nomes longos como títulos de comissões tem sintaxe interna. NER é outra camada de anotação.
De qq modo, vou fechar isso. No novo sample UD-mini podemos ter outro issue para revisão sistemática de nomes.
Vi que vocês já falaram alguma coisa sobre flat, compound e fixed, mas ainda tenho dúvidas. Estabelecemos que "federal" é compound de "deputado" (deputado federal). Nos casos abaixo também? Seria algo assim como eu coloquei?
Estou tentando entender aqui na wiki.