cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

consolidar comentários da Cláudia e Alexandre no sharelatex #25

Closed odanoburu closed 4 years ago

suemi-higuchi commented 6 years ago

Pontos em aberto:

  1. @claudiafreitas , de onde você tirou esse EAGLES? As the EAGLES study already showed, differences in the style of text can be….

  2. @claudiafreitas aqui você disse "Mudar label para: DHBB semantic tagset. Apresentar tudo e fazer o merge com a tabela acima." Que merge? Entendi que será uma tabela só de relações, não é isso? During the process of text analysis (in particular, looking at appositives occurrences) a few other relations were identified as relevant to our goals, and included in the tagset. Table 2 presents the final list of relations and examples.

  3. Criar nova tabela com os dados: a) número de tokens, b) número de frases, c) tipos de verbetes d) número de apostos, e) relações semânticas encontradas, f) NEs person, org, loc... Along with steps one and two, we annotated the semantic relations between entities expressed in appositives in our golden sample. Table XXX presents the sample in detail... OK COM EXCEÇÃO DAS NEs

  4. @claudiafreitas , você sugeriu substituir a frase abaixo por "Regarding person names, UDPipe split José Afonso de Melo, a person name, in 3 nouns José Afonso Melo and a preposition de. --> Mas você lembra que o UD marcou Melo como nmod de José? Regarding person names, Regarding names of people, UDPipe tagged the last name of the person Jose Afonso de Melo, as a noun modifier of the first, and not as part of the whole name.

  5. Atualizar/confirmar os números abaixo: We evaluated the impact of lexicon incorporation at the automatic processing comparing the outputs of UDPipe and PALAVRAS against our golden sample. Our lexicon of person names has 18,171/19,466 entries. In the sample, we found ?/358 mentions of names from the lexicon ( ?/34% of the sentences). The most frequent name occurs 20 times. We estimate that ?/107 errors (XX%) in the segmentation of names with more than three tokens could be fixed when lexicons are incorporated in the parser analysis..

  6. Atualizar números abaixo. The lexicon of organization names has 3,643 entries. In the sample, we found 229 occurrences of it (~22% of the sentences). The most frequent name has 84 occurrences. We estimated that 53 segmentation errors (X%) of names with more than three tokens could be fixed with de application of lexicons. -- @arademaker Como foi feita esta estimativa dos '53 erros de segmentação poderem ser corrigidas'?

  7. Atualizar: Appositives are syntactic relations especially productive fortext mining. Besides its high frequency (X% of the sentences in our corpus has at least one appositive relation)

7.1 Atualizar os números neste parágrafo: As can be seen, PALAVRAS recognized 797 cases of appositives and UDPipe 954. Performing the task manually, we recognized 815 occurrences of appositives. OK FEITO, 796 UDPipe (ao invés de 815)

  1. Atualizar a tabela 3 "Evaluation of Appositives in the Corpus" e explicar melhor. Table 3 presents the distribution of semantic relations that we associated for each appositive relation, considering our golden sample. OK FEITO.

  2. Criar tabela com a distribuição dos erros de análise do aposto Table xxx presents the error distribution in detail. From this data…. OK FEITO, COM ANÁLISE DO UDPIPE

  3. Incluir no Final Remarks: What we learned? O aposto é uma relação relevante para information Extraction? SIM: frequente no gênero enciclopédia (das xxx frases, XX têm pelo menos uma relação de appos). How hard it is to a system to identify appositives?

  4. Um golden subcorpus será disponibilizado? The DHBB- golden subcorpus is available at…..

suemi-higuchi commented 6 years ago

@arademaker não sei por que está dando erro nas referências...

odanoburu commented 6 years ago

@suemi-higuchi aqui tem uma dica pra resolver esse tipo de erro.

no fundo o problema era no BibTeX:

 url = {http://hdl.handle.net/11234/1-1702},

devia ser:

 url = {\url{http://hdl.handle.net/11234/1-1702}},
suemi-higuchi commented 6 years ago

@odanoburu obrigada pela dica, mas as citações continuam não aparecendo no pdf (no lugar, interrogações). Não consegui descobrir o que é! ... inspired by (?) ...

odanoburu commented 6 years ago

@suemi-higuchi ahn... eu achei que era isso pq quando entrei o PDF não compilava e o problema era numa citação!

suemi-higuchi commented 6 years ago

É estranho, @odanoburu . Deve ser uma coisa boba, mas não consegui encontrar o erro. Antes funcionava perfeitamente, foi de uma hora para outra do nada...

odanoburu commented 6 years ago

o mais estranho é que ele compila uma vez e depois dá erro, e depois compila, e dá erro..

odanoburu commented 6 years ago

@suemi-higuchi não sei se vc mexeu em algo, mas aqui pareceu que tirar a newline do abstract fez funcionar..

suemi-higuchi commented 6 years ago

@odanoburu obrigada! Vou só compilar no draft mode, então. ;-)

arademaker commented 6 years ago

Item 9 será apenas entre UDP-Old e UDP-Gold. Os erros e acertos do Palavras entraram apenas como exemplos.

Explicar tipos de erros com exemplos (usando pacote tikz-dep)

teremos que explicar diff entre udp-old e udp-mod (versão produzida do old pelo script que Bruno irá fazer de aplicar mudanças via listas do lexico). Issue #31

@suemi-higuchi vai ajudar a colocar exemplos e colocar como comentário no latex e @arademaker formata o LaTeX.

odanoburu commented 6 years ago

@suemi-higuchi @arademaker @claudiafreitas qual nosso status? algo mais que mais devo fazer sobre a correção do léxico?

suemi-higuchi commented 6 years ago

Ok, @odanoburu @arademaker @claudiafreitas vamos lá. Eu ainda não consegui abrir o que o Bruno enviou, por isso não sei se há lá alguma informação para algum dado abaixo...

1) Tem como saber quantas sentenças do total de sentenças existente no corpus trazem pelo menos uma relação de aposto?

bc: qual corpus? no corpus todo, no golden, no corpus todo sem golden...?

sh: seria no corpus todo para completar este parágrafo do paper: "Besides its high frequency (X% of the sentences in our corpus has at least one appositive relation) they provide descriptive information about the head noun, thus enriching its characterization." 2) Tem como saber quantos nomes próprios existem na amostra dos 35 verbetes? bc: tokens marcados como PROPN ou nomes reconhecidos pelo léxico?

sh: hm, eu ia incluir esta informação na tabela 3, mas espera. Acho que não fará muito sentido. 3) Como combinamos, eu coloquei os casos de erros/acertos levantados pela Claudia e tentei explicar cada um incluindo exemplos do UDPipe e Golden (Alexandre, talvez valha a pena formatar os exemplos para mostrar visualmente as dependências). Depois fiz uma breve análise a partir da tabela 6 que criei com a frequência de distribuição dos casos. Por favor deem uma olhada para ver se concordam. Seção 4.3. SUEMI PERGUNTA lá no paper: "Vocês acham que é preciso dar mais exemplos de casos, agora com o Palavras, aqui?"

4) Bruno, preciso confirmar com você se a definição do ErrMissingA está correta (dá uma olhada no paper, por favor). No levantamento da Cláudia seria assim, mas no seu eu tenho dúvidas.

(e) ErrMissingAppo -- total error; an appositive was not detected when it should be and the dependency was also wrong. bc: se dependency = HEAD, isso mesmo!

sh: ok! então estes são os casos de erro total. Errou no deprel e no head. 5) Vocês podem atualizar/confirmar os números abaixo em XXX? Deixei os números que constavam na versão anterior do paper para ver se bate ainda. O número de nomes de pessoas já está atualizado. We evaluated the impact of lexicon incorporation at the automatic processing comparing the outputs of UDPipe and PALAVRAS against our golden sample. Our lexicon of person names has 18,171 entries. In the sample, we found XXX/358 mentions of names from the lexicon ( XXX/34% of the sentences). The most frequent name occurs 20 times. We estimate that XXX/107 errors (XX%) in the segmentation of names with more than three tokens could be fixed when lexicons are incorporated in the parser analysis..

6) Podem atualizar/confirmar os números abaixo em XXX:? Mesma coisa.

The lexicon of organization names has 3,643 entries. In the sample, we found XXX/229 occurrences of it (XXX/~22% of the sentences). The most frequent name has XXX/84 occurrences. We estimated that XXX/53 segmentation errors (XXX%) of names with more than three tokens could be fixed with de application of lexicons.

7) Falta incluir isso que o Bruno está vendo (testar para ver se com o uso dos léxicos conseguimos corrigir os heads). Vocês me ajudam? Na verdade não consegui ainda parar para entender os resultados dos testes.. Aqui eu fiquei de colocar exemplos, não é?

explicar diff entre udp-old e udp-mod (versão produzida do old pelo script que Bruno irá fazer de aplicar mudanças via listas do lexico)

bc: o que vc não entendeu, Suemi? reenviei o arquivo pra vc conseguir abrir!

8) Rever esta informação que está nas Considerações Finais:

Although the morphosyntactic annotation is already being successfully performed automatically, al-most 10% of the revised cases of appositives were wrong analyses, in both systems.

odanoburu commented 6 years ago

@suemi-higuchi respondi inline marcando com bc:

@arademaker como fizemos a estimação do ponto 5 levantado pela Suemi, vc lembra?

odanoburu commented 6 years ago

@suemi-higuchi estou fazendo propostas de revisão no sharelatex, depois vc dá uma olhada e aceita ou nega as mudanças!

suemi-higuchi commented 6 years ago

@odanoburu agradeço muito! Please, fica à vontade para incluir e mudar o que quiser ;-)

odanoburu commented 6 years ago

@suemi-higuchi pronto ! eu só propus as mudanças, então vc tem de dar o parecer final!

o que falta ainda?

estou tentando calcular aqui algumas coisas que vc pediu, mas o meu computador não aguenta rodar quase nada no corpus todo...