cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Verbos e Nouns #11

Closed suemi-higuchi closed 3 years ago

suemi-higuchi commented 7 years ago

No 15.conllu:

Devo tentar corrigir manualmente?

arademaker commented 7 years ago

Acho que cada caso é um caso e merece um issue separado, mesmo sendo todas as sentenças no mesmo arquivo.

  1. Para a sentença 17, um truque para ter uma nova análise é tentar trocar a palavra repórter por outra, usei motorista e tive uma análise bem diferente. Curiosamente no Bosque o número de ocorrências de repórter e motorista é semelhante. Talvfez seja a falta da crase antes? Deveria ter certo?

  2. Sentença 23 : neste caso fica mais claro entender o problema, autodidata não ocorre no bosque, trocando para prudente ele marca como adjetivo e muda toda a árvore.

  3. Sentença 28 : curiosamente, colocando esta sentença no http://lindat.mff.cuni.cz/services/udpipe/ a palavra pai foi corretamente identificada como nome.

  4. sentença 17 : mesma coisa, usando a interface web do udpipe, apoiar ficou como verbo corretamente.

Enfim, acho que vc tem que tentar corrigir sim as análises. A interface web de udpipe é uma mão na roda. @claudiafreitas ??

claudiafreitas commented 7 years ago

@arademaker 1) qual o ponto de tentar trocar a palavra para refazer a análise? para cada caso de dúvida de análise, a sua sugestão é refazer a análise automática toda? Qual o ganho da Suemi? Querer entender com precisão os motivos do erro dos sistemas não é exatamente o nosso ponto principal. (mas, para constar: como "reporter" termina em "-er", é possível que UD pipe tenha achado que é um verbo (como comer). E não tem crase.

Generalizando: do que eu entendi, a sua proposta de correção é refazer a árvore. Hioótese: a nova análise vai estar correta. Vai? Não acha arriscado? Além disso

Enfim, acho que vc tem que tentar corrigir sim as análises. A interface web de udpipe é uma mão na roda. @claudiafreitas ??:

Não havíamos combinado o oposto, ao menos por enquanto?

arademaker commented 7 years ago

@claudiafreitas disse

  1. procure não mexer nas árvores quando for o caso de análises sintáticas mais complexas. O mais seguro, por enquanto, é abrir um issue pra elas - assumindo que a correção vai impactar no aposto.

  2. sempre que for preciso mexer na análise, passar pelo validador: http://conll-validator.mybluemix.net/form

  3. Nomes de artigos, livros, filmes etc, segundo o UD, não são flat. Mas, do ponto de vista da Extração de informação, são uma unidade sim. Então, para não perder de vista esses casos - que não deverão ser reanalisados como flat - vc irá indicar no campo MISC, NE (de Named Entity), ok?

Alexandre, algo a complementar?

arademaker commented 7 years ago

@claudiafreitas disse em https://github.com/cpdoc/dhbb-nlp/issues/11#issuecomment-324139930

Generalizando: do que eu entendi, a sua proposta de correção é refazer a árvore. Hioótese: a nova análise vai estar correta. Vai? Não acha arriscado?

Quase sempre, é fácil reconhecer que a árvore está errada, mas não é tão fácil corrigir. Na correção, é mais fácil reconhecer como as ligações deveriam ser feitas e menos fácil identificar as relações corretas de dependências.

A idéia então é que usando a interface web de udpipe, podemos experimentar outras análises, modificando a frase. Estas análises dão para mim boas pistas de como a árvore deve ficar, então vou no arquivo CoNNL-U que estou trabalhando e edito a árvore aplicando as mudanças. Isto é usar o parser como assistente interativo para sugerir análises possíveis. Não se trata de apenas usar o parser para produzir outra árvore e copiar/colar no texto. Até porque: (1) não podemos mudar o texto, obviamente; (2) este foi o mesmo parser que produziu o corpus, logo sem nenhuma modificação, provavelmente ele apenas irá repetir a análise errada.

O que acho que combinamos foi que as árvores devem ser corrigidas por demanda! Ou seja, corrigir as árvores quando estas afetarem as anotações que @suemi-higuchi está analisando. Lazy evaluation! Mas os casos que @suemi-higuchi destacou são bem interessantes e possivelmente recorrentes. Então acho que vale a pena fecharmos os issues corrigindo estas análises. A vantagem do DHBB é essa, corrigir uma árvore vai significar certamente que no futuro poderemos reaplicar análise semelhante para outras frases. O DHBB usa um estilo de texto bem uniforme.

arademaker commented 7 years ago

Sobre https://github.com/cpdoc/dhbb-nlp/issues/11#issuecomment-324295936

arademaker commented 7 years ago

sentença 17 resolvida em cc9462b20

arademaker commented 3 years ago

discussão antiga no contexto dos experimentos que fizemos para o paper http://arademaker.github.io/bibliography/lrec-2018.html. A discussão acabou sendo quando e se corrigir árvores quando o foco do experimento era a classificação de quais relações sintáticas eram introduzidas pelos appos. acho que esta discussão é agora irrelevante para nosso propósito com o udp-mini