cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

asteriscos ao invés das aspas usadas no bosque #9

Closed arademaker closed 7 years ago

arademaker commented 7 years ago

Sobre a frase do arquivo 7.conllu do issue #1

Num artigo que escreveu para o jornal Folha de S. Paulo de 25 de julho de 2010, sob o título Brasil-Irã: como fazer amigos e dar-se mal, Roberto Abdenur abordou a questão do programa nuclear iraniano.

Usando a interface http://lindat.mff.cuni.cz/services/udpipe/ com o modelo ud-portuguese-2.0-170801, a análise é bem ruim. Trocando a frase para:

Num artigo que escreveu para o jornal Folha de S. Paulo de 25 de julho de 2010, sob o título «Brasil-Irã: como fazer amigos e dar-se mal», Roberto Abdenur abordou a questão do programa nuclear iraniano.

O que mostra que realmente os asteriscos estão atrapalhando o uppipe, que foi treinado com um corpus com « ... » . O que fazemos? Tentamos reprocessar ou seguimos em frente? @claudiafreitas ?

claudiafreitas commented 7 years ago

@arademaker , esse issue já foi fechado, certo?

arademaker commented 7 years ago

Não, ainda não reexecutei o udpipe nos arquivos . Vou fazer isso mas não vou mexer nos arquivos que foram anotados pela Suemi

arademaker commented 7 years ago

ok, arquivos que foram anotados pela @suemi-higuchi foram renomeados para *-annotated.conllu para não perdermos a anotação. Depois pensamos como migrar as anotações para os respectivos novos arquivos conllu.