UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

expansão do bosque #154

Closed arademaker closed 3 years ago

arademaker commented 7 years ago

Sugestão:

Vamos ter que discutir qual material entra para expandirmos o corpus.

arademaker commented 7 years ago

sugestões Diana:

Eu não acho boa ideia fixarmo-nos na Floresta Virgem. Era talvez uma boa ideia em 1999 ou 2000 quando começámos, mas agora não vejo que devamos insistir em textos jormalísticos de 1994 e 1995. A própria Floresta em 2008 já tinha avançado: a Amazônia, entrevistas, textos científicos, etc....

Eu acho que, além do Bosque, esse sim, essencial porque revisto e porque é um marco na história do português anotado, devemos incluir (uma parte d)a Amazónia, e outros textos mais modernos... eventualmente semelhantes ao que outras línguas tenham.

No âmbito da Gramateca, houve outro grupo, o da Priberam, que se ofereceu para nos dar a anotação pelo parser deles. Se pudéssemos "rodar" isto também no âmbito da Gramateca (http://www.linguateca.pt/Gramateca/) isso seria talvez a forma mais natural de prosseguir.

arademaker commented 7 years ago

Eckhard said : I agree, text selection is crucial. It would be nice to have some balance across br/pt, and across text types. Newspaper text at least provides some topic variation, but different genres like in Selva would probably be more interesting, and maybe provide for more varied challenges in contexts like CoNLL.

arademaker commented 7 years ago

http://www.linguateca.pt/Gramateca/CompAnSint.html

arademaker commented 7 years ago

claudia : Voto por usar o tal Bosque 7.5 + textos novos: Amazônia, ReLi, MP e eventualmente mais alguma floresta Virgem...

Para dar mais diversidade ao “novo Bosque” (?) pensei em incluir

a. Cerca de 50 mil palavras da Amazonia b. Cerca de 50 mil palavras do Museu da Pessoa c. Cerca de 50 mil palavras do ReLi d. Cerca de 50 mil palavras da Selva Científica (só a parte da Wikipédia) e. Cerca de 50 mil palavras da Floresta Virgem (?)

Já adiantando problemas:

  1. Desbalanceamos BR e PT, já que AMAZonia e ReLI são apenas BR. Alguma sugestão?
  2. O ReLi teve (e tem) muitos problemas de tokenização. Temos como usar apenas aquilo que não deu problemas? Ou isso significaria ter frases aleatórias?
  3. Acham melhor menos diversidade?
livyreal commented 7 years ago

eu voto por termos BR e PT e textos cientificos e, se possível, de news mais novas. Pode ser até as mesmas fontes (folha e publico). Especialmente eu gostaria de que tivessem textos cientificos, que é um problema à parte e certamente esta porção anotada e revisada servirá para muita gente.

Outro ponto: gostaria de partir de textos raw.

arademaker commented 3 years ago

the decision was not to expand the bosque, but add new corpora do UD.