Closed arademaker closed 3 years ago
sugestões Diana:
Eu não acho boa ideia fixarmo-nos na Floresta Virgem. Era talvez uma boa ideia em 1999 ou 2000 quando começámos, mas agora não vejo que devamos insistir em textos jormalísticos de 1994 e 1995. A própria Floresta em 2008 já tinha avançado: a Amazônia, entrevistas, textos científicos, etc....
Eu acho que, além do Bosque, esse sim, essencial porque revisto e porque é um marco na história do português anotado, devemos incluir (uma parte d)a Amazónia, e outros textos mais modernos... eventualmente semelhantes ao que outras línguas tenham.
No âmbito da Gramateca, houve outro grupo, o da Priberam, que se ofereceu para nos dar a anotação pelo parser deles. Se pudéssemos "rodar" isto também no âmbito da Gramateca (http://www.linguateca.pt/Gramateca/) isso seria talvez a forma mais natural de prosseguir.
Eckhard said : I agree, text selection is crucial. It would be nice to have some balance across br/pt, and across text types. Newspaper text at least provides some topic variation, but different genres like in Selva would probably be more interesting, and maybe provide for more varied challenges in contexts like CoNLL.
claudia : Voto por usar o tal Bosque 7.5 + textos novos: Amazônia, ReLi, MP e eventualmente mais alguma floresta Virgem...
Para dar mais diversidade ao “novo Bosque” (?) pensei em incluir
a. Cerca de 50 mil palavras da Amazonia b. Cerca de 50 mil palavras do Museu da Pessoa c. Cerca de 50 mil palavras do ReLi d. Cerca de 50 mil palavras da Selva Científica (só a parte da Wikipédia) e. Cerca de 50 mil palavras da Floresta Virgem (?)
Já adiantando problemas:
eu voto por termos BR e PT e textos cientificos e, se possível, de news mais novas. Pode ser até as mesmas fontes (folha e publico). Especialmente eu gostaria de que tivessem textos cientificos, que é um problema à parte e certamente esta porção anotada e revisada servirá para muita gente.
Outro ponto: gostaria de partir de textos raw.
the decision was not to expand the bosque, but add new corpora do UD.
Sugestão:
Vamos ter que discutir qual material entra para expandirmos o corpus.