matwerner / algorithms-for-datascience

Collection of projects for disciple INF2978 - Algorithms for DataScience at PUC-Rio
0 stars 0 forks source link

Python corpus output #6

Open guilhermevarela opened 7 years ago

guilhermevarela commented 7 years ago

@matwerner fiz testes e empurrei no branch development, usei python 2.7, é só abrir o notebook bag-of-words e você vai ver como rodar ao invés do brown utilizar o g1! O arquivo final com todo o vocabulário 54628 palavras e os 4000 mil artigos ficou em 437 MB foi moleza para o pandas e tenho certeza que será moleza para você. Qualquer problema me fala, e comenta nessa issue. Se tudo estiver de acordo, faz o merge com o master por favor e finaliza essa issue.

matwerner commented 7 years ago

Duvidas:

Sugestões: