@matwerner fiz testes e empurrei no branch development, usei python 2.7, é só abrir o notebook bag-of-words e você vai ver como rodar ao invés do brown utilizar o g1! O arquivo final com todo o vocabulário 54628 palavras e os 4000 mil artigos ficou em 437 MB foi moleza para o pandas e tenho certeza que será moleza para você. Qualquer problema me fala, e comenta nessa issue. Se tudo estiver de acordo, faz o merge com o master por favor e finaliza essa issue.
Ainda não consegui rodar o do G1, porém quando rodei novamente para o brown, percebi que você comentou as funções que criei para baixar os dataset de forma automatica? Algum motivo especifico para isso?
Sugestões:
É possivel modificar o algoritmo para em vez da matriz resultante ser Vocab X Documents, ser Documents X Vocab?
Devido a forma como estou fazendo os algoritmos em C, cada linha deveria ser um vetor documento e não um vetor palavra.
Além disso, seria um pouco custoso implementar as funções para pegar essa matriz original e transpola.
@matwerner fiz testes e empurrei no branch development, usei python 2.7, é só abrir o notebook bag-of-words e você vai ver como rodar ao invés do brown utilizar o g1! O arquivo final com todo o vocabulário 54628 palavras e os 4000 mil artigos ficou em 437 MB foi moleza para o pandas e tenho certeza que será moleza para você. Qualquer problema me fala, e comenta nessa issue. Se tudo estiver de acordo, faz o merge com o master por favor e finaliza essa issue.