649453932 / Chinese-Text-Classification-Pytorch

中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。
MIT License
5.25k stars 1.22k forks source link

performance about fasttext #59

Open tjulyz opened 3 years ago

tjulyz commented 3 years ago

非常感谢分享! 我尝试用fasttext 和facebook官方版的fasttext对文本分类做了对比,采用random初始化的情况下,发现在您的代码基础上对30分类数据只能取得50%左右的分类acc,官方提供的可以达到92%以上,所以想请教一下大概是什么问题。 可能的两个地方: 1.数据是否需要shuffle,在您的代码里好像没有看到

  1. n-gram的表示,n-gram一种体现在字符char就是单个字级别和词级别的wordNgram,您这个貌似选择word方式时候只有wordNgram的表示,而没有char级别的 想与您进一步探讨提升当前代码性能的可能性。