运行python run_corex.py报错

liwb1219 / zhfeat

7 stars 0 forks source link

运行python run_corex.py报错 #5

Closed laosuan closed 1 year ago

laosuan commented 1 year ago

报错日志：ValueError: max_df corresponds to < documents than min_df

请问这行代码 vectorizer = CountVectorizer(max_features=None, max_df=0.5, min_df=20, binary=True, decode_error='replace') 中的max_df=0.5, min_df=20是不是写反了

liwb1219 commented 1 year ago

没有写错。你可以自行阅读下sklearn库的用法。max_df/min_df作为整数或浮点数提供时有何不同。你这个报错是因为你用的训练样本少于40条，所以上限低于40*0.5=20，而下限是不低于20，所以会报错，实际训练数据有几十万条，这里的写法是过滤掉出现在一半以上文档的词语（太普遍，没有针对性）

laosuan commented 1 year ago

谢谢