liwb1219 / zhfeat

7 stars 0 forks source link

运行python run_corex.py报错 #5

Closed laosuan closed 1 year ago

laosuan commented 1 year ago

报错日志:ValueError: max_df corresponds to < documents than min_df

请问这行代码 vectorizer = CountVectorizer(max_features=None, max_df=0.5, min_df=20, binary=True, decode_error='replace') 中的max_df=0.5, min_df=20是不是写反了

liwb1219 commented 1 year ago

没有写错。你可以自行阅读下sklearn库的用法。max_df/min_df作为整数或浮点数提供时有何不同。 你这个报错是因为你用的训练样本少于40条,所以上限低于40*0.5=20,而下限是不低于20,所以会报错,实际训练数据有几十万条,这里的写法是过滤掉出现在一半以上文档的词语(太普遍,没有针对性)

laosuan commented 1 year ago

谢谢