Open heweibuzhihuo opened 1 year ago
我们通过cnews_loader.py来进行数据集预处理,该类中给出了所有需要使用的方法,我们只需要进行相应的调用即可。 首先,使用read_file(filename)方法读取训练集、验证集和测试集的内容和标签。
接下来,可以使用build_vocab(train_dir, vocab_dir, vocab_size=5000)方法构建词汇表,并存储到指定的文件中。
然后,使用read_vocab(vocab_dir)方法读取词汇表,获取词汇列表和词汇到id的映射。
接着,使用read_category()方法读取分类目录,获取分类列表和分类到id的映射。
现在,可以使用process_file(filename, word_to_id, cat_to_id, max_length=600)方法将训练集、验证集和测试集转换为id表示。
最后,可以使用batch_iter(x, y, batch_size=64)方法生成训练数据的批次。
通过以上步骤,我们便可以完成数据的读取、词汇表的构建、文本的转换和批次数据的生成。 随后运行相应的代码,便可得到词汇表,并数据集预处理完毕
在运行run_cnn.py时总会出现各种报错,我查询之后发现是TensorFlow版本不一致,该如何解决呢
我在运行时也曾出现过这样的问题,你可以尝试下载低版本的TensorFlow来解决这个问题。但目前低版本的TensorFlow很难直接下载,所以你可能需要采取使用虚拟环境等多种方式,你也可能对其代码进行修改,将低版本的代码更换为高版本的代码,这两种方式你都可以进行一定的尝试
这个项目可以在windows平台运行吗
采用data/cnews_loader.py进行数据集预处理的时候代码无法正常运行,会是什么原因,是我的调用代码存在问题吗