Open kingpingyue opened 7 months ago
"text":xxxxx
就是 例如一篇文章,我怎么把这篇文章处理成可以训练模型的数据,代码我没太看懂
input_ids = [np.array(item) for item in outputs["input_ids"]]
这句我没看懂是为什么
为啥要转np.arrary啊
如果词表大小小于 65535 用uint16存储,节省磁盘空间,否则用uint32存储
哦哦 其实 input_batch = [] input_batch.append(input_ids)类似,指定数据类型会节省磁盘空间
大哥 麻烦给个数据样本参考一下,我想了解一下 数据处理部分