import sentencepiece_model_pb2 as model
m = model.ModelProto()
m.ParseFromString(open('mengzi_gpt.model', 'rb').read())
for i in m.pieces:
if i.piece=="xing":
i.piece="性"
print("modified")
break
with open('new.model', 'wb') as f:
f.write(m.SerializeToString())
例句:“Linux ⁇ 能和Windows相比,其支持的 ⁇ 能较低,但是 ⁇ 能很低。”
这里的“性”字变成了问号。经过我的排查,我发现vocab里面没有这个文字,而是变成了“xing”。这个我猜测是不是训练素材里面把所有的字都给转换了。。。
目前我自己的临时解决办法如下:
望早日修复。