Langboat / Mengzi

Mengzi Pretrained Models
Apache License 2.0
534 stars 63 forks source link

关于mengzi-gpt-neo-base某些字无法正常显示的问题 #53

Open chn-lee-yumi opened 1 year ago

chn-lee-yumi commented 1 year ago

例句:“Linux ⁇ 能和Windows相比,其支持的 ⁇ 能较低,但是 ⁇ 能很低。”

这里的“性”字变成了问号。经过我的排查,我发现vocab里面没有这个文字,而是变成了“xing”。这个我猜测是不是训练素材里面把所有的字都给转换了。。。

目前我自己的临时解决办法如下:

wget https://raw.githubusercontent.com/google/sentencepiece/master/src/sentencepiece_model.proto
protoc --python_out=. sentencepiece_model.proto
import sentencepiece_model_pb2 as model

m = model.ModelProto()
m.ParseFromString(open('mengzi_gpt.model', 'rb').read())

for i in m.pieces:
    if i.piece=="xing":
        i.piece="性"
        print("modified")
        break

with open('new.model', 'wb') as f:
    f.write(m.SerializeToString())

望早日修复。