词汇表里没看到中文

LlamaFamily / Llama-Chinese

Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

https://llama.family

14k stars 1.26k forks source link

词汇表里没看到中文 #323

Open SidneyLann opened 6 months ago

SidneyLann commented 6 months ago

public static void utf8ToGbk() throws Exception { String fileName = "c:/tokenizer.json"; List lines = Files.readAllLines(Paths.get(fileName), Charset.forName("utf-8")); String sentence = null; int size = lines.size(); for (int i = 0; i < size; i++) { sentence = lines.get(i); //System.out.println(sentence); System.out.println(new String(sentence.getBytes("GBK"))); } }

这样也看不到中文，该怎么操作才能看到词汇表里的中文token?

ZHangZHengEric commented 6 months ago

这个不是这样看的

SidneyLann commented 6 months ago

这个不是这样看的

文本编辑器已设为utf-8也看不到，怎样才能看到呢？

ZHangZHengEric commented 6 months ago

这个不是这样看的

文本编辑器已设为utf-8也看不到，怎样才能看到呢？

我建议读一下llama3 的tokenizer的方式。里面应该没有办法直接读取到中文。中文都被拆解开了。

SidneyLann commented 6 months ago

llama3代码很少，看不出怎么读中文，怎么训练？