LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14k stars 1.26k forks source link

词汇表里没看到中文 #323

Open SidneyLann opened 6 months ago

SidneyLann commented 6 months ago

public static void utf8ToGbk() throws Exception { String fileName = "c:/tokenizer.json"; List lines = Files.readAllLines(Paths.get(fileName), Charset.forName("utf-8")); String sentence = null; int size = lines.size(); for (int i = 0; i < size; i++) { sentence = lines.get(i); //System.out.println(sentence); System.out.println(new String(sentence.getBytes("GBK"))); } }

这样也看不到中文,该怎么操作才能看到词汇表里的中文token?

ZHangZHengEric commented 6 months ago

这个不是这样看的

SidneyLann commented 6 months ago

这个不是这样看的

文本编辑器已设为utf-8也看不到,怎样才能看到呢?

ZHangZHengEric commented 6 months ago

这个不是这样看的

文本编辑器已设为utf-8也看不到,怎样才能看到呢?

我建议读一下llama3 的tokenizer的方式。里面应该没有办法直接读取到中文。中文都被拆解开了。

SidneyLann commented 6 months ago

image

llama3代码很少,看不出怎么读中文,怎么训练?