ymourenya commented 5 months ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull）
[X] 已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案。
[X] 第三方插件问题：例如llama.cpp、text-generation-webui等，建议优先去对应的项目中查找解决方案。

问题类型

其他问题

基础模型

Llama-3-Chinese-8B（基座模型）

操作系统

None

详细描述问题

# 请在此处粘贴运行代码（请粘贴在本代码块里）

from transformers import AutoTokenizer

选择一个支持中文的预训练模型

tokenizer = AutoTokenizer.from_pretrained("llama3")

定义要分词的文本

text = "Java是一种广泛使用的高级编程语言，具有可移植性和面向对象的特性。为了方便使用和管理Java语言，有一些常用的Java编程工具。以下是5个常用的Java编程工具以及它们的详细介绍。"

对文本进行分词

tokens = tokenizer.tokenize(text) token_ids = tokenizer.convert_tokens_to_ids(tokens)

输出分词后的 token 和 token id

print("Tokens:", tokens)

print("Token IDs:", token_ids)

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

运行日志或截图

![图片](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3/assets/126037097/9df9f8e1-a846-4400-abe8-465df895ce28)）
你好，我想问一下，为什么llama3对中文分词是这样的，希望各位大佬帮忙解答一下，谢谢大佬们

ymourenya commented 5 months ago

对中文分词是这样的 Tokens: ['Java', 'æĺ¯ä¸Ģ', 'ç§į', 'å¹¿', 'æ³Ľ', 'ä½¿çĶ¨', 'çļĦ', 'é«ĺ', 'çº§', 'ç¼ĸ', 'ç¨ĭ', 'è¯Ńè¨Ģ', 'ï¼Į', 'åħ·æľī', 'åı¯', 'ç§»', 'æ¤į', 'æĢ§', 'åĴĮ', 'éĿ¢', 'åĲĳ', 'å¯¹è±¡', 'çļĦ', 'çī¹', 'æĢ§', 'ãĢĤ', 'ä¸ºäºĨ', 'æĸ¹', 'ä¾¿', 'ä½¿çĶ¨', 'åĴĮ', 'ç®¡çĲĨ', 'Java', 'è¯Ńè¨Ģ', 'ï¼Įæľī', 'ä¸ĢäºĽ', 'å¸¸', 'çĶ¨çļĦ', 'Java', 'ç¼ĸ', 'ç¨ĭ', 'å·¥åħ·', 'ãĢĤ', 'ä»¥ä¸ĭ', 'æĺ¯', '5', 'ä¸ª', 'å¸¸', 'çĶ¨çļĦ', 'Java', 'ç¼ĸ', 'ç¨ĭ', 'å·¥åħ·', 'ä»¥åıĬ', 'å®ĥä»¬', 'çļĦ', 'è¯¦', 'ç»Ĩ', 'ä»ĭç»į', 'ãĢĤ']

ymcui commented 5 months ago

这种情况正常。分词并不是说一定要按汉字的切分方式进行拆分，和分词器的属性有关系。

github-actions[bot] commented 5 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 4 months ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.

ymcui / Chinese-LLaMA-Alpaca-3

llama3的分词器 #77