Closed AliceNCsyuk closed 5 months ago
针对第一个用例,我们推荐的使用指令是下面这种带有schema限定的格式。OpenIE的格式,这一版本模型不一定能处理的很好。
{
"task": "NER",
"source": "MSRA",
"instruction": "{\"instruction\": \"你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。\", \"schema\": [\"组织机构\", \"地理位置\", \"人物\"], \"input\": \"对于康有为、梁启超、谭嗣同、严复这些从旧文化营垒中走来的年轻“布衣”,他们背负着沉重的历史包袱,能够挣脱旧传统的束缚,为拯救民族的危亡而献身,实在是中华民族的脊梁。\"}",
"output": "{\"组织机构\": [], \"地理位置\": [\"中华\"], \"人物\": [\"康有为\", \"梁启超\", \"谭嗣同\", \"严复\"]}"
}
对于长文本数据,由于训练模型的最大长度限制,因此可能无法很好处理。你需要设置--cutoff_len 512 --max_new_tokens 300参数。其次,你可以尝试把一个长文本分成几段短文本,再分别输入模型。
针对第一个用例,我们推荐的使用指令是下面这种带有schema限定的格式。OpenIE的格式,这一版本模型不一定能处理的很好。
{ "task": "NER", "source": "MSRA", "instruction": "{\"instruction\": \"你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。\", \"schema\": [\"组织机构\", \"地理位置\", \"人物\"], \"input\": \"对于康有为、梁启超、谭嗣同、严复这些从旧文化营垒中走来的年轻“布衣”,他们背负着沉重的历史包袱,能够挣脱旧传统的束缚,为拯救民族的危亡而献身,实在是中华民族的脊梁。\"}", "output": "{\"组织机构\": [], \"地理位置\": [\"中华\"], \"人物\": [\"康有为\", \"梁启超\", \"谭嗣同\", \"严复\"]}" }
对于长文本数据,由于训练模型的最大长度限制,因此可能无法很好处理。你需要设置--cutoff_len 512 --max_new_tokens 300参数。其次,你可以尝试把一个长文本分成几段短文本,再分别输入模型。 --cutoff_len 512和--max_new_tokens 300参数分别代表什么含义呢
我看到了这两个参数,但是没有找到对应的含义
--cutoff_len对应最大输入长度,--max_new_tokens对应最大输出长度。
请问您还有其它问题吗
当我使用 {"id": "a79d7267c800a36b6a7bde4d70684b84e193faca2d8c4468ceee8bc6c74e0416", "input": "相比之下,青岛海牛队和广州松日队的雨中之战虽然也是0∶0,但乏善可陈\n", "instruction": "假设你是一位语言专家,请抽下列文本中的所有实体。"} {"id": "1e073138ed48eeb6f9726dc34addc6dff821cef502f4ba292c911351d597a8e6", "input": "理由多多,最无奈的却是:5月恰逢双重考试,她攻读的博士学位论文要通考;她任教的两所学校,也要在这段时日大考。", "instruction": "假设你是一位语言专家,请抽下列文本中的所有实体。"} 和 CUDA_VISIBLE_DEVICES=0 python src/inference.py --stage sft --model_name_or_path 'models/baichuan2-13B-Chat' --checkpoint_dir 'lora/baichuan2-13b-IEPile-lora' --model_name 'baichuan' --template 'baichuan2' --do_predict --input_file 'data/Mydata/ner_results.json' --output_file 'results/baichuan2-13b-IEPile-lora_output.json' --finetuning_type lora --output_dir 'lora/test' --predict_with_generate --cutoff_len 512 --bf16 --max_new_tokens 300 --bits 4 命令时,可以得到以下的正确输出: [199, 31106, 30938, 31203, 3068, 31302, 7234, 5593, 72, 31488, 32482, 21738, 31271, 31267, 3026, 2724, 19529, 73, 5, 9971, 14862, 72, 11843, 31474, 32039, 31635, 31188, 8570, 32017, 31224, 28811, 31963, 31177, 31278, 31607, 3841, 2327, 52, 35030, 52, 72, 31354, 32868, 31909, 31197, 32058, 5, 200] inputs: