zjunlp / IEPile

[ACL 2024] IEPile: A Large-Scale Information Extraction Corpus
http://oneke.openkg.cn/
Other
157 stars 14 forks source link

模型输入长文本时无法获得正确输出的问题 #7

Closed AliceNCsyuk closed 5 months ago

AliceNCsyuk commented 5 months ago

当我使用 {"id": "a79d7267c800a36b6a7bde4d70684b84e193faca2d8c4468ceee8bc6c74e0416", "input": "相比之下,青岛海牛队和广州松日队的雨中之战虽然也是0∶0,但乏善可陈\n", "instruction": "假设你是一位语言专家,请抽下列文本中的所有实体。"} {"id": "1e073138ed48eeb6f9726dc34addc6dff821cef502f4ba292c911351d597a8e6", "input": "理由多多,最无奈的却是:5月恰逢双重考试,她攻读的博士学位论文要通考;她任教的两所学校,也要在这段时日大考。", "instruction": "假设你是一位语言专家,请抽下列文本中的所有实体。"} 和 CUDA_VISIBLE_DEVICES=0 python src/inference.py --stage sft --model_name_or_path 'models/baichuan2-13B-Chat' --checkpoint_dir 'lora/baichuan2-13b-IEPile-lora' --model_name 'baichuan' --template 'baichuan2' --do_predict --input_file 'data/Mydata/ner_results.json' --output_file 'results/baichuan2-13b-IEPile-lora_output.json' --finetuning_type lora --output_dir 'lora/test' --predict_with_generate --cutoff_len 512 --bf16 --max_new_tokens 300 --bits 4 命令时,可以得到以下的正确输出: [199, 31106, 30938, 31203, 3068, 31302, 7234, 5593, 72, 31488, 32482, 21738, 31271, 31267, 3026, 2724, 19529, 73, 5, 9971, 14862, 72, 11843, 31474, 32039, 31635, 31188, 8570, 32017, 31224, 28811, 31963, 31177, 31278, 31607, 3841, 2327, 52, 35030, 52, 72, 31354, 32868, 31909, 31197, 32058, 5, 200] inputs:

假设你是一位语言专家,请抽下列文本中的所有实体。 相比之下,青岛海牛队和广州松日队的雨中之战虽然也是0∶0,但乏善可陈 在这段文本中,实体有: 1. 青岛海牛队 2. 广州松日队 3. 雨中之战 在这段文本中,实体包括: 1. 5月 2. 双重考试 3. 博士学位论文 4. 两所学校 但是当我将其中的短文本替换为: 福建省漳州市中级人民法院 民 事 判 决 书 (2020)闽06民终945号 上诉人(原审被告):苏玲,女,1979年1月10日出生,汉族,住漳州市芗城区。 委托诉讼代理人:郑志伟,福建三和律师事务所执业律师。 被上诉人(原审原告):杨晓红,女,1979年8月5出生,汉族,住漳州市芗城区。 委托诉讼代理人:吕子雄,福建衡评律师事务所执业律师。 上诉人苏玲因与被上诉人杨晓红民间借贷纠纷一案,不服福建省漳州市芗城区人民法院(2019)闽0602民初5390号民事判决,向本院提起上诉。本院于2020年4月1日立案后,依法组成合议庭,进行了审理。本案现已审理终结。 苏玲上诉请求:1、撤销一审判决,改判驳回杨晓红的诉讼请求或将本案发回重审;2、一、二审诉讼费用由杨晓红负担。事实和理由:本案借条利率与案涉债权投资产品的利率一致,苏玲与杨晓红的微信聊天记录也可证明案涉款项实际上是苏玲以其目前名义代杨晓红购买债权投资产品,双方没有借款合意,苏玲系因重大误解写下借条。如双方系借贷关系,则之后杨晓红不可能向苏玲表示要借款,而应要求苏玲提前还款。一审判决认定本案是民间借贷法律关系是错误的,据此所作判决亦是错误的。 杨晓红辩称,本案一审认定的事实清楚,判决正确,苏玲应当按一审的判决偿还款项。1.本案双方是借贷关系,苏玲说存在委托理财,但未提供由杨晓红授权的授权委托书或双方签订的合同,不能认定双方有达成理财产品的合意。根据双方的微信聊天记录,苏玲在转账当天出具了借条,苏玲发了一份借条模版、一份欠条模版,苏玲出具的是借条,以此证明双方是借贷的法律关系。2.杨晓红在本案所涉购买理财产品的过程之前是有购买过理财产品,杨晓红有相应的理财产品账号,如要购买杨晓红可以自行在手机上购买,不用再通过苏玲购买。同时在苏玲购买时也并非是用杨晓红的名义购买理财产品,本案310000购买理财产品时是苏玲的母亲名义购买不是杨晓红的名义。3.借款到期后,杨晓红有向苏玲多次催讨,苏玲支付了10000元,后又支付了20000元,如系委托理财产品,苏玲无需向杨晓红还款,可见双方是借贷的关系。 杨晓红向一审法院起诉请求:1、判令苏玲偿还杨晓红借款28万元及利息(自2018年4月25日起至实际还清之日止,按年利率10.42%计算);2、判令苏玲支付杨晓红逾期还款违约金3000元;3、本案诉讼费由苏玲承担。 一审法院认定事实:2018年4月25日,苏玲出具借条一份给杨晓红收执。借条记载:今借杨晓红人民币31万元整,大写:叁拾壹万元整,所有现金已收到。约定于2019年4月26日归还,年利率为10.42%,全部本息共计人民币344340元,如不能按期足额归还借款,借款人应向出借人支付违金人民币3000元整。备注:到期有7天周期,以实际到账为主。杨晓红以转账形式予苏玲。,苏玲在借款人处签名捺印。当日,杨晓红通过银行转账的方式向苏玲汇款合计30.9万元,通过微信转账的方式向苏玲转账1000元。在本案审理过程中,申请人杨晓红于2019年6月3日申请财产保全,冻结被申请人苏玲名下价值相当于317993.83元的财产,并提供担保函作为担保。一审法院于2019年6月3日作出(2019)闽0602民初5390号民事裁定书,裁定查封、冻结被申请人苏玲名下价值317993.83元的财产。 一审法院认为,杨晓红提供借据及转账凭证证明杨晓红、苏玲之间存在民间借贷关系,合法有据,杨晓红与苏玲的民间借贷关系依法有效,受法律保护。苏玲对本案借条无异议且确认收到31万元,但辩称杨晓红向其转账31万元系杨晓红委托其向信和财富投资管理(北京)有限公司投资债权,杨晓红、苏玲之间系委托理财关系而非借贷关系,该辩称得到杨晓红的否认,杨晓红在诉讼中述称,苏玲确实在2018年4月向其推荐金信网的理财产品,其也有意购买,后因为担心金信网的资信不够决定不买并将资金借给苏玲,根据《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》第十五条第一款杨晓红以借据、收据、欠条等债权凭证为依据提起民间借贷诉讼,苏玲依据基础法律关系提出抗辩或者反诉,并提供证据证明债权纠纷非民间借贷行为引起的,人民法院应当依据查明的案件事实,按照基础法律关系审理。,苏玲提供的微信聊天记录、银行账户交易明细以及证人胡某、证人王某的证言,不足以证明杨晓红委托苏玲投资第三方债权产品的事实,本案应按借款合同关系处理,故苏玲的辩称,证据不足,一审法院不予采纳。本案借款借期已届满,苏玲未按期归还借款,构成违约。杨晓红要求苏玲归还尚欠的借款本金28万元、自2018年4月25日起至实际还清款项之日止按年利率10.42%计付的利息以及逾期还款违约金3000元,合法有据,一审法院予以支持。依照《中华人民共和国合同法》第一百九十六条、第二百零五条、第二百零六条、第二百零七条、第一百零七条、第一百一十四条第一款,《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》第十五条第一款,《最高人民法院关于民事诉讼证据的若干规定》第二条以及《中华人民共和国民事诉讼法》第六十四条的规定,判决如下:一、苏玲应于判决生效后十日内偿付杨晓红借款本金28万元及以本金28万元为基数按年利率10.42%从2018年4月25日起至实际还清款项之日止计付的利息;二、苏玲应于判决生效后十日内支付杨晓红逾期还款违约金3000元。如果未按判决指定的期间履行给付金钱义务,应当依照《中华人民共和国民事诉讼法》第二百五十三条之规定,加倍支付迟延履行期间的债务利息。一审案件受理费6069.9元,减半收取计3034.95,保全费2110元,均由苏玲承担。 二审中,当事人没有提交新证据。对一审认定的事实,当事人均无异议,本院予以确认。 本案争议焦点:苏玲与杨晓红的借贷关系能否成立。 本院认为,苏玲出具的条据是借条,该借条不仅约定借款金额,还约定了借款期限和借款利率,故该借条从形式到内容均符合民间借贷法律特征,且杨晓红还依约支付款项。杨晓红请求判令苏玲偿还借款,有事实和法律依据。苏玲主张双方系委托代理投资关系,但未提供书面委托代理协议,双方的聊天记录和一审证人证言均不足以推翻涉案借条的证明效力,且杨晓红在向苏玲转账前曾以自己名义在网贷平台购买过投资产品,其具有自行投资的能力,而案涉投资产品不是以杨晓红的名义购买,故苏玲主张本案系委托理财纠纷,不是民间借贷法律关系,依据不足。 综上所述,苏玲的上诉请求不能成立,应予驳回;一审判决认定事实清楚,适用法律正确,应予维持。依照《中华人民共和国民事诉讼法》第一百七十条第一款第一项规定,判决如下: 驳回上诉,维持原判。 二审案件受理费6069.9元,由苏玲负担。 本判决为终审判决。 审 判 长 周月华 审 判 员 傅志杰 审 判 员 傅 京 二〇二〇年五月十八日 法官助理 詹立宇 书 记 员 邹晓燕 关注公众号“马克数据网” 这类长文本时,模型没有报错,但是却无法得出正确的信息。此外自己还查找了代码和readme,未能确定需要修改哪些部分以支撑长文本实体,事件,关系等抽取和识别。这个模型是否具有支持这类长文本的功能,或者需要修改某些文件的参数呢?
guihonghao commented 5 months ago

针对第一个用例,我们推荐的使用指令是下面这种带有schema限定的格式。OpenIE的格式,这一版本模型不一定能处理的很好。

{
  "task": "NER", 
  "source": "MSRA", 
  "instruction": "{\"instruction\": \"你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。\", \"schema\": [\"组织机构\", \"地理位置\", \"人物\"], \"input\": \"对于康有为、梁启超、谭嗣同、严复这些从旧文化营垒中走来的年轻“布衣”,他们背负着沉重的历史包袱,能够挣脱旧传统的束缚,为拯救民族的危亡而献身,实在是中华民族的脊梁。\"}", 
  "output": "{\"组织机构\": [], \"地理位置\": [\"中华\"], \"人物\": [\"康有为\", \"梁启超\", \"谭嗣同\", \"严复\"]}"
}

对于长文本数据,由于训练模型的最大长度限制,因此可能无法很好处理。你需要设置--cutoff_len 512 --max_new_tokens 300参数。其次,你可以尝试把一个长文本分成几段短文本,再分别输入模型。

AliceNCsyuk commented 5 months ago

针对第一个用例,我们推荐的使用指令是下面这种带有schema限定的格式。OpenIE的格式,这一版本模型不一定能处理的很好。

{
  "task": "NER", 
  "source": "MSRA", 
  "instruction": "{\"instruction\": \"你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。\", \"schema\": [\"组织机构\", \"地理位置\", \"人物\"], \"input\": \"对于康有为、梁启超、谭嗣同、严复这些从旧文化营垒中走来的年轻“布衣”,他们背负着沉重的历史包袱,能够挣脱旧传统的束缚,为拯救民族的危亡而献身,实在是中华民族的脊梁。\"}", 
  "output": "{\"组织机构\": [], \"地理位置\": [\"中华\"], \"人物\": [\"康有为\", \"梁启超\", \"谭嗣同\", \"严复\"]}"
}

对于长文本数据,由于训练模型的最大长度限制,因此可能无法很好处理。你需要设置--cutoff_len 512 --max_new_tokens 300参数。其次,你可以尝试把一个长文本分成几段短文本,再分别输入模型。 --cutoff_len 512和--max_new_tokens 300参数分别代表什么含义呢

AliceNCsyuk commented 5 months ago

我看到了这两个参数,但是没有找到对应的含义

guihonghao commented 5 months ago

--cutoff_len对应最大输入长度,--max_new_tokens对应最大输出长度。

zxlzr commented 5 months ago

请问您还有其它问题吗