Closed LLGISer closed 3 years ago
不是人工标的,把所有标注数据整理过滤后当做一个远程监督库。需要采用代码里面的方式,不然会造成严重的标签泄露
嗯,根据代码里的方式,我把数据整理成了test.json的格式。但发现触发词典太小了,应用于自己的数据的时候,大部分数据都是匹配不到触发词的,所以这个触发词典可以人工添加一些触发词吗??还是另有他法??
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人: @.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人: @.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
你有用到这个比赛提供的数据吗?还是所有模型用到的数据全部都换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人: @.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
没有的,因为不是打比赛所以觉得还没这个必要
@.***
发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
明白了,多谢解答
---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
没有的,因为不是打比赛所以觉得还没这个必要
@.***
发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:45:04
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer
发送时间: 2021-07-08 18:27
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:05:29
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了
我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用
我没有去完全复现整个模型
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:58
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的模型换了,metric的计算方式应该有改动吧
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人: @.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适
@.***
发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答
---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
没有的,因为不是打比赛所以觉得还没这个必要
@.***
发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
我没用过tensorflow,pytorch上手快,文档清晰就只学了点pytorch
---原始邮件--- 发件人: @.> 发送时间: 2021年7月10日 17:17:19 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适
@.***
发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答
---原始邮件---
发件人: @.>
发送时间: 2021年7月9日 11:48:10
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
没有的,因为不是打比赛所以觉得还没这个必要
@.***
发件人: LLGISer
发送时间: 2021-07-08 19:07
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:45:04
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer
发送时间: 2021-07-08 18:27
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:05:29
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了
我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用
我没有去完全复现整个模型
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:58
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的模型换了,metric的计算方式应该有改动吧
---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人: @.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人: @.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
好的
@.***
发件人: LLGISer 发送时间: 2021-07-10 17:45 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我没用过tensorflow,pytorch上手快,文档清晰就只学了点pytorch
---原始邮件--- 发件人: @.> 发送时间: 2021年7月10日 17:17:19 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适
@.***
发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答
---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
没有的,因为不是打比赛所以觉得还没这个必要
@.***
发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练
@.***
发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧
---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限
@.***
发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?
你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式
你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈
就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的
多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升
你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107
结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
您好,这个测试文件当中的distant_trigger是人工标的吗,依据是什么?因为我想换成自己的短文本数据看一看,但数据量比较大。