WuHuRestaurant / xf_event_extraction2020Top1

科大讯飞2020事件抽取挑战赛第一名解决方案&完整事件抽取系统
536 stars 123 forks source link

test.json文件 #27

Closed LLGISer closed 3 years ago

LLGISer commented 3 years ago

您好,这个测试文件当中的distant_trigger是人工标的吗,依据是什么?因为我想换成自己的短文本数据看一看,但数据量比较大。

WuHuRestaurant commented 3 years ago

不是人工标的,把所有标注数据整理过滤后当做一个远程监督库。需要采用代码里面的方式,不然会造成严重的标签泄露

LLGISer commented 3 years ago

嗯,根据代码里的方式,我把数据整理成了test.json的格式。但发现触发词典太小了,应用于自己的数据的时候,大部分数据都是匹配不到触发词的,所以这个触发词典可以人工添加一些触发词吗??还是另有他法??

Biaocsu commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

LLGISer commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

Biaocsu commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

LLGISer commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

Biaocsu commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

LLGISer commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

Biaocsu commented 3 years ago

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

LLGISer commented 3 years ago

我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

LLGISer commented 3 years ago

你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人:
@.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

LLGISer commented 3 years ago

你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人:
@.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

LLGISer commented 3 years ago

你有用到这个比赛提供的数据吗?还是所有模型用到的数据全部都换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人:
@.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

没有的,因为不是打比赛所以觉得还没这个必要

@.***

发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

LLGISer commented 3 years ago

明白了,多谢解答

---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

没有的,因为不是打比赛所以觉得还没这个必要

@.***

发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:45:04
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer
发送时间: 2021-07-08 18:27
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:05:29
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了
我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用
我没有去完全复现整个模型

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:58
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的模型换了,metric的计算方式应该有改动吧

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人:
@.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适

@.***

发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答

---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

没有的,因为不是打比赛所以觉得还没这个必要

@.***

发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

LLGISer commented 3 years ago

我没用过tensorflow,pytorch上手快,文档清晰就只学了点pytorch

---原始邮件--- 发件人: @.> 发送时间: 2021年7月10日 17:17:19 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适

@.***

发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答

---原始邮件---
发件人: @.>
发送时间: 2021年7月9日 11:48:10
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

没有的,因为不是打比赛所以觉得还没这个必要

@.***

发件人: LLGISer
发送时间: 2021-07-08 19:07
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:45:04
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer
发送时间: 2021-07-08 18:27
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 18:05:29
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了
我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用
我没有去完全复现整个模型

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:58
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
你的模型换了,metric的计算方式应该有改动吧

---原始邮件---
发件人: @.>
发送时间: 2021年7月8日 17:47:33
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer
发送时间: 2021-07-08 17:40
收件人: WuHuRestaurant/xf_event_extraction2020Top1
抄送: Biaocsu; Comment
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)
我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------
发件人: @.>;
发送时间: 2021年7月8日(星期四) 下午5:32
收件人:
@.>;
抄送: @.>; @.>;
主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好!
1、对的,我是换成自己的数据。
2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。
我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.

You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.


You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or unsubscribe.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

Biaocsu commented 3 years ago

好的

@.***

发件人: LLGISer 发送时间: 2021-07-10 17:45 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我没用过tensorflow,pytorch上手快,文档清晰就只学了点pytorch

---原始邮件--- 发件人: @.> 发送时间: 2021年7月10日 17:17:19 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

嘿,小伙伴,你对tensorflow熟悉吗?我最近想把这个代码由pytorch转为tensorflow,但是中间有些处理用法不知道怎样弄合适

@.***

发件人: LLGISer 发送时间: 2021-07-09 12:00 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 明白了,多谢解答

---原始邮件--- 发件人: @.> 发送时间: 2021年7月9日 11:48:10 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

没有的,因为不是打比赛所以觉得还没这个必要

@.***

发件人: LLGISer 发送时间: 2021-07-08 19:07 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 了解了,对了,各个模型有各个模型的精度,你有联合各个模型结果给出总体的精度吗?

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:45:04 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

触发词模型,主体、客体模型 是用这个比赛数据训练的,其他的是用自己的模型及数据训练

@.***

发件人: LLGISer 发送时间: 2021-07-08 18:27 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的数据是有用到这个比赛里面提供的吗?还是说所有模型用到的数据全换成自己的了

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 18:05:29 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

我没有用role2模型(直接不用训练了),那这个模型的metric也就不用计算了 我是使用这个代码训练trigger模型提取“触发词”,role1模型提“主体”和“客体”,其他两个模型都没用 我没有去完全复现整个模型

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:58 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 你的模型换了,metric的计算方式应该有改动吧

---原始邮件--- 发件人: @.> 发送时间: 2021年7月8日 17:47:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

这个我还没注意到,我到时看看。不过我觉得如果不是这个比赛,要提高“时间”、“地点”识别准确度的话,另外使用bilstm-crf等模型来识别会更好,毕竟ner中有很多标注好的数据集,这个比赛数据集对实体识别泛化能力有限

@.***

发件人: LLGISer 发送时间: 2021-07-08 17:40 收件人: WuHuRestaurant/xf_event_extraction2020Top1 抄送: Biaocsu; Comment 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27) 我觉得不是效果差,而是这个模型里面评估指标计算参数type_weight有问题,导致metric不行

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年7月8日(星期四) 下午5:32 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [WuHuRestaurant/xf_event_extraction2020Top1] test.json文件 (#27)

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

@LLGISer 你好,测试文件中distant_trigger信息你现在是怎样处理的?

你说的替换成自己的数据吗?我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式

你好! 1、对的,我是换成自己的数据。 2、你这里说“我是自己构建了触发词典来替换这个项目里的,再根据代码里的处理方式处理成test.json的格式”——>是指自己构建触发词典,如果测试文件某个语句中包含了“触发词典”中某个词,就将该词当作“触发词”吗?我试验了下,感觉有点行不通。我构建的“触发词典”中词语在某些语句中确实为触发词,但在有些语句中并不是真正的触发词(会导致触发词错误)。不知道你说的是不是我理解的这个意思?还是其他意思,望再详细指导下,多谢哈

就是你理解的这个意思,不过你出现触发词错误可能与你构建的触发词典质量有关。我个人的想法是,因为事件抽取模型基本都是针对某些特定的事件的,并不是适用于通用事件的抽取。对于想抽取的事件应该是某个特定领域的,如果能够找到与自己研究领域相关的一些标准的语料,以标准语料为基础来构建触发词典,效果应该是可以的

多谢哈,我再想想怎样弄更好,因为测试语料(test.json)如果不设置distant_trigger信息,其实也是可以通过模型预测出来的,只需要把test.py文件中pipeline_predict函数的distant_trigger设置为空列表就行,唯一缺陷是可能还不够准确。 我试着构建一份足够精确的触发词表,看能不能有所提升

你好,我想问一下,你复现的结果中time和loc这个模型的max f1是多少?我复现role2结果只有0.107

结果我忘了,我最开始训练了role2模型,印象中效果很差,后来我就把role2模型删了,另外使用bilstm-crf模型来识别time、loc

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe. — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.