yuanxiaosc / Multiple-Relations-Extraction-Only-Look-Once

Multiple-Relations-Extraction-Only-Look-Once. Just look at the sentence once and extract the multiple pairs of entities and their corresponding relations. 端到端联合多关系抽取模型,可用于 http://lic2019.ccf.org.cn/kg 信息抽取。
https://yuanxiaosc.github.io/2019/05/28/信息抽取任务相关论文发展脉络/
346 stars 69 forks source link

subject_predicate_object_predict_output.json生成后SPO_lIST全部为空 如下所示 #4

Closed cronousbaby closed 5 years ago

cronousbaby commented 5 years ago

{"text": "《不是所有时光都微笑》是2012年7月1日光明日报出版社出版的书籍,作者是蓝瞳", "spo_list": null} {"text": "《鬼影实录2》是托德·威廉姆斯执导,布赖恩·波兰德主演的恐怖片", "spo_list": null} {"text": "”这是明朝天启年间的首辅大学士叶向高为纪念尤溪籍靖边将领詹荣逝世七十年所写的《读史吊詹角山司马》诗", "spo_list": null}

yuanxiaosc commented 5 years ago

@cronousbaby run_multiple_relations_extraction.py 的损失函数有问题 531~549 lines!。因为模型对输入都padding到512位,大多数句子都没那么长。所以需要在计算损失的时候需要把padding的部分mask掉。不然模型就把注意力集中在大多数出现的padding部分了。如果你感兴趣,欢迎pull requests

yuanxiaosc commented 5 years ago

{"text": "《不是所有时光都微笑》是2012年7月1日光明日报出版社出版的书籍,作者是蓝瞳", "spo_list": null} {"text": "《鬼影实录2》是托德·威廉姆斯执导,布赖恩·波兰德主演的恐怖片", "spo_list": null} {"text": "”这是明朝天启年间的首辅大学士叶向高为纪念尤溪籍靖边将领詹荣逝世七十年所写的《读史吊詹角山司马》诗", "spo_list": null}

已经新增了 run_multiple_relations_extraction_mask_loss.py ,对关系预测时的损失函数做了mask,实体预测时没有做mask,你可以尝试一下。

cronousbaby commented 5 years ago

好的,我训练一下,估计得跑1天。出了结果跟您说一下,主要是我的显卡显存不高 按照您的训练参数 我训练批次从32调整到了16 要不然使用32 提示OOM

------------------ 原始邮件 ------------------ 发件人: "Little star"notifications@github.com; 发送时间: 2019年7月24日(星期三) 晚上10:07 收件人: "yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once"Multiple-Relations-Extraction-Only-Look-Once@noreply.github.com; 抄送: "蘑菇小象"626827378@qq.com;"Mention"mention@noreply.github.com; 主题: Re: [yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once] subject_predicate_object_predict_output.json生成后SPO_lIST全部为空 如下所示 (#4)

{"text": "《不是所有时光都微笑》是2012年7月1日光明日报出版社出版的书籍,作者是蓝瞳", "spo_list": null} {"text": "《鬼影实录2》是托德·威廉姆斯执导,布赖恩·波兰德主演的恐怖片", "spo_list": null} {"text": "”这是明朝天启年间的首辅大学士叶向高为纪念尤溪籍靖边将领詹荣逝世七十年所写的《读史吊詹角山司马》诗", "spo_list": null}

已经新增了 run_multiple_relations_extraction_mask_loss.py ,对关系预测时的损失函数做了mask,实体预测时没有做mask,你可以尝试一下。

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

cronousbaby commented 5 years ago

{"text": "《李烈钧自述》是2011年11月1日人民日报出版社出版的图书,作者是李烈钧", "spo_list": null} {"text": "除演艺事业外,李冰冰热心公益,发起并亲自参与多项环保慈善活动,积极投身其中,身体力行担起了回馈社会的责任于02年出演《少年包青天》,进入大家视线", "spo_list": null} {"text": "马志舟,1907年出生,陕西三原人,汉族,中国共产党,任红四团第一连连长,1907年逝世", "spo_list": null} {"text": "斑刺莺是雀形目、剌嘴莺科的一种动物,分布于澳大利亚和新西兰,包括澳大利亚、新西兰、塔斯马尼亚及其附近的岛屿", "spo_list": null} {"text": "《课本上学不到的生物学2》是2013年上海科技教育出版社出版的图书", "spo_list": null} {"text": "南京京九思新能源有限公司于2015年05月15日在南京市江宁区市场监督管理局登记成立", "spo_list": null}

我跑了一下,没有使用竞赛全集,用的是您当时提供的部分训练集。spo_list还是空 感觉实体识别还是很准确的

基本信息歌曲名:一秒钟两个世界歌手:黎明专辑:Leon 北京站 [('歌曲', 9, '一秒钟两个世界'), ('人物', 19, '黎明')] (128, 128, 50)

------------------ 原始邮件 ------------------ 发件人: "Little star"notifications@github.com; 发送时间: 2019年7月24日(星期三) 晚上10:07 收件人: "yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once"Multiple-Relations-Extraction-Only-Look-Once@noreply.github.com; 抄送: "蘑菇小象"626827378@qq.com;"Mention"mention@noreply.github.com; 主题: Re: [yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once] subject_predicate_object_predict_output.json生成后SPO_lIST全部为空 如下所示 (#4)

{"text": "《不是所有时光都微笑》是2012年7月1日光明日报出版社出版的书籍,作者是蓝瞳", "spo_list": null} {"text": "《鬼影实录2》是托德·威廉姆斯执导,布赖恩·波兰德主演的恐怖片", "spo_list": null} {"text": "”这是明朝天启年间的首辅大学士叶向高为纪念尤溪籍靖边将领詹荣逝世七十年所写的《读史吊詹角山司马》诗", "spo_list": null}

已经新增了 run_multiple_relations_extraction_mask_loss.py ,对关系预测时的损失函数做了mask,实体预测时没有做mask,你可以尝试一下。

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

yuanxiaosc commented 5 years ago

@cronousbaby 今天上午我检查了一下,发现我昨晚更新的还是有些问题。我平时也只有谷歌免费的GPU可以使用,平实验室没有GPU,模型调试起来很麻烦,,,所以现在我都不得不得放弃做像bert这样的大模型了

cronousbaby commented 5 years ago

谷歌的免费GPU有时间限制,如果模型训练时间过长,它会自动断开初始化 释放掉虚拟机。 很感谢您耐心的回复我,对于机器学习、深度学习我连入门都算不上,只是根据网络和GIT搜索一些实验性质的代码验证,实体识别这块现在能看懂一些了,就是这个关系抽取一直卡着,直到看到了您的多关系抽取让我看到了希望。

------------------ 原始邮件 ------------------ 发件人: "Little star"notifications@github.com; 发送时间: 2019年7月25日(星期四) 中午12:20 收件人: "yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once"Multiple-Relations-Extraction-Only-Look-Once@noreply.github.com; 抄送: "蘑菇小象"626827378@qq.com;"Mention"mention@noreply.github.com; 主题: Re: [yuanxiaosc/Multiple-Relations-Extraction-Only-Look-Once] subject_predicate_object_predict_output.json生成后SPO_lIST全部为空 如下所示 (#4)

@cronousbaby 今天上午我检查了一下,发现我昨晚更新的还是有些问题。我平时也只有谷歌免费的GPU可以使用,平实验室没有GPU,模型调试起来很麻烦,,,所以现在我都不得不得放弃做像bert这样的大模型了

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.