hy-struggle / PRGC

PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction
105 stars 16 forks source link

Chinese field #20

Open xddd-ys opened 1 year ago

xddd-ys commented 1 year ago

Does the model support Chinese triplet extraction? thanks for your reply

xddd-ys commented 1 year ago

你好,我没再继续用这个模型了

xuxdong108

@. | 签名由网易邮箱大师定制 On 6/12/2023 @.> wrote:

我也好奇 请问你解决了吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

xddd-ys commented 1 year ago

目前就传统的BERT+BiLSTM模型做的

xuxdong108

@. | 签名由网易邮箱大师定制 On 6/12/2023 @.> wrote:

你好,我没再继续用这个模型了

xuxdong108

@. | 签名由网易邮箱大师定制 On 6/12/2023 @.> wrote:

我也好奇 请问你解决了吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

你好 我想请问您现在使用的是什么模型来处理中文的训练集做关系抽取呢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

githubgtl commented 11 months ago

when I change the data into chinese, I found its effect perform badly

khazic commented 11 months ago

when I change the data into chinese, I found its effect perform badly

我也发现了

githubgtl commented 10 months ago

when I change the data into chinese, I found its effect perform badly

我也发现了

你解决了嘛

khazic commented 10 months ago

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

githubgtl commented 10 months ago

只有2.1

githubgtl commented 10 months ago

我就修改了它的模型换成了bert-wwm,然后把数据集换成中文的

githubgtl commented 10 months ago

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

可以给我看看你改的源码嘛,

258508 commented 10 months ago

我也在用这个模型做中文的关系抽取,我们三个能交流一下吗?

githubgtl commented 10 months ago

我也在用这个模型做中文的关系抽取,我们三个能交流一下吗?

可以啊 我的qq是2813397632

khazic commented 10 months ago

可以

githubgtl commented 10 months ago

可 我加您还是您加我,我qq在上面

258508 commented 10 months ago

我的qq是2585081745

zjutnlper commented 3 months ago

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

你好,想搞中文的要怎么整,只要换个预训练吗,我换个直接爆显存了

zjutnlper commented 3 months ago

我改了源代码 你说的差是有多差 我目前测出来 中文的f1在71左右

可以给我看看你改的源码嘛,

你好,想用自己的中文数据集应该怎么改源码呢,我就换了个预训练,效果特别差

khazic commented 3 months ago

主要是tokenizer部分

zjutnlper commented 3 months ago

主要是tokenizer部分

那块怎么了吗,源码就调用了huggingface那个接口,没看出啥不合理,请指教大佬

khazic commented 3 months ago

太久远了 记不大清楚了 英文的token跟中文的token不同 你直接换模型 bert-large肯定适配不了很好的chinese啊 每个模型有他自己的vocabulary

zjutnlper commented 3 months ago

太久远了 记不大清楚了 英文的token跟中文的token不同 你直接换模型 bert-large肯定适配不了很好的chinese啊 每个模型有他自己的vocabulary

我是换了预训练模型的,bert-Chinese这个,效果确实不好

khazic commented 3 months ago

我的意思 不是模型不好 是每个模型的tokenizer就不一样 他的源码是英文的编码逻辑 你现在换中文的 肯定不行的 你得把tokenizer换成是中文的那种分词逻辑才行的

zjutnlper commented 3 months ago

我的意思 不是模型不好 是每个模型的tokenizer就不一样 他的源码是英文的编码逻辑 你现在换中文的 肯定不行的 你得把tokenizer换成是中文的那种分词逻辑才行的

大佬,那该怎么改,无经验

258508 commented 2 months ago

我的中文训练集是800条,处理完送入训练变成1221条了,这是为什么?