juntaoy / biaffine-ner

Named Entity Recognition as Dependency Parsing
Apache License 2.0
347 stars 40 forks source link

关于数据集问题 #23

Open yangkm601v1 opened 3 years ago

yangkm601v1 commented 3 years ago

你好,你的idea和代码写得太赞,但是我在构建训练集的时候出现了问题,所以想问一下,能不能提供一下你那边已经处理好的数据集呢?

juntaoy commented 3 years ago

你是需要那些数据集?主要是由于版权问题我没法把处理好的数据集直接贴在网上。只要你有所需要数据集的原版我就可以发给你处理好的文件了:)

yangkm601v1 commented 3 years ago

能不能私发我一份了,我就看一下数据格式,然后自己用公司数据做,可以吗?太感谢了。------------------ 原始邮件 ------------------ 发件人: "Juntao&nbsp;Yu"<notifications@github.com> 发送时间: 2021年2月7日(星期天) 下午4:50 收件人: "juntaoy/biaffine-ner"<biaffine-ner@noreply.github.com>; 抄送: "yangkm601v1"<1376129492@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23)

juntaoy commented 3 years ago

没问题,邮箱给我下

yangkm601v1 commented 3 years ago

这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: "Juntao&nbsp;Yu"<notifications@github.com> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: "juntaoy/biaffine-ner"<biaffine-ner@noreply.github.com>; 抄送: "yangkm601v1"<1376129492@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23)

silence-96 commented 3 years ago

没问题,邮箱给我下

您好,我也需要一份数据,做研究,我是一名学生,可以将数据集也发我一份吗

silence-96 commented 3 years ago

2531785169@qq.com,感谢您

LiamLiu41 commented 3 years ago

您好,请问测试集可以分享一下吗?1053450369@qq.com

mjy1111 commented 3 years ago

您好,请问可以发我一份conll2003德语数据集(BIO格式)吗?谢谢!我的邮箱是542644086@qq.com

juntaoy commented 3 years ago

原版数据集你需要去找LDC买的,我不能直接发给你。

LindgeW commented 3 years ago

@juntaoy 你好,我有原版的英文ontonotes5的LDC数据集,请问能发一份处好的ontonotes5.0的ner数据集吗(conll格式)?想跑下您论文的结果 我的邮箱: tjuwlz2020@163.com

juntaoy commented 3 years ago

我没有把ontonotes转换成conll03 BIO的格式,我是从Conll2012 corefernce的格式转换过来的,如果需要conll2012格式可以参考 https://github.com/kentonl/e2e-coref

87302380 commented 2 years ago

我没有把ontonotes转换成conll03 BIO的格式,我是从Conll2012 corefernce的格式转换过来的,如果需要conll2012格式可以参考 https://github.com/kentonl/e2e-coref

您好,最近我在复现该模型的过程中遇到了一些疑惑。 对于CONLL 2003这种使用BIO格式标注的数据集,数据的真实标签(示例数据格式中的ners)该如何处理? 例如句子: Spanish Farm Minister Loyola de Palacio had earlier accused Fischler. S-MISC O O B-PER I-PER E-PER O O O S-PER 是处理成 [0, 0, S-MISC ], [3, 3, B-PER], [4, 4, I-PER], [5, 5, E-PER], [9, 9, S-PER]. 还是 [0, 0, MISC ], [3, 5, PER], [9, 9, PER]. 期待您的回复!

lzf00 commented 2 years ago

您能发一份中文示例数据给我吗,我想用自己的中文数据做实验,但是不清楚具体的数据格式,感谢

lzf00 commented 2 years ago

这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: "Juntao&nbsp;Yu"<notifications@github.com> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: "juntaoy/biaffine-ner"<biaffine-ner@noreply.github.com>; 抄送: "yangkm601v1"<1376129492@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23)

可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢!

juntaoy commented 2 years ago

我没有用中文的数据做实验,不过格式是一样的只是把英文换成中文而已

On 3 Sep 2022, at 03:52, lzf1024 @.***> wrote:

 这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: @.> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: @.>; 抄送: @.**@.>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23)

可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

lzf00 commented 2 years ago

我没有用中文的数据做实验,不过格式是一样的只是把英文换成中文而已 On 3 Sep 2022, at 03:52, lzf1024 @.> wrote:  这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: @.> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: @.>; 抄送: @*.**@*.***>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23) 可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

image 就是这样的格式,然后比如batch为8,doc_key里面就放8个句子吗

juntaoy commented 2 years ago

对的

On 3 Sep 2022, at 09:19, lzf1024 @.***> wrote:

 我没有用中文的数据做实验,不过格式是一样的只是把英文换成中文而已 … On 3 Sep 2022, at 03:52, lzf1024 @.> wrote:  这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: @.> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: @.>; 抄送: @.@.***>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23) 可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

就是这样的格式,然后比如batch为8,doc_key里面就放8个句子吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

scofield687 commented 9 months ago

您好,请问能发我一份处理好的数据集嘛,我想看下数据集的格式,然后处理自己的数据集,邮箱是tommyscofield@qq.com,非常感谢!