HITsz-TMG / Hansel

Code and data of WSDM 2023 paper "Hansel: A Chinese Few-Shot and Zero-Shot Entity Linking Benchmark".
https://dl.acm.org/doi/10.1145/3539597.3570418
20 stars 1 forks source link

About code #1

Closed WUZHIWEI2000 closed 7 months ago

WUZHIWEI2000 commented 1 year ago

I saw the paper and think it's good. I want to see the code about this paper. Can you share the code? Best

imryanxu commented 1 year ago

Hi!

We have just finished preparing the paper's camera ready version and are still working on the release of codes and models.

Thanks for your interest. Feel free to let me know if you have any other suggestion or question.

PS: Lately we released the training and validation data of Hansel, which might be helpful for training your own Chinese entity linking system! 🙌

All the best, Ryan

WUZHIWEI2000 commented 1 year ago

你好,我想知道如果使用双编码器分别对知识库中实体和句子中的实体训练的话,知识库是entity和desc,句子是left+entity+right,请问这个数据集中如何训练知识库中的实体?我想在hansel-train数据集中训练,在hansel-zero-shot上进行测试。hansel-train好像只有句子,并没有知识库?望请解答,跪谢

心飞广宇落故土 @.***

 

------------------ 原始邮件 ------------------ 发件人: "HITsz-TMG/Hansel" @.>; 发送时间: 2022年12月20日(星期二) 晚上9:28 @.>; @.**@.>; 主题: Re: [HITsz-TMG/Hansel] About code (Issue #1)

Hi!

We have just finished preparing the paper's camera ready version and are still working on the release of codes and models.

Thanks for your interest. Feel free to let me know if you have any other suggestion or question.

PS: Lately we released the training and validation data of Hansel, which might be helpful for training your own Chinese entity linking system! 🙌

All the best, Ryan

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

imryanxu commented 1 year ago

抱歉久等了,我们这边也通过解析中文维基整理了一个知识库,包括每个实体的title和desc(维基页面的第一段),可以在这里下载。

WUZHIWEI2000 commented 1 year ago

您好,我最近尝试从GitHub上的BLINK代码从英文数据集迁移到中文数据集上。BERT也使用的是bert_base_chinese,但是我有一个问题:英文数据集是按空格分词后放入BERT中进行训练的。那么中文数据集该怎么办呢?我尝试用中文的Bert_tokenizer分词,发现是按照一个一个字进行分词的,但是这种分词的方法明显对中文是不适合的。所以我想问一下您的模型中应用中文数据集的话,在第一阶段bi-encoder的训练中,中文数据集是如何分词的?

Message ID: @.***>

WUZHIWEI2000 commented 1 year ago

您好,我最近尝试从GitHub上的BLINK代码从英文数据集迁移到中文数据集上。BERT也使用的是bert_base_chinese,但是我有一个问题:英文数据集是按空格分词后放入BERT中进行训练的。那么中文数据集该怎么办呢?我尝试用中文的Bert_tokenizer分词,发现是按照一个一个字进行分词的,但是这种分词的方法明显对中文是不适合的。所以我想问一下您的模型中应用中文数据集的话,在第一阶段bi-encoder的训练中,中文数据集是如何分词的?

我时刻在关注您的论文情况,麻烦加一个好友吗?我有许多是关于实体链接的问题想咨询。

Message ID: @.***>

imryanxu commented 1 year ago

我们没有对tokenizer进行改动,tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese"),以字为粒度进行切分。

更多问题可以通过 邮件 联系我/私聊加好友。

chrislouis0106 commented 1 year ago

哈工深的朋友,您好,看到了您们基于BLINK代码优化后的优秀工作。我们想根据这个项目向您们请教下,通常我们做EL工作是假定图谱完全正确,这里您们考虑了NIL情形,即句子可能不能mapping到某个实体,实体不存在KG中,想要请问您们是如何做到这一点的,当然也很期待您们论文接收后发布Hansel模型源码

-- 祝好!

imryanxu commented 1 year ago

你好!关于判断是否为NIL,在论文5.3节With-NIL Evaluation里,我们用别名表AT-base召回top-10 candidates,如果每个candidate的score都很低(注意这里的score没有经过softmax,设置的阈值为0.1),那我们就认为应该对应到NIL。

目前也有更多关于NIL Entity Linking的文章:

Hansel所有数据已经发布,抱歉代码拖了很久很久很久,代码一直没整理,我尽快,8月这段时间忙完就传

vlaks425 commented 1 year ago

感谢您和您的团队为我们带来这么牛逼的工作! 期待您公开相关代码和模型

WangYuhang123 commented 1 year ago

您好,感谢您带来如此棒的工作,论文中关于NIL的定义有些疑问希望能请教您:当文本中信息量不足以消歧时,是否链接到top1的候选中呢。例如:我今天买了一把[伞]。这里的伞在候选实体中有:遮阳伞、雨伞。似乎选哪个都有歧义。请问在这种情况下,您是如何定义的,选择一个频次较高的候选,还是链接到NIL呢。期待您的回复,万分感谢!