wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
829 stars 64 forks source link

请问作者是否有兴趣做一个中文数据集的在线benchmark #67

Closed hjq133 closed 1 year ago

hjq133 commented 1 year ago

是否可以仿照英文的MTEB-leaderboard: https://huggingface.co/spaces/mteb/leaderboard。 在huggingface上建立一个中文相关数据集的在线榜单。 这样应该也能有助于提高您工作的一些影响力。

wangyuxinwhy commented 1 year ago

确实有这样的兴趣!但苦于目前收集到的可供使用的评测集有些少,所以一直没能完成。

hjq133 commented 1 year ago

确实,感觉目前中文评测集确实太少了,覆盖面不够广泛,即使放上去也缺乏说服力。

wangyuxinwhy commented 1 year ago

嗯嗯,确实很棘手,只能一步一步来,评测肯定是重中之重,但目前社区的兴趣都在 LLM,所以 Embedding 的评测就没有引起重视。