wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
813 stars 61 forks source link

create_uniem_embedder是否是从头训练? #79

Open gaoxiao opened 1 year ago

gaoxiao commented 1 year ago

🐛 bug 说明

由于是从头训练,我们需要自己初始化 embedder 和 tokenizer。当然,我们也可以选择新的 pooling 策略。

embedder = create_uniem_embedder('uer/chinese_roberta_L-2_H-128', pooling_strategy='cls') tokenizer = AutoTokenizer.from_pretrained('uer/chinese_roberta_L-2_H-128')

create_uniem_embedder好像并没有清空权重, 所以和FineTuner.from_pretrained的区别, 就是可以自定义pooling_strategy?

Python Version

3.10

wangyuxinwhy commented 1 year ago

嗯嗯,就是可以自定义 pooling_strategy 。从头训练的意思不是说从随机的权重开始训练,而是从预训练的语言模型上开始训练。

yjdy commented 1 year ago

我看代码sentence transformer从头开始训练和finetune好像是一样的?除了可以重新定义pooling strategy好像没啥区别?

wangyuxinwhy commented 1 year ago

您的理解是对的