Open gaoxiao opened 1 year ago
embedder = create_uniem_embedder('uer/chinese_roberta_L-2_H-128', pooling_strategy='cls') tokenizer = AutoTokenizer.from_pretrained('uer/chinese_roberta_L-2_H-128')
create_uniem_embedder好像并没有清空权重, 所以和FineTuner.from_pretrained的区别, 就是可以自定义pooling_strategy?
3.10
嗯嗯,就是可以自定义 pooling_strategy 。从头训练的意思不是说从随机的权重开始训练,而是从预训练的语言模型上开始训练。
我看代码sentence transformer从头开始训练和finetune好像是一样的?除了可以重新定义pooling strategy好像没啥区别?
您的理解是对的
🐛 bug 说明
由于是从头训练,我们需要自己初始化 embedder 和 tokenizer。当然,我们也可以选择新的 pooling 策略。
embedder = create_uniem_embedder('uer/chinese_roberta_L-2_H-128', pooling_strategy='cls') tokenizer = AutoTokenizer.from_pretrained('uer/chinese_roberta_L-2_H-128')
create_uniem_embedder好像并没有清空权重, 所以和FineTuner.from_pretrained的区别, 就是可以自定义pooling_strategy?
Python Version
3.10