Open tcoln opened 1 week ago
好的,我们这边看一下
我先用了qwen2模型做分类,数据集是:https://huggingface.co/datasets/knowledgator/Scientific-text-classification 使用deepspeed进行训练,
loss是正常的:
后续我再去试试telechat-7b,到时候给你反馈。
这是来自QQ邮箱的假期自动回复邮件。 您好,我最近正在休假中,无法亲自回复您的邮件。我将在假期结束后,尽快给您回复。
尝试在星辰开源代码库中的modeling_telechat添加TelechatForSequenceClassification方法类(分别参照qwen和星辰自己代码),会分别出现无法加载模型的错误和训练损失不下降的情况。需要AI公司帮忙一起看看怎么支持AutoModelForSequenceClassification任务。
class TelechatForSequenceClassification_tele(TelechatPreTrainedModel):
_tied_weights_keys = ["lm_head.weight"]
class TelechatForSequenceClassification_qwen(TelechatPreTrainedModel): def init(self, config): super().init(config) self.num_labels = config.num_labels self.model = TelechatModel(config) self.score = nn.Linear(config.hidden_size, self.num_labels, bias=False)
加载模型的代码如下: