THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
Apache License 2.0
40.47k stars 5.19k forks source link

紧急!!!chatglm-6b的continuous pretrain #1277

Open knowledgehacker opened 1 year ago

knowledgehacker commented 1 year ago

Is there an existing issue for this?

Current Behavior

我想在ChatGLM-6B上做进一步的pretrain。 请教一下ChatGLM-6B使用的网络架构是否和GLM完全一样。 GLM论文显示,pretrain的输入应该是partA + partB。partA是将sample的text spans的每个text span用[MASK]代替得到的文本。 partB由[bos token]text span_1...[bos token]text span_n序列组成的文本。这个是input_ids。 而输出应该是partA部分全部设置为-100,partB部分是text span_1[eos token]...text span_n[eos token]序列组成的文本。这个是labels。 ChatGLM-6B的input_ids和labels的构造和GLM一样吗? 还是有自己的方式如下? 输入为partA + partB,partA与GLM一样。partB由[bos token]text span_1[eos token]...[bos token]text span_n[eos token]序列组成的文本。 输入为partA部分全部设置为-100,partB部分和输入一样。

Expected Behavior

No response

Steps To Reproduce

Not a bug, but a help.

Environment

- OS:CentOS
- Python:3.10
- Transformers:4.28
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

sigmundchen commented 1 year ago

同样的疑问,插个眼.....

tomcat123a commented 1 year ago

https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的。