Open knowledgehacker opened 1 year ago
我想在ChatGLM-6B上做进一步的pretrain。 请教一下ChatGLM-6B使用的网络架构是否和GLM完全一样。 GLM论文显示,pretrain的输入应该是partA + partB。partA是将sample的text spans的每个text span用[MASK]代替得到的文本。 partB由[bos token]text span_1...[bos token]text span_n序列组成的文本。这个是input_ids。 而输出应该是partA部分全部设置为-100,partB部分是text span_1[eos token]...text span_n[eos token]序列组成的文本。这个是labels。 ChatGLM-6B的input_ids和labels的构造和GLM一样吗? 还是有自己的方式如下? 输入为partA + partB,partA与GLM一样。partB由[bos token]text span_1[eos token]...[bos token]text span_n[eos token]序列组成的文本。 输入为partA部分全部设置为-100,partB部分和输入一样。
No response
Not a bug, but a help.
- OS:CentOS - Python:3.10 - Transformers:4.28 - PyTorch: - CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
同样的疑问,插个眼.....
https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的。
Is there an existing issue for this?
Current Behavior
我想在ChatGLM-6B上做进一步的pretrain。 请教一下ChatGLM-6B使用的网络架构是否和GLM完全一样。 GLM论文显示,pretrain的输入应该是partA + partB。partA是将sample的text spans的每个text span用[MASK]代替得到的文本。 partB由[bos token]text span_1...[bos token]text span_n序列组成的文本。这个是input_ids。 而输出应该是partA部分全部设置为-100,partB部分是text span_1[eos token]...text span_n[eos token]序列组成的文本。这个是labels。 ChatGLM-6B的input_ids和labels的构造和GLM一样吗? 还是有自己的方式如下? 输入为partA + partB,partA与GLM一样。partB由[bos token]text span_1[eos token]...[bos token]text span_n[eos token]序列组成的文本。 输入为partA部分全部设置为-100,partB部分和输入一样。
Expected Behavior
No response
Steps To Reproduce
Not a bug, but a help.
Environment
Anything else?
No response