-
### Checked other resources
- [X] I added a very descriptive title to this issue.
- [X] I searched the LangChain documentation with the integrated search.
- [X] I used the GitHub search to find a…
-
### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
- [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions
### 该问题是否在FAQ中有解答? | Is there an existing…
-
设置每50个step保存一次模型,但是貌似只保存了优化器的状态,每个xx_optim_states.pt文件是16G,yy_model_states.pt文件只有404k,请问是什么原因?以及tokenizer.json、config.json等文件怎么设置保存?
bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
bf16_zero_pp_ran…
-
**例行检查**
[//]: # '方框内填 x 表示打钩'
- [x] 我已确认目前没有类似 issue
- [x] 我已完整查看过项目 README,以及[项目文档](https://doc.fastgpt.in/docs/intro/)
- [x] 我使用了自己的 key,并确认我的 key 是可正常使用的
- [x] 我理解并愿意跟进此 issue,协助测试和提供反馈
…
-
qwen1.5-1.8b用cpu推理效果变差,出现乱码或不按微调后结构输出的情况。
-
-
### 是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
- [X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions
### 该问题是否在FAQ中有解答? | Is there an existing ans…
-
### OpenVINO Version
openvino24.1
### Operating System
Ubuntu 20.04 (LTS)
### Device used for inference
CPU
### Framework
None
### Model used
LLM : qwen
### Issue description
I want to get …
-
@JustinLin610
[博客](https://qwenlm.github.io/zh/blog/qwen-moe/)里面提到“我们首先利用已有的Qwen-1.8B,将其改造为Qwen1.5-MoE-A2.7B。此外,在初始化阶段引入随机性可以显著加快收敛速度,并在整个预训练过程中带来更好的整体性能表现”。有两个问题想请教下:
1. 是不是先按照Qwen1.5-1.8B的interme…
pkumc updated
4 months ago
-