Closed siegrainwong closed 2 weeks ago
cuda: 12.6 transformer: 4.44.0 OS: win10 python: 3.11.4 ollama: 0.3.8 & 0.2.3 配置: RTX3090 12700kf
No response
只要我不点停就会一直写下去,没在别的model上发现过这种情况(gemma2-7b\ yi-9b),根据以往记录下了0.2.3的ollama但响应差不多
0.2.3
跑原模型时挺正常
https://github.com/THUDM/GLM-4/issues/323 https://github.com/THUDM/GLM-4/issues/333
开过flash attention,不起作用
System Info / 系統信息
cuda: 12.6 transformer: 4.44.0 OS: win10 python: 3.11.4 ollama: 0.3.8 & 0.2.3 配置: RTX3090 12700kf
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
Reproduction / 复现过程
只要我不点停就会一直写下去,没在别的model上发现过这种情况(gemma2-7b\ yi-9b),根据以往记录下了
0.2.3
的ollama但响应差不多Expected behavior / 期待表现
跑原模型时挺正常