Open sandro-qiang opened 4 months ago
有兴趣提交代码修复这个问题吗?
明天我抽时间看下,如果能解决我发pr。
界面launch的时候,Additional parameters passed to the inference engine
增加logits_all为true就可以了,不用改代码,另外llama-cpp-python把logits_all标记了deprecated了,现在也没必要动它。
system prompt不生效是因为gemma-2本身就不支持system prompt,不是bug。
This issue is stale because it has been open for 7 days with no activity.
System Info / 系統信息
NVIDIA-SMI 555.52.04 Driver Version: 555.52.04 CUDA Version: 12.5 Ubuntu 22.04
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
Version info / 版本信息
0.13.2
The command used to start Xinference / 用以启动 xinference 的命令
xinference-local -H '0.0.0.0'
Reproduction / 复现过程
gemma-2-it, gguf格式, q4-k-m
Expected behavior / 期待表现
用langflow的openai节点,估计是因为他默认调用时候logprobs不为None,然后xinference创建context时候logits_all=False。建议对于不同的模型后端检查下openai传递的参数。下面是调用栈。
另外,llama.cpp引擎无法设置system_prompt,设置了不生效。