deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself
https://coder.deepseek.com/
MIT License
6.85k stars 473 forks source link

某些情况下,模型会重复最后的一两句话 #28

Open duanshengliu opened 1 year ago

duanshengliu commented 1 year ago

6B和33B都存在类似问题,6B在某些情况下,也会出现类似现象

可以复现的环境:https://huggingface.co/spaces/deepseek-ai/deepseek-coder-33b-instruct

问:计算机科学知识范围很大哎

答:是的,计算机科学是一个非常广泛的领域,涵盖了许多不同的主题。以下是一些主要的计算机科学领域:

计算理论:研究计算机和计算过程的性质和行为。

计算机系统:研究计算机硬件和软件的设计、实现和应用。

网络和通信:研究计算机网络和通信系统的设计、实现和应用。

数据科学:研究如何从数据中提取有用的信息和知识。

人工智能:研究如何使计算机系统能够理解、学习和适应环境。

计算机图形学:研究计算机图形和图像的生成和处理。

软件工程:研究如何设计、实现和维护软件系统。

信息安全:研究如何保护计算机系统和网络免受攻击。

数据库:研究如何存储、检索和管理数据。

计算机视觉:研究如何使计算机系统能够理解和 interpret visual information。

计算机图形学:研究如何创建和处理图形和图像。

人机交互:研究如何使计算机系统和用户交互。

计算机网络:研究如何连接和管理计算机和网络。

计算机架构:研究计算机硬件和软件的设计和实现。

计算机语言:研究如何创建和理解计算机程序。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

自然语言处理:研究如何使计算机系统理解和生成自然语言。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

计算机视觉:研究如何使计算机系统理解和解释视觉信息。

计算机图形学:研究如何创建和处理图形和图像。

duanshengliu commented 1 year ago

可能是repetition penalty值的问题?类似 (https://github.com/InternLM/InternLM/pull/99)

soloice commented 1 year ago

我们也发现了这个问题,正在努力解决

chiquitita-101 commented 1 year ago

我们也发现了这个问题,正在努力解决

请问可能的原因有哪些呢?现在我用一些数据微调模型之后,几乎全部都是重复的字符

janfilips commented 1 year ago

I guess one really needs a good eye-sight to be able to read this. No offence, I just find it really fascinating..

soloice commented 11 months ago

我们也发现了这个问题,正在努力解决

请问可能的原因有哪些呢?现在我用一些数据微调模型之后,几乎全部都是重复的字符

一般来说是训练不充分。另外如果 SFT 数据集规模太小也会出现这种情况。

hyperbolic-c commented 8 months ago

在1.3B的gguf量化模型上也出现这个问题,并且几乎每个问答都会出现。

image