Open hypergraphUniverse opened 1 year ago
2023年2月9日重新测试时,认为在一些小众问题上的回答有所改良,例如“什么函数处处连续但处处不可导?(Weierstrass函数)”或者欧拉角叠加问题。
发现一个可能存在的有趣现象:如果提问和维基百科相关内容相似(需要验证是否一定和维基百科相关),则会正确触发答案。如果采取了等价的提问方式,则可能会开始进行胡言乱语。 (正确答案) (等价提问,丢失实数域任何点这个条件,稳定复现)
AI的黑盒性质,使得其很难证明其正确的完备性。这类模型在回答或理解专业问题上仍然任重而道远。
补充对于欧拉角的测试: (正确答案) (删除掉“直接”“三个”等看似无关的关键词)
按照我目前的理解,chatGPT并没有像是人类学习一般“理解”欧拉角这个概念的定义。 人类正确的学习思考模式,如果不知道直接答案,应该是回忆欧拉角的定义,然后根据定义进行推导。但是chatGPT的逻辑推理能力应当非常弱,在面对上述问题的时候,更多的是在背诵答案(如果稍微触发到了背到的知识点,则开始背,没有触发到则开始胡乱立论)。
另外:不过人类学习的时候如果没学进去,也会有这样的现象,不必过于苛责。但是chatGPT目前明显没有在执行逻辑推理,也许逻辑推理是这类模型的一个改良方向。对于现在机器人的QQ聊天应用,胡言乱语也没有太好的方法。
20230311补充: chatgpt-3.5的对胡言乱语的修正好得多了,经过很多高强度测试和钓鱼,效果比davinci的模型好得多。 但是另外一个方面这个模型对于人设的把控较弱(容易忘记人设),以及一些限制级话题会被更强烈地发现并且阻止,不过十分之一的价格还是很诱人的。
请求动机 chatGPT相关的模型在面对不确定的名词时,会胡乱编造内容。另外,对于有一些问题的答案,chatGPT也会自信地给出一个看似正确实则错误的答案。
样本:
方法描述 OpenAI官方描述了用于阻止模型胡言乱语的一种可能方法 Factual-responses。另外,调低随机性相关参数也有降低胡言乱语的可能性。但是经过实测,这类示范通常会陷入如下两个极端之一,很难寻找到平衡点。
而且重启机器人后,机器人很可能会在下面两个状态中随机选择一个。提示词示范似乎在此控制能力不足。
可能需要在这个问题上继续跟踪。
(上述内容测试发生在约2023年1月份)