binary-husky / gpt_academic

为GPT/GLM等LLM大语言模型提供实用化交互接口,特别优化论文阅读/润色/写作体验,模块化设计,支持自定义快捷按钮&函数插件,支持Python和C++等项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持chatglm3等本地模型。接入通义千问, deepseekcoder, 讯飞星火, 文心一言, llama2, rwkv, claude2, moss等。
https://github.com/binary-husky/gpt_academic/wiki/online
GNU General Public License v3.0
64.36k stars 7.96k forks source link

[Bug]: 使用PDF翻译功能出现大量“截断重试” #1822

Open Zoumachuan opened 4 months ago

Zoumachuan commented 4 months ago

Installation Method | 安装方法与平台

Pip Install (I used latest requirements.txt)

Version | 版本

Latest | 最新版

OS | 操作系统

Linux

Describe the bug | 简述

在进行PDF翻译时成功被DOC2X读取,但在翻译过程中由于未知原因(可能是文章裁切)使得翻译过程出现大量截断重试,且每次截断重试都从头开始,如此循环往复消耗了我大量的token且没有正确的翻译结果。

Screen Shot | 有帮助的截图

微信截图_20240523141553

Terminal Traceback & Material to Help Reproduce Bugs | 终端traceback(如有) + 帮助我们复现的测试材料样本(如有)

No response

Zoumachuan commented 4 months ago

实际上,我认为这个截断的功能并没有发挥作用,根据观察似乎2048的token依旧被裁剪为2048的token。因此在修改了“批量Markdown翻译.py”中的max_token_limit后方能使用。个人使用的是第三方api的GPT-4o模型,目前正在和上游确认最大输出token是多少。如果你的第三方api也出现了同样的问题,可以尝试使用这个方法。 pfg.run_file_split(max_token_limit=1024) n_split = len(pfg.sp_file_contents)