[Bug]: 使用PDF翻译功能出现大量“截断重试”

binary-husky / gpt_academic

为GPT/GLM等LLM大语言模型提供实用化交互接口，特别优化论文阅读/润色/写作体验，模块化设计，支持自定义快捷按钮&函数插件，支持Python和C++等项目剖析&自译解功能，PDF/LaTex论文翻译&总结功能，支持并行问询多种LLM模型，支持chatglm3等本地模型。接入通义千问, deepseekcoder, 讯飞星火, 文心一言, llama2, rwkv, claude2, moss等。

https://github.com/binary-husky/gpt_academic/wiki/online

GNU General Public License v3.0

64.36k stars 7.96k forks source link

[Bug]: 使用PDF翻译功能出现大量“截断重试” #1822

Open Zoumachuan opened 4 months ago

Zoumachuan commented 4 months ago

Installation Method | 安装方法与平台

Pip Install (I used latest requirements.txt)

Version | 版本

Latest | 最新版

OS | 操作系统

Linux

Describe the bug | 简述

在进行PDF翻译时成功被DOC2X读取，但在翻译过程中由于未知原因（可能是文章裁切）使得翻译过程出现大量截断重试，且每次截断重试都从头开始，如此循环往复消耗了我大量的token且没有正确的翻译结果。

Screen Shot | 有帮助的截图

微信截图_20240523141553

Terminal Traceback & Material to Help Reproduce Bugs | 终端traceback（如有） + 帮助我们复现的测试材料样本（如有）

No response

Zoumachuan commented 4 months ago

实际上，我认为这个截断的功能并没有发挥作用，根据观察似乎2048的token依旧被裁剪为2048的token。因此在修改了“批量Markdown翻译.py”中的max_token_limit后方能使用。个人使用的是第三方api的GPT-4o模型，目前正在和上游确认最大输出token是多少。如果你的第三方api也出现了同样的问题，可以尝试使用这个方法。 pfg.run_file_split(max_token_limit=1024) n_split = len(pfg.sp_file_contents)