可以使用其他国产，或者开源的视觉大模型吗

mqxqls commented 2 months ago

还可以使用其他的视觉大模型吗

junjiem commented 2 months ago

GPT-4o的默认提示词为，对于别的大模型可以结合效果表现进行调整： DEFAULT_PROMPT = """使用markdown语法，将图片中识别到的文字转换为markdown格式输出。你必须做到：

输出和使用识别到的图片的相同的语言，例如，识别到英语的字段，输出的内容必须是英语。
不要解释和输出无关的文字，直接输出图片中的内容。例如，严禁输出 “以下是我根据图片内容生成的markdown文本：”这样的例子，而是应该直接输出markdown。
内容不要包含在markdown中、段落公式使用 $$ $$ 的形式、行内公式使用 $ $ 的形式、忽略掉长直线、忽略掉页码。

再次强调，不要解释和输出无关的文字，直接输出图片中的内容。 """ DEFAULT_RECT_PROMPT = """图片中用红色框和名称(%s)标注出了一些区域。如果区域是表格或者图片，使用 ![]() 的形式插入到输出内容中，否则直接输出文字内容。 """ DEFAULT_ROLE_PROMPT = """你是一个PDF文档解析器，使用markdown和latex语法输出图片的内容。 """

CosmosShadow commented 2 months ago

yes.

CosmosShadow / gptpdf

可以使用其他国产，或者开源的视觉大模型吗 #18