使用molmo模型,在ComfyUI中实现图片描述,分析图片内容。可以把图片转文本的结果作为提示词生成图片。
在ComfyUI的管理器中搜索并安装"ComfyUI-Molmo"。
或者,也可以手动克隆此仓库到ComfyUI的custom_nodes
目录:
git clone https://github.com/CY-CHENYUE/ComfyUI-Molmo.git
重启ComfyUI。
依赖安装:
模型下载:
注意:初次使用时,由于需要下载模型和安装依赖,启动时间可能会较长。后续使用将会更快。
安装后,您可以在ComfyUI的节点菜单的"Molmo"类别中找到"Molmo 7B D bnb 4bit"节点。
image
: 要描述或分析的输入图像prompt_type
: 选择"Describe"进行一般描述或"Detailed Analysis"进行更全面的分析custom_prompt
: 可选。如果提供,将覆盖选定的prompt_typeseed
: 用于可重现性的种子max_new_tokens
: 生成的最大标记数temperature
: 控制生成的随机性top_k
: 限制下一个词选择的词汇表top_p
: 核采样参数unload_model_after_generation
: 选择是否在生成后自动卸载模型以释放GPU内存STRING
: 生成的描述或分析https://github.com/user-attachments/assets/173f44b2-ecc2-4218-b774-ce8aaa96d060
unload_model_after_generation
选项可以在生成后释放GPU内存,但可能会增加下次使用时的加载时间模型使用基于Molmo 7B-D的量化版本,可以降低显存的使用。
欢迎贡献!请随时提交Pull Request.