DaoCloud / DaoCloud-docs

DaoCloud Enterprise 5.0 Documentation
https://docs.daocloud.io
Apache License 2.0
181 stars 202 forks source link

文档站 ChatBot Roadmap, 含候选方案,可点赞投票 #5778

Open windsonsea opened 3 weeks ago

windsonsea commented 3 weeks ago

排期 Schedule

目前大家倾向于使用自己的产品 d.run/dak,争取 11 月上线 ChatBot。

参见 PR #5870 和预览

Roadmap

后续维护

gitauto-ai[bot] commented 3 weeks ago

Click the checkbox below to generate a PR!

@windsonsea, You have 5 requests left in this cycle which refreshes on 2024-11-06 09:22:09+00:00. If you have any questions or concerns, please contact us at info@gitauto.ai.

windsonsea commented 1 week ago

方案一:扣子

https://www.coze.cn/

参阅 PR #5866 和 预览

image

windsonsea commented 1 week ago

方案二:chatwith

https://chatwith.tools/

参见 PR #5776 和预览

image

windsonsea commented 1 week ago

方案三:d.run/dak

https://console.d.run/dak/

参见 PR #5870 和 预览

image

windsonsea commented 1 week ago

方案三的补充:借助一些工具 aitools

整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。

aitools 的安装方式之一:

# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本
docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)

image

说明:

samzong commented 1 week ago
  1. 方案三考虑也迁入到 dce 内,做个效果,先简单手工做几个文档
  2. 可以考虑从整体使用过程,和咱们需要的功能做个横向对比,like 参数表
Zhuzhenghao commented 1 week ago

方案三:d.run/dak

https://console.d.run/dak/

  • 自己的产品自主可控,打磨使用可促进完善
  • 需要手动拆分数据(2000+ markdown 文件)
  • 智能体后期怎么与网站同步?
  • 需要前端 Web 参与,或增加一个 iframe 插件

参见预览

image

  1. 数据可以使用粗略的分片,一个文件就是一个分片,使用上下文 128K 的模型,先出一个MVP
  2. 文档站更新后,需要更新语料库

PS:可以打磨公司产品,积累场景解决方案 image

Zhuzhenghao commented 1 week ago

方案三的补充:借助一些工具 aitools

整理文件时,手工对文件进行打标签是无法避免的,打好标签后,可以直接运行脚本将word文档或者xlsx文档直接转出成标准的zip格式导入智能体应用。

aitools 的安装方式之一:

# 实际使用镜像方式,注意 linux 适用 4.1 版本,如果是 mac 请使用 3.1 版本
docker run -p 8888:8888 -e JUPYTER_TOKEN=[请替换成你需要的token] [registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1](http://registry.cn-shanghai.aliyuncs.com/clipper/aitools:3.1)

image

说明:

  • 需要有一定后端基础,用镜像等方式部署工具
  • 借助 python 等脚本批量处理 markdown、docx、xlsx
  • 然后喂给 d.run 知识库
  • 同样问题:怎么能跟网站保持同步?每次都手动吗?

线上已经部署好这个工具,https://console.d.run/ai-tools/lab

Zhuzhenghao commented 1 week ago
  • 去除所有图片

为啥要去除图片?

samzong commented 1 week ago
  • 去除所有图片

为啥要去除图片?

这个是我想的,问答最后还是引流到对应的文档即可,不需要图片。