Closed allmors closed 8 months ago
Welcome to submit an issue for x-crawl for the first time
这里 const { browser, page } = res.data
获取得到 data 吗
这里
const { browser, page } = res.data
获取得到 data 吗
linux获取不到的,我抛异常了,大致知道问题出在哪,x-crawl依赖puppeteer,安装的时候不安装chrome,但是我看puppeteer这里说的是会自动安装,我也尝试曲线救国安装了pnpm i puppeteer
让它自动安装chrome,但是还是无法正常使用x-crawl
现在我打算手动安装chrome-linux64试试
14:29-补充说明
:
(已经是root权限)手动安装了一些列依赖,现在报一个错误 Running as root without --no-sandbox is not supported.
,问题源:https://crbug.com/638180,按照pptr的用法,const browser = await puppeteer.launch({ args: ['--no-sandbox'] });
,x-crawl支持设置这个吗,我看api文档没提到
有 https://github.com/coder-hxl/x-crawl/blob/main/docs/cn.md#xcrawlconfig
看这里 puppeteerLaunch 选项
import xCrawl from 'x-crawl'
const myXCrawl = xCrawl({ crawlPage: { puppeteerLaunch: { args: ['--no-sandbox'] } })
import xCrawl from 'x-crawl' const myXCrawl = xCrawl({ crawlPage: { puppeteerLaunch: { args: ['--no-sandbox'] } })
是的,我就是这样的,感谢解答,可以使用了
@allmors ok,可以用了那我就关闭这个 Issues 了
下一个版本这个 puppeteerLaunch 会变成 puppeteerLaunchOptions 得注意一下,加入了 AI 后会有很多东西发生改变。
下一个版本这个 puppeteerLaunch 会变成 puppeteerLaunchOptions 得注意一下,加入了 AI 后会有很多东西发生改变。
加入的AI是收费模式还是说开放的,我们自己根据ai平台调api?
要用到 openai 的 APIKey ,底层是对 openai 进行了封装。openai 的 APIKey 也有免费的渠道,到时候我也会在文档那发出来。
目前这几个方法已经实现了,后续可能加入更多。
想详细了解可以看看这里 https://github.com/coder-hxl/x-crawl/tree/embracingAI/packages/ai
@allmors 这是个小示例,让 AI 帮你快速提取一些想要的内容
传给 AI 的 HTML :
结果:
{
elements: [
{
src: 'https://z1.muscache.cn/im/pictures/miso/Hosting-45937791/original/c67d32ed-21eb-4066-8cef-650dcd45bada.jpeg?aki_policy=large' },
{
src: 'https://z1.muscache.cn/im/pictures/df3493cf-39b2-46cc-9e85-7ef186980f25.jpg?aki_policy=large'
},
{
src: 'https://z1.muscache.cn/im/pictures/52d375d3-5e54-444b-8186-15e61a592d9a.jpg?aki_policy=large'
}
],
type: 'multiple'
}
也可以将整个 HTML 传给 AI 帮我们操作,但是会消耗更多 Tokens
Bug 预期
希望能够正常返回数据
最小可重复的例子
报错信息
无报错,无结果返回
x-crawl 版本
latest
Node 版本
20.9.0
包管理器
pnpm
包管理器版本
latest