Open linopluss opened 2 days ago
site 里面直接填二级域名
site 里面直接填二级域名
感谢您的回复,我已经尝试使用二级域名,但是还是抓取到了网站的所有内容。例如,抓取到了https://news.yahoo.com/fr/下的内容,我只想抓取澳洲的内容,不想抓取法国的内容, 有什么办法可以实现吗?
以下是log,这是我设置的另一个二级域名,目标要抓取的是https://www.midea.com/AU/ 下的内容,
实际抓取到了 https://www.midea.com/us/ https://www.midea.com/de//
2024-11-15 12:12:07 core-1 | 2024-11-15 01:12:07.490 | DEBUG | insights:pipeline:34 - start processing https://www.midea.com/us/ranges/freestanding-ranges-electric
2024-11-15 12:12:08 core-1 | 2024-11-15 01:12:08.240 | DEBUG | insights:pipeline:59 - article: Free Standing Ranges Electric
2024-11-15 12:12:08 core-1 | 2024-11-15 01:12:08.244 | DEBUG | llms.openai_wrapper:openai_llm:22 - messages:
2024-11-15 12:12:08 core-1 | [{'role': 'system', 'content': "Please carefully read the news content provided by the user and analyze it according to the list of type labels given below:\n['fridge', 'refrigerator', 'freezer', 'cooling appliance']\n\nThe meanings of each label are as follows:\n
那就是二级域名下面有到其他二级域名的超链…… 你可以在tags里面通过 tag 限定只提取澳洲相关的内容
或者自定义专有网站信息提取器
如题,例如我只想抓取https://au.news.yahoo.com 或https://news.yahoo.com/au/ 域名下的内容,而不是整个网站的内容。怎么实现?