Firecrawl: 反爬虫网页抓取
Firecrawl
Section titled “Firecrawl”OpenClaw 集成了 Firecrawl,这是一项强大的内容提取服务,旨在绕过机器人检测并处理复杂的、重 JavaScript 的网站。
为什么使用 Firecrawl?
Section titled “为什么使用 Firecrawl?”- 反机器人规避:成功抓取阻止标准 HTTP 请求的站点(例如 Cloudflare 挑战)。
- JavaScript 渲染:处理需要 JS 加载内容的单页应用(SPA)。
- 智能缓存:通过将结果缓存长达 2 天(可配置)来降低 API 成本和延迟。
- 回退机制:当本地提取失败时,
web_fetch工具会自动使用它。
获取 API 密钥 在 Firecrawl.dev 创建帐户并生成 API 密钥。
配置 OpenClaw 将密钥添加到您的配置文件 (
~/.openclaw/openclaw.json) 或环境变量中。
{ tools: { web: { fetch: { firecrawl: { apiKey: "FIRECRAWL_API_KEY_HERE", baseUrl: "https://api.firecrawl.dev", onlyMainContent: true, // 仅提取文章正文 maxAgeMs: 172800000, // 缓存持续时间(默认:2 天) timeoutSeconds: 60 } } } }}web_fetch 工具使用智能瀑布策略来检索内容:
- 本地可读性:尝试在本地获取和解析页面(最快,免费)。
- Firecrawl:如果本地获取失败(例如 403 Forbidden, 401 Unauthorized 或空内容),它会无缝重试使用 Firecrawl。
- 基本 HTML:如果所有其他方法都失败,最终回退到原始 HTML 提取。
Firecrawl 使用智能代理系统:
- OpenClaw 请求
proxy: "auto"。 - Firecrawl 首先尝试标准请求。
- 如果被阻止,它会自动使用 隐身代理(住宅 IP)重试以绕过防御。
有关完整的网页抓取工具包的更多详细信息,请参阅 Web 工具。