意图驱动的数据提取:AI 正在取代 CSS 选择器
过去二十年,网页爬虫只有一种套路:写 CSS 选择器或 XPath 表达式定位 DOM 元素,提取文本,然后祈祷网站下周别改版。2026 年,这套范式正在瓦解。AI 意图驱动提取(intent-based extraction)让你用自然语言描述需要什么数据,模型自行解析页面结构——即使底层 HTML 发生变化也能适应。
本文详解意图驱动提取的原理,对比主流工具,并分析在什么场景下结构化 API 仍然是更优解。
选择器爬虫的维护噩梦
传统爬虫的核心痛点是维护成本。Browserless 的行业调研证实了每个爬虫工程师的切身体会:20% 的时间用来写爬虫,80% 的时间用来修爬虫。每当目标网站更新 HTML 结构,你精心编写的选择器就会失效。
典型故障场景包括:
- DOM 结构变更:网站把价格换到新的
<div>里,你的div.price > span直接返回空 - A/B 测试:不同用户看到不同布局,同一个选择器对部分请求有效、部分无效
- 动态渲染:JS 重度依赖的网站异步加载内容,静态选择器抓不到数据
- 反爬机制:网站检测到爬虫模式后返回篡改过的 HTML
每次故障都需要人工排查、修改选择器、重新部署。当你需要监控数万个产品页面时,这个流程根本跑不通。
意图驱动提取的工作原理
意图驱动提取颠覆了传统模型。你不再告诉爬虫怎么找数据(哪个元素、哪个属性),而是告诉它要什么数据。AI 模型从语义层面解析页面——它理解美元符号旁的数字是价格,产品图片下方的文字是标题,星形图标后面的小数是评分。
技术实现融合了几种 AI 能力:
语义理解:LLM 解析页面可见文本,根据上下文推断每个元素的含义,而非依赖位置。价格就是价格,无论它在 <span class="price"> 还是 <div data-testid="pdp-price-value"> 里。
视觉分析:多模态模型可以分析渲染后的页面截图来识别数据区域,处理纯文本分析模糊的情况。
Schema 引导提取:你提供目标 schema——想要的字段——模型将页面内容映射到该 schema。例如:
{
"product_name": "string",
"price": "number",
"rating": "number",
"review_count": "integer"
}
模型返回符合 schema 的结构化数据,不受底层 HTML 结构影响。
主流 AI 提取工具对比
2026 年的工具格局已围绕几种主要方案收敛:
Firecrawl
Firecrawl 是托管服务模式。你发送 URL 和 schema,Firecrawl 负责渲染、提取和清洗。在多样化站点上成功率达 95.3%,噪声率 6.8%。/extract 端点的 LLM 模式接受自然语言描述,返回结构化 JSON。
适合:需要托管基础设施、广泛站点覆盖、不想维护浏览器实例的团队。
Crawl4AI
Crawl4AI 是基于 Playwright 的 Python 开源库,提供对浏览器实例和提取逻辑的细粒度控制,成功率 89.7%。2026 年更新引入了模式学习算法,可自动适应 DOM 变更。
适合:需要完全掌控提取流程、希望本地运行的团队。
Browser-Use
Browser-use 采用 Agent 方式——AI Agent 像人一样操控浏览器:点击、滚动、导航——然后从结果页面提取数据。适合处理分页、登录门控等多步骤工作流。
适合:需要交互操作(表单填写、翻页、登录)的工作流。
准确率数据
McGill 大学的研究人员发现,AI 提取方法在页面结构变化时仍保持 98.4% 的准确率,而传统选择器在布局修改后准确率直接跌至接近零。但 AI 提取速度更慢(每页数秒 vs 选择器的毫秒级)且更贵(每次提取都需要 LLM 推理成本)。
AI 提取的短板
意图驱动提取并非万能。它有实实在在的局限:
延迟:LLM 驱动的提取每页需要 2-10 秒。CSS 选择器只需毫秒。对 10 万个产品的实时价格监控来说,AI 提取太慢。
成本:每次提取都需要 LLM 推理。规模化运行时,API 费用可能超过维护传统爬虫的成本。
一致性:AI 模型是概率性的。同一页面提取两次可能产生略微不同的字段名或格式。生产流水线需要确定性输出。
速率限制:AI 提取服务有自己的速率限制,在目标站点反爬机制之上又加了一层瓶颈。
这些限制指向一个根本性问题:如果你需要大规模、低延迟、可靠的结构化数据——你真的应该用爬虫吗?
结构化 API:第三条路
在脆弱的选择器和昂贵的 AI 提取之间,存在第三条路:结构化数据 API 直接提供你需要的数据,保证 schema 稳定性和亚秒级响应。
对电商数据而言,对比提取链路:
选择器: HTML → 解析 → 清洗 → 验证 → 结构化数据
AI 提取: HTML → LLM → 结构化数据(大部分情况)
API: 请求 → 结构化数据(保证)
当你的数据领域存在结构化 API 时,它同时消除了选择器的脆弱性和 AI 提取的高成本。数据到手即是结构化的、经过验证的、字段名一致的。
例如,获取亚马逊产品价格数据,对比两种方式:
AI 提取方式:
# 需要渲染页面、运行 LLM 推理
result = firecrawl.extract(
url="https://amazon.com/dp/B07FR2V8SH",
schema={"price": "number", "title": "string"}
)
# ~3-5 秒,每次提取 $0.01-0.05
# 可能触发反爬检测
结构化 API 方式:
import httpx
resp = httpx.post(
"https://api.apiclaw.io/openapi/v2/realtime/product",
headers={"Authorization": "Bearer hms_xxx"},
json={"asin": "B07FR2V8SH"},
)
product = resp.json()["data"]
# 返回: price, title, rating, ratingCount, bsr,
# categoryPath, brandName, sellerCount 等
# ~2-3 秒,结构化响应有保证
API 方式在单次调用中返回你需要的所有字段——价格、BSR、评分、卖家数量、品类路径——schema 稳定,无需维护选择器,无 LLM 推理成本,无反爬烦恼。
构建混合数据管道
实际场景中,最优的数据管道会根据数据源组合三种方式:
| 数据类型 | 最佳方式 | 原因 |
|---|---|---|
| 电商产品数据 | 结构化 API | Schema 稳定、实时、无反爬问题 |
| 新闻文章和博客内容 | AI 提取 | 布局多样、非结构化内容 |
| 政府和公开数据集 | 直接下载 / API | 标准化格式(CSV、JSON) |
| 竞品 SaaS 定价页 | AI 提取 | 无 API 可用、布局频繁变更 |
| 社交媒体数据 | 平台 API | 有限速但结构化 |
对亚马逊产品情报来说,爬虫混合 API 兜底的方案只会带来最差的组合——数据质量不一致加上不必要的复杂度。专业的电商数据 API 如 ZooData 提供产品搜索、市场分析、评论洞察和价格历史等完整能力,通过统一的 REST 接口直接获取。
立即获取 1,000 免费 API 额度 — 点此注册。
未来方向:Agent 驱动的数据管道
2026 年最值得关注的趋势是 AI 提取与 Agent 工作流的融合。团队不再配置单独的爬虫任务,而是构建数据 Agent,由 Agent 自主决定怎么获取数据:
- Agent 收到数据请求:"获取前 50 名瑜伽垫的定价数据"
- Agent 优先检查可用的结构化 API(最便宜、最快、最可靠)
- 对于没有 API 的数据源,Agent 回退到 AI 提取
- Agent 验证、去重并整合数据集
这种 Agent 优先的方式意味着数据管道自动适应。当之前需要爬取的数据源有了新的 API,Agent 自动切换路由,无需人工介入。
查看完整接口文档:API 文档,了解如何通过 ZooData Skills 将 AI Agent 接入结构化数据。
总结
意图驱动提取相比 CSS 选择器是真正的范式飞跃——大幅降低维护成本,优雅应对布局变更。但它不是银弹——延迟、成本和一致性约束使其不适合大规模实时场景。
2026 年最聪明的团队不是在选择器和 AI 提取之间二选一,而是构建智能数据管道:对已有 API 的领域走 API,对其余数据源走 AI 提取,由 Agent 统一编排。
"一个爬虫打天下"的时代已经过去,智能多源数据管道的时代已经到来。
References
- State of Web Scraping 2026: Trends, Challenges & What's Next — 爬虫维护成本与行业趋势调研
- How AI Is Changing Web Scraping in 2026 — McGill 大学 AI 提取准确率 vs 传统选择器研究
- Best Web Extraction Tools for AI in 2026 — 工具对比与提取基准测试
- Crawl4AI vs Firecrawl: Full Comparison & 2026 Review — 功能与性能详细对比
- The Future of Web Scraping: AI Agents + Human Co-Pilots — Agent 驱动数据管道架构