意图驱动的数据提取：AI 正在取代 CSS 选择器

过去二十年，网页爬虫只有一种套路：写 CSS 选择器或 XPath 表达式定位 DOM 元素，提取文本，然后祈祷网站下周别改版。2026 年，这套范式正在瓦解。AI 意图驱动提取（intent-based extraction）让你用自然语言描述需要什么数据，模型自行解析页面结构——即使底层 HTML 发生变化也能适应。

本文详解意图驱动提取的原理，对比主流工具，并分析在什么场景下结构化 API 仍然是更优解。

选择器爬虫的维护噩梦

传统爬虫的核心痛点是维护成本。Browserless 的行业调研证实了每个爬虫工程师的切身体会：20% 的时间用来写爬虫，80% 的时间用来修爬虫。每当目标网站更新 HTML 结构，你精心编写的选择器就会失效。

典型故障场景包括：

DOM 结构变更：网站把价格换到新的 <div> 里，你的 div.price > span 直接返回空
A/B 测试：不同用户看到不同布局，同一个选择器对部分请求有效、部分无效
动态渲染：JS 重度依赖的网站异步加载内容，静态选择器抓不到数据
反爬机制：网站检测到爬虫模式后返回篡改过的 HTML

每次故障都需要人工排查、修改选择器、重新部署。当你需要监控数万个产品页面时，这个流程根本跑不通。

意图驱动提取的工作原理

意图驱动提取颠覆了传统模型。你不再告诉爬虫怎么找数据（哪个元素、哪个属性），而是告诉它要什么数据。AI 模型从语义层面解析页面——它理解美元符号旁的数字是价格，产品图片下方的文字是标题，星形图标后面的小数是评分。

技术实现融合了几种 AI 能力：

语义理解：LLM 解析页面可见文本，根据上下文推断每个元素的含义，而非依赖位置。价格就是价格，无论它在 <span class="price"> 还是 <div data-testid="pdp-price-value"> 里。

视觉分析：多模态模型可以分析渲染后的页面截图来识别数据区域，处理纯文本分析模糊的情况。

Schema 引导提取：你提供目标 schema——想要的字段——模型将页面内容映射到该 schema。例如：

{
  "product_name": "string",
  "price": "number",
  "rating": "number",
  "review_count": "integer"
}

模型返回符合 schema 的结构化数据，不受底层 HTML 结构影响。

主流 AI 提取工具对比

2026 年的工具格局已围绕几种主要方案收敛：

Firecrawl

Firecrawl 是托管服务模式。你发送 URL 和 schema，Firecrawl 负责渲染、提取和清洗。在多样化站点上成功率达 95.3%，噪声率 6.8%。/extract 端点的 LLM 模式接受自然语言描述，返回结构化 JSON。

适合：需要托管基础设施、广泛站点覆盖、不想维护浏览器实例的团队。

Crawl4AI

Crawl4AI 是基于 Playwright 的 Python 开源库，提供对浏览器实例和提取逻辑的细粒度控制，成功率 89.7%。2026 年更新引入了模式学习算法，可自动适应 DOM 变更。

适合：需要完全掌控提取流程、希望本地运行的团队。

Browser-Use

Browser-use 采用 Agent 方式——AI Agent 像人一样操控浏览器：点击、滚动、导航——然后从结果页面提取数据。适合处理分页、登录门控等多步骤工作流。

适合：需要交互操作（表单填写、翻页、登录）的工作流。

准确率数据

McGill 大学的研究人员发现，AI 提取方法在页面结构变化时仍保持 98.4% 的准确率，而传统选择器在布局修改后准确率直接跌至接近零。但 AI 提取速度更慢（每页数秒 vs 选择器的毫秒级）且更贵（每次提取都需要 LLM 推理成本）。

AI 提取的短板

意图驱动提取并非万能。它有实实在在的局限：

延迟：LLM 驱动的提取每页需要 2-10 秒。CSS 选择器只需毫秒。对 10 万个产品的实时价格监控来说，AI 提取太慢。

成本：每次提取都需要 LLM 推理。规模化运行时，API 费用可能超过维护传统爬虫的成本。

一致性：AI 模型是概率性的。同一页面提取两次可能产生略微不同的字段名或格式。生产流水线需要确定性输出。

速率限制：AI 提取服务有自己的速率限制，在目标站点反爬机制之上又加了一层瓶颈。

这些限制指向一个根本性问题：如果你需要大规模、低延迟、可靠的结构化数据——你真的应该用爬虫吗？

结构化 API：第三条路

在脆弱的选择器和昂贵的 AI 提取之间，存在第三条路：结构化数据 API 直接提供你需要的数据，保证 schema 稳定性和亚秒级响应。

对电商数据而言，对比提取链路：

选择器:     HTML → 解析 → 清洗 → 验证 → 结构化数据
AI 提取:    HTML → LLM → 结构化数据（大部分情况）
API:        请求 → 结构化数据（保证）

当你的数据领域存在结构化 API 时，它同时消除了选择器的脆弱性和 AI 提取的高成本。数据到手即是结构化的、经过验证的、字段名一致的。

例如，获取亚马逊产品价格数据，对比两种方式：

AI 提取方式：

# 需要渲染页面、运行 LLM 推理
result = firecrawl.extract(
    url="https://amazon.com/dp/B07FR2V8SH",
    schema={"price": "number", "title": "string"}
)
# ~3-5 秒，每次提取 $0.01-0.05
# 可能触发反爬检测

结构化 API 方式：

import httpx

resp = httpx.post(
    "https://api.apiclaw.io/openapi/v2/realtime/product",
    headers={"Authorization": "Bearer hms_xxx"},
    json={"asin": "B07FR2V8SH"},
)
product = resp.json()["data"]
# 返回: price, title, rating, ratingCount, bsr,
# categoryPath, brandName, sellerCount 等
# ~2-3 秒，结构化响应有保证

API 方式在单次调用中返回你需要的所有字段——价格、BSR、评分、卖家数量、品类路径——schema 稳定，无需维护选择器，无 LLM 推理成本，无反爬烦恼。

构建混合数据管道

实际场景中，最优的数据管道会根据数据源组合三种方式：

数据类型	最佳方式	原因
电商产品数据	结构化 API	Schema 稳定、实时、无反爬问题
新闻文章和博客内容	AI 提取	布局多样、非结构化内容
政府和公开数据集	直接下载 / API	标准化格式（CSV、JSON）
竞品 SaaS 定价页	AI 提取	无 API 可用、布局频繁变更
社交媒体数据	平台 API	有限速但结构化

对亚马逊产品情报来说，爬虫混合 API 兜底的方案只会带来最差的组合——数据质量不一致加上不必要的复杂度。专业的电商数据 API 如 ZooData 提供产品搜索、市场分析、评论洞察和价格历史等完整能力，通过统一的 REST 接口直接获取。

立即获取 1,000 免费 API 额度 — 点此注册。

未来方向：Agent 驱动的数据管道

2026 年最值得关注的趋势是 AI 提取与 Agent 工作流的融合。团队不再配置单独的爬虫任务，而是构建数据 Agent，由 Agent 自主决定怎么获取数据：

Agent 收到数据请求："获取前 50 名瑜伽垫的定价数据"
Agent 优先检查可用的结构化 API（最便宜、最快、最可靠）
对于没有 API 的数据源，Agent 回退到 AI 提取
Agent 验证、去重并整合数据集

这种 Agent 优先的方式意味着数据管道自动适应。当之前需要爬取的数据源有了新的 API，Agent 自动切换路由，无需人工介入。

查看完整接口文档：API 文档，了解如何通过 ZooData Skills 将 AI Agent 接入结构化数据。

总结

意图驱动提取相比 CSS 选择器是真正的范式飞跃——大幅降低维护成本，优雅应对布局变更。但它不是银弹——延迟、成本和一致性约束使其不适合大规模实时场景。

2026 年最聪明的团队不是在选择器和 AI 提取之间二选一，而是构建智能数据管道：对已有 API 的领域走 API，对其余数据源走 AI 提取，由 Agent 统一编排。

"一个爬虫打天下"的时代已经过去，智能多源数据管道的时代已经到来。

References

State of Web Scraping 2026: Trends, Challenges & What's Next — 爬虫维护成本与行业趋势调研
How AI Is Changing Web Scraping in 2026 — McGill 大学 AI 提取准确率 vs 传统选择器研究
Best Web Extraction Tools for AI in 2026 — 工具对比与提取基准测试
Crawl4AI vs Firecrawl: Full Comparison & 2026 Review — 功能与性能详细对比
The Future of Web Scraping: AI Agents + Human Co-Pilots — Agent 驱动数据管道架构