缓存

Scrape、Crawl 和 Map API 的缓存行为。

概述

AnyCrawl 使用两层缓存：

页面缓存：用于 /v1/scrape 以及 /v1/crawl 中的单页处理
Map 缓存：用于 /v1/map 的 URL 发现结果

通用参数

`max_age`（毫秒）

控制缓存读取行为。
0：强制刷新（跳过缓存读取）
> 0：允许使用指定时间范围内的缓存数据
省略：使用服务器默认值

`store_in_cache`

适用于 scrape/crawl 的页面输出。
true（默认）：写入缓存
false：跳过缓存写入

`use_index`（仅 Map）

true（默认）：允许 Map 使用页面缓存索引作为额外数据来源
false：禁用该来源

端点行为

`/v1/scrape`

可在创建新任务之前读取页面缓存。
命中缓存时，响应中会包含缓存元数据（例如 cachedAt / maxAge）。

`/v1/crawl`

目前不会为完整爬取请求读取页面缓存。
仍支持在单页抓取选项中使用缓存相关的写入控制。

`/v1/map`

可读取 Map 缓存。
响应中不包含公开的 fromCache 字段（缓存使用为内部行为）。

实用技巧

当需要立即获取最新数据时，使用 max_age: 0。
对于高度动态的页面，使用 store_in_cache: false 以避免写入不稳定的快照。
对于 Map，如果希望发现仅依赖 sitemap/搜索引擎/页面链接，可禁用 use_index。

相关文档

目录

概述通用参数 max_age（毫秒）store_in_cacheuse_index（仅 Map）端点行为 /v1/scrape/v1/crawl/v1/map实用技巧相关文档