缓存
Scrape、Crawl 和 Map API 的缓存行为。
概述
AnyCrawl 使用两层缓存:
- 页面缓存:用于
/v1/scrape以及/v1/crawl中的单页处理 - Map 缓存:用于
/v1/map的 URL 发现结果
通用参数
max_age(毫秒)
- 控制缓存读取行为。
0:强制刷新(跳过缓存读取)> 0:允许使用指定时间范围内的缓存数据- 省略:使用服务器默认值
store_in_cache
- 适用于 scrape/crawl 的页面输出。
true(默认):写入缓存false:跳过缓存写入
use_index(仅 Map)
true(默认):允许 Map 使用页面缓存索引作为额外数据来源false:禁用该来源
端点行为
/v1/scrape
- 可在创建新任务之前读取页面缓存。
- 命中缓存时,响应中会包含缓存元数据(例如
cachedAt/maxAge)。
/v1/crawl
- 目前不会为完整爬取请求读取页面缓存。
- 仍支持在单页抓取选项中使用缓存相关的写入控制。
/v1/map
- 可读取 Map 缓存。
- 响应中不包含公开的
fromCache字段(缓存使用为内部行为)。
实用技巧
- 当需要立即获取最新数据时,使用
max_age: 0。 - 对于高度动态的页面,使用
store_in_cache: false以避免写入不稳定的快照。 - 对于 Map,如果希望发现仅依赖 sitemap/搜索引擎/页面链接,可禁用
use_index。