キャッシュ

Scrape、Crawl、Map API におけるキャッシュの挙動

概要

AnyCrawl は 2 層のキャッシュを使います。

ページキャッシュ：/v1/scrape および /v1/crawl 内のページ単位の処理で使用
Map キャッシュ：/v1/map の URL 発見結果で使用

共通パラメータ

`max_age`（ミリ秒）

キャッシュの読み取り挙動を制御します。
0：強制再取得（キャッシュ読み取りをスキップ）
> 0：その経過時間以内のキャッシュを許可
省略：サーバー既定値を使用

`store_in_cache`

scrape／crawl のページ出力に適用されます。
true（既定）：キャッシュに書き込む
false：キャッシュ書き込みをスキップ

`use_index`（Map のみ）

true（既定）：Map がページキャッシュのインデックスを追加ソースとして使うことを許可
false：そのソースを無効化

エンドポイントごとの挙動

`/v1/scrape`

新しいジョブをキューに入れる前にページキャッシュを読み取ることがあります。
キャッシュヒット時、レスポンスにキャッシュのメタデータ（例：cachedAt / maxAge）が含まれます。

`/v1/crawl`

現時点ではクロール全体のリクエストに対してページキャッシュは読み取りません。
ページ単位の scrape オプションでは、キャッシュ関連の書き込み制御は引き続き利用できます。

`/v1/map`

Map キャッシュを読み取ることがあります。
レスポンスに公開の fromCache フィールドは含まれません（キャッシュ利用は内部挙動です）。

実務のヒント

すぐに最新データが必要な場合は max_age: 0 を使います。
変化の激しいページでは store_in_cache: false とし、不安定なスナップショットの書き込みを避けます。
Map でサイトマップ／検索／ページリンクのみに依存させたい場合は use_index を無効にします。

関連ドキュメント

目次

概要共通パラメータ max_age（ミリ秒）store_in_cacheuse_index（Map のみ）エンドポイントごとの挙動 /v1/scrape/v1/crawl/v1/map実務のヒント関連ドキュメント