AnyCrawl

キャッシュ

Scrape、Crawl、Map API におけるキャッシュの挙動

概要

AnyCrawl は 2 層のキャッシュを使います。

  • ページキャッシュ/v1/scrape および /v1/crawl 内のページ単位の処理で使用
  • Map キャッシュ/v1/map の URL 発見結果で使用

共通パラメータ

max_age(ミリ秒)

  • キャッシュの読み取り挙動を制御します。
  • 0:強制再取得(キャッシュ読み取りをスキップ)
  • > 0:その経過時間以内のキャッシュを許可
  • 省略:サーバー既定値を使用

store_in_cache

  • scrape/crawl のページ出力に適用されます。
  • true(既定):キャッシュに書き込む
  • false:キャッシュ書き込みをスキップ

use_index(Map のみ)

  • true(既定):Map がページキャッシュのインデックスを追加ソースとして使うことを許可
  • false:そのソースを無効化

エンドポイントごとの挙動

/v1/scrape

  • 新しいジョブをキューに入れる前にページキャッシュを読み取ることがあります。
  • キャッシュヒット時、レスポンスにキャッシュのメタデータ(例:cachedAt / maxAge)が含まれます。

/v1/crawl

  • 現時点ではクロール全体のリクエストに対してページキャッシュは読み取りません
  • ページ単位の scrape オプションでは、キャッシュ関連の書き込み制御は引き続き利用できます。

/v1/map

  • Map キャッシュを読み取ることがあります。
  • レスポンスに公開の fromCache フィールドは含まれません(キャッシュ利用は内部挙動です)。

実務のヒント

  • すぐに最新データが必要な場合は max_age: 0 を使います。
  • 変化の激しいページでは store_in_cache: false とし、不安定なスナップショットの書き込みを避けます。
  • Map でサイトマップ/検索/ページリンクのみに依存させたい場合は use_index を無効にします。

関連ドキュメント