キャッシュ
Scrape、Crawl、Map API におけるキャッシュの挙動
概要
AnyCrawl は 2 層のキャッシュを使います。
- ページキャッシュ:
/v1/scrapeおよび/v1/crawl内のページ単位の処理で使用 - Map キャッシュ:
/v1/mapの URL 発見結果で使用
共通パラメータ
max_age(ミリ秒)
- キャッシュの読み取り挙動を制御します。
0:強制再取得(キャッシュ読み取りをスキップ)> 0:その経過時間以内のキャッシュを許可- 省略:サーバー既定値を使用
store_in_cache
- scrape/crawl のページ出力に適用されます。
true(既定):キャッシュに書き込むfalse:キャッシュ書き込みをスキップ
use_index(Map のみ)
true(既定):Map がページキャッシュのインデックスを追加ソースとして使うことを許可false:そのソースを無効化
エンドポイントごとの挙動
/v1/scrape
- 新しいジョブをキューに入れる前にページキャッシュを読み取ることがあります。
- キャッシュヒット時、レスポンスにキャッシュのメタデータ(例:
cachedAt/maxAge)が含まれます。
/v1/crawl
- 現時点ではクロール全体のリクエストに対してページキャッシュは読み取りません。
- ページ単位の scrape オプションでは、キャッシュ関連の書き込み制御は引き続き利用できます。
/v1/map
- Map キャッシュを読み取ることがあります。
- レスポンスに公開の
fromCacheフィールドは含まれません(キャッシュ利用は内部挙動です)。
実務のヒント
- すぐに最新データが必要な場合は
max_age: 0を使います。 - 変化の激しいページでは
store_in_cache: falseとし、不安定なスナップショットの書き込みを避けます。 - Map でサイトマップ/検索/ページリンクのみに依存させたい場合は
use_indexを無効にします。