AnyCrawl

캐시

Scrape, Crawl, Map API의 캐시 동작

개요

AnyCrawl은 두 가지 캐시 계층을 사용합니다.

  • 페이지 캐시: /v1/scrape/v1/crawl의 페이지 단위 처리에 사용
  • 맵 캐시: /v1/map의 URL 발견 결과에 사용

공통 파라미터

max_age(ms)

  • 캐시 읽기 동작을 제어합니다.
  • 0: 강제 새로고침(캐시 읽기 건너뜀)
  • > 0: 해당 시간 이내의 캐시 데이터 허용
  • 생략: 서버 기본값 사용

store_in_cache

  • scrape/crawl 페이지 출력에 적용됩니다.
  • true(기본값): 캐시에 기록
  • false: 캐시 쓰기 건너뜀

use_index(Map 전용)

  • true(기본값): Map이 페이지 캐시 인덱스를 추가 소스로 사용할 수 있음
  • false: 해당 소스 비활성화

엔드포인트 동작

/v1/scrape

  • 새 작업을 큐에 넣기 전에 페이지 캐시를 읽을 수 있습니다.
  • 캐시 히트 시 응답에 캐시 메타데이터(예: cachedAt / maxAge)가 포함됩니다.

/v1/crawl

  • 현재 전체 크롤 요청에 대해 페이지 캐시를 읽지 않습니다.
  • 페이지별 스크래프 옵션에서는 캐시 관련 쓰기 제어를 계속 지원합니다.

/v1/map

  • 맵 캐시를 읽을 수 있습니다.
  • 응답에 공개 fromCache 필드는 없습니다(캐시 사용은 내부 동작).

실무 팁

  • 즉시 최신 데이터가 필요하면 max_age: 0을 사용하세요.
  • 변동이 큰 페이지는 store_in_cache: false로 불안정한 스냅샷 기록을 피하세요.
  • Map에서 사이트맵/검색/페이지 링크만으로 발견하려면 use_index를 끄세요.

관련 문서