캐시
Scrape, Crawl, Map API의 캐시 동작
개요
AnyCrawl은 두 가지 캐시 계층을 사용합니다.
- 페이지 캐시:
/v1/scrape및/v1/crawl의 페이지 단위 처리에 사용 - 맵 캐시:
/v1/map의 URL 발견 결과에 사용
공통 파라미터
max_age(ms)
- 캐시 읽기 동작을 제어합니다.
0: 강제 새로고침(캐시 읽기 건너뜀)> 0: 해당 시간 이내의 캐시 데이터 허용- 생략: 서버 기본값 사용
store_in_cache
- scrape/crawl 페이지 출력에 적용됩니다.
true(기본값): 캐시에 기록false: 캐시 쓰기 건너뜀
use_index(Map 전용)
true(기본값): Map이 페이지 캐시 인덱스를 추가 소스로 사용할 수 있음false: 해당 소스 비활성화
엔드포인트 동작
/v1/scrape
- 새 작업을 큐에 넣기 전에 페이지 캐시를 읽을 수 있습니다.
- 캐시 히트 시 응답에 캐시 메타데이터(예:
cachedAt/maxAge)가 포함됩니다.
/v1/crawl
- 현재 전체 크롤 요청에 대해 페이지 캐시를 읽지 않습니다.
- 페이지별 스크래프 옵션에서는 캐시 관련 쓰기 제어를 계속 지원합니다.
/v1/map
- 맵 캐시를 읽을 수 있습니다.
- 응답에 공개
fromCache필드는 없습니다(캐시 사용은 내부 동작).
실무 팁
- 즉시 최신 데이터가 필요하면
max_age: 0을 사용하세요. - 변동이 큰 페이지는
store_in_cache: false로 불안정한 스냅샷 기록을 피하세요. - Map에서 사이트맵/검색/페이지 링크만으로 발견하려면
use_index를 끄세요.