AnyCrawl

Кэш

Поведение кэша для API Scrape, Crawl и Map.

Обзор

AnyCrawl использует два уровня кэша:

  • Кэш страниц (Page Cache): для /v1/scrape и обработки отдельных страниц в /v1/crawl
  • Кэш карты (Map Cache): для /v1/map и результатов обнаружения URL

Общие параметры

max_age (мс)

  • Управляет чтением из кэша.
  • 0: принудительное обновление (пропуск чтения из кэша)
  • > 0: разрешить данные из кэша в пределах указанного возраста
  • не указано: значение по умолчанию на сервере

store_in_cache

  • Относится к выводам страниц в scrape/crawl.
  • true (по умолчанию): записывать в кэш
  • false: не записывать в кэш

use_index (только Map)

  • true (по умолчанию): разрешить Map использовать индекс кэша страниц как дополнительный источник
  • false: отключить этот источник

Поведение конечных точек

/v1/scrape

  • Может читать кэш страниц перед постановкой новой задачи.
  • При попадании в кэш ответ включает метаданные кэша (например cachedAt / maxAge).

/v1/crawl

  • Сейчас не читает кэш страниц для полных запросов обхода.
  • По-прежнему поддерживает параметры записи в кэш в опциях скрапа отдельных страниц.

/v1/map

  • Может читать кэш Map.
  • В ответе нет публичного поля fromCache (использование кэша внутреннее).

Практические советы

  • Используйте max_age: 0, когда нужны свежие данные немедленно.
  • Используйте store_in_cache: false для сильно динамичных страниц, чтобы не сохранять нестабильные снимки.
  • Для Map отключите use_index, если обнаружение должно опираться только на sitemap/поиск/ссылки на страницах.

Связанная документация