Cache

Comportement du cache pour les API Scrape, Crawl et Map.

Vue d’ensemble

AnyCrawl utilise deux niveaux de cache :

Cache de page : utilisé par /v1/scrape et le traitement au niveau page dans /v1/crawl
Cache Map : utilisé par /v1/map pour les résultats de découverte d’URL

Paramètres communs

`max_age` (ms)

Contrôle le comportement de lecture du cache.
0 : forcer le rafraîchissement (ignorer la lecture du cache)
> 0 : autoriser les données mises en cache dans cette fenêtre d’âge
omis : utiliser la valeur par défaut du serveur

`store_in_cache`

S’applique aux sorties de page scrape/crawl.
true (par défaut) : écrire dans le cache
false : ne pas écrire dans le cache

`use_index` (Map uniquement)

true (par défaut) : autoriser Map à utiliser l’index du cache de page comme source supplémentaire
false : désactiver cette source

Comportement par endpoint

`/v1/scrape`

Peut lire le cache de page avant de mettre en file un nouveau job.
En cas de hit cache, la réponse inclut des métadonnées de cache (par ex. cachedAt / maxAge).

`/v1/crawl`

Ne lit pas actuellement le cache de page pour les requêtes de crawl complètes.
Prend toujours en charge les contrôles d’écriture liés au cache dans les options de scrape par page.

`/v1/map`

Peut lire le cache Map.
La réponse n’inclut pas de champ public fromCache (l’usage du cache est interne).

Conseils pratiques

Utilisez max_age: 0 lorsque vous avez besoin de données à jour immédiatement.
Utilisez store_in_cache: false pour les pages très dynamiques afin d’éviter d’écrire des instantanés instables.
Pour Map, désactivez use_index si vous voulez que la découverte ne s’appuie que sur le sitemap, la recherche ou les liens de page.

Documentation associée

Table des matières

Vue d’ensemble Paramètres communs max_age (ms)store_in_cacheuse_index (Map uniquement)Comportement par endpoint /v1/scrape/v1/crawl/v1/mapConseils pratiques Documentation associée