Cache
Comportement du cache pour les API Scrape, Crawl et Map.
Vue d’ensemble
AnyCrawl utilise deux niveaux de cache :
- Cache de page : utilisé par
/v1/scrapeet le traitement au niveau page dans/v1/crawl - Cache Map : utilisé par
/v1/mappour les résultats de découverte d’URL
Paramètres communs
max_age (ms)
- Contrôle le comportement de lecture du cache.
0: forcer le rafraîchissement (ignorer la lecture du cache)> 0: autoriser les données mises en cache dans cette fenêtre d’âge- omis : utiliser la valeur par défaut du serveur
store_in_cache
- S’applique aux sorties de page scrape/crawl.
true(par défaut) : écrire dans le cachefalse: ne pas écrire dans le cache
use_index (Map uniquement)
true(par défaut) : autoriser Map à utiliser l’index du cache de page comme source supplémentairefalse: désactiver cette source
Comportement par endpoint
/v1/scrape
- Peut lire le cache de page avant de mettre en file un nouveau job.
- En cas de hit cache, la réponse inclut des métadonnées de cache (par ex.
cachedAt/maxAge).
/v1/crawl
- Ne lit pas actuellement le cache de page pour les requêtes de crawl complètes.
- Prend toujours en charge les contrôles d’écriture liés au cache dans les options de scrape par page.
/v1/map
- Peut lire le cache Map.
- La réponse n’inclut pas de champ public
fromCache(l’usage du cache est interne).
Conseils pratiques
- Utilisez
max_age: 0lorsque vous avez besoin de données à jour immédiatement. - Utilisez
store_in_cache: falsepour les pages très dynamiques afin d’éviter d’écrire des instantanés instables. - Pour Map, désactivez
use_indexsi vous voulez que la découverte ne s’appuie que sur le sitemap, la recherche ou les liens de page.