AnyCrawl prend en charge un routage flexible des proxies selon des motifs d’URL. Vous pouvez configurer des proxies différents pour différents sites web ou points de terminaison d’API.
AnyCrawl prend en charge quatre modes proxy pouvant être indiqués dans les requêtes API :
Mode
Description
auto
Choisit automatiquement entre le proxy de base et le proxy furtif. Commence par le proxy de base s’il est disponible ; s’il est indisponible ou en cas de nouvelles tentatives/échecs, bascule vers le mode furtif.
base
Utilise le proxy configuré dans ANYCRAWL_PROXY_URL (par défaut)
stealth
Utilise le proxy configuré dans ANYCRAWL_PROXY_STEALTH_URL (généralement résidentiel ou premium)
URL personnalisée
Chaîne d’URL de proxy complète (par ex. http://user:pass@proxy:8080), renvoyée comme custom dans les réponses
Pour les cas simples où vous souhaitez le même proxy pour toutes les requêtes, définissez la variable d’environnement ANYCRAWL_PROXY_URL :
# Proxy uniqueexport ANYCRAWL_PROXY_URL=http://username:password@proxy.example.com:8080# Plusieurs proxies (mode à niveaux)export ANYCRAWL_PROXY_URL=http://proxy1:8080,http://proxy2:8080,http://proxy3:8080
Lorsque plusieurs proxies sont fournis (séparés par des virgules), AnyCrawl utilise une stratégie de proxy à niveaux :
Toutes les requêtes commencent par le premier proxy (niveau 0)
Si un proxy échoue pour un domaine, AnyCrawl bascule automatiquement vers le niveau suivant pour ce domaine
Cela permet un basculement intelligent et une utilisation optimale des proxies
C’est la méthode la plus simple lorsque vous n’avez pas besoin de routage par URL.
Pour le routage par URL, créez un fichier JSON de configuration (par ex. proxy-config.json) et définissez la variable d’environnement ANYCRAWL_PROXY_CONFIG sur son chemin :
ANYCRAWL_PROXY_CONFIG=/path/to/proxy-config.json
Remarque : si ANYCRAWL_PROXY_URL et ANYCRAWL_PROXY_CONFIG sont tous deux définis, les règles du fichier de configuration priment, et ANYCRAWL_PROXY_URL sert de repli pour les URL qui ne correspondent à aucune règle.
Using proxy from request userData: http://custom-proxy:8080Found proxy for URL https://example.com: http://proxy.example.com:8080 By matching a rule.Proxy matched by domain pattern: *.gov.au → http://proxy.example.com:8080Using tiered proxy: http://default-proxy:8080
Exemple utilisant les deux méthodes de configuration :
# Proxy par défaut pour l’usage généralexport ANYCRAWL_PROXY_URL=http://default-proxy:8080# Routage par URL pour des sites spécifiquesexport ANYCRAWL_PROXY_CONFIG=/path/to/proxy-config.json