AnyCrawl admite un enrutamiento de proxy flexible basado en patrones de URL. Puedes configurar distintos proxies para distintos sitios o endpoints de API.
AnyCrawl admite cuatro modos de proxy que se pueden indicar en las peticiones a la API:
Modo
Descripción
auto
Decide automáticamente entre proxy base y stealth. Empieza con el base si está disponible; si el base no está disponible o hay reintentos o fallos, sube o hace fallback a stealth.
base
Usa el proxy configurado en ANYCRAWL_PROXY_URL (predeterminado)
stealth
Usa el proxy configurado en ANYCRAWL_PROXY_STEALTH_URL (normalmente residencial o premium)
URL personalizada
Cadena URL de proxy completa (p. ej. http://user:pass@proxy:8080), devuelta como custom en las respuestas
Para casos en los que quieras el mismo proxy para todas las peticiones, define la variable de entorno ANYCRAWL_PROXY_URL:
# Un solo proxyexport ANYCRAWL_PROXY_URL=http://username:password@proxy.example.com:8080# Varios proxies (modo por niveles)export ANYCRAWL_PROXY_URL=http://proxy1:8080,http://proxy2:8080,http://proxy3:8080
Cuando se proporcionan varios proxies (separados por comas), AnyCrawl usa una estrategia de proxy por niveles:
Todas las peticiones empiezan con el primer proxy (nivel 0)
Si un proxy falla para un dominio, AnyCrawl cambia automáticamente al siguiente nivel para ese dominio
Así se consigue failover inteligente y un uso óptimo del proxy
Es la forma más simple de configurar proxies cuando no necesitas enrutamiento por URL.
Para enrutamiento de proxy por URL, crea un archivo JSON de configuración (p. ej. proxy-config.json) y asigna la variable de entorno ANYCRAWL_PROXY_CONFIG a su ruta:
ANYCRAWL_PROXY_CONFIG=/path/to/proxy-config.json
Nota: Si están definidos ANYCRAWL_PROXY_URL y ANYCRAWL_PROXY_CONFIG, las reglas del archivo tienen prioridad y ANYCRAWL_PROXY_URL actúa como respaldo para URLs que no coincidan con ninguna regla.
Using proxy from request userData: http://custom-proxy:8080Found proxy for URL https://example.com: http://proxy.example.com:8080 By matching a rule.Proxy matched by domain pattern: *.gov.au → http://proxy.example.com:8080Using tiered proxy: http://default-proxy:8080
Ejemplo de configuración que combina ambos métodos:
# Proxy predeterminado para uso generalexport ANYCRAWL_PROXY_URL=http://default-proxy:8080# Enrutamiento por URL para sitios concretosexport ANYCRAWL_PROXY_CONFIG=/path/to/proxy-config.json