AnyCrawl

Início rápido

Saiba como usar a API de scraping e crawling do AnyCrawl para extrair dados prontos para LLM de qualquer site

Introdução

Feito para LLMs. Um crawler e scraper multithread e de alto desempenho, pronto para uso. Com uma OpenAPI amigável ao desenvolvedor, entrega dados limpos e estruturados, otimizados para LLMs.

O AnyCrawl oferece os seguintes recursos:

Alto desempenho

Alto desempenho e multithread.

Totalmente open source

Código aberto, disponível no GitHub.

Compatível com LLMs

Dados limpos e estruturados para LLMs.

OpenAPI

Compatível com OpenAPI.

Convenções da API

Nomenclatura de parâmetros

A API do AnyCrawl segue convenções consistentes:

  • Parâmetros de requisição: principalmente snake_case

    • Exemplos comuns: webhook_url, event_types, cron_expression, max_retries
    • Observação: alguns campos específicos de endpoint usam nomes em camelCase já existentes (por exemplo, timeRange em Search).
  • Campos de resposta: formato snake_case

    • Exemplos: task_id, webhook_id, next_execution_at, task_type, cron_expression, is_active

Para corpos de requisição, use a tabela de parâmetros/OpenAPI de cada endpoint como fonte da verdade.

Formato da resposta

Todas as respostas da API seguem uma estrutura padrão:

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}
  • success: booleano indicando se a requisição foi bem-sucedida
  • data: payload da resposta (objeto ou array)
  • message: mensagem legível opcional

Respostas de erro

As respostas de erro incluem informações detalhadas:

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable error message",
  "details": { ... }
}

Códigos HTTP comuns:

  • 200 - Sucesso
  • 400 - Requisição inválida (erros de validação)
  • 401 - Não autorizado (chave de API inválida)
  • 402 - Pagamento necessário (créditos insuficientes)
  • 404 - Não encontrado
  • 429 - Muitas requisições (limite de taxa excedido)
  • 500 - Erro interno do servidor