Início rápido

Saiba como usar a API de scraping e crawling do AnyCrawl para extrair dados prontos para LLM de qualquer site

Introdução

Feito para LLMs. Um crawler e scraper multithread e de alto desempenho, pronto para uso. Com uma OpenAPI amigável ao desenvolvedor, entrega dados limpos e estruturados, otimizados para LLMs.

O AnyCrawl oferece os seguintes recursos:

Alto desempenho

Alto desempenho e multithread.

Totalmente open source

Código aberto, disponível no GitHub.

Compatível com LLMs

Dados limpos e estruturados para LLMs.

OpenAPI

Compatível com OpenAPI.

Convenções da API

Nomenclatura de parâmetros

A API do AnyCrawl segue convenções consistentes:

Parâmetros de requisição: principalmente snake_case
- Exemplos comuns: webhook_url, event_types, cron_expression, max_retries
- Observação: alguns campos específicos de endpoint usam nomes em camelCase já existentes (por exemplo, timeRange em Search).
Campos de resposta: formato snake_case
- Exemplos: task_id, webhook_id, next_execution_at, task_type, cron_expression, is_active

Para corpos de requisição, use a tabela de parâmetros/OpenAPI de cada endpoint como fonte da verdade.

Formato da resposta

Todas as respostas da API seguem uma estrutura padrão:

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}

success: booleano indicando se a requisição foi bem-sucedida
data: payload da resposta (objeto ou array)
message: mensagem legível opcional

Respostas de erro

As respostas de erro incluem informações detalhadas:

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable error message",
  "details": { ... }
}

Códigos HTTP comuns:

200 - Sucesso
400 - Requisição inválida (erros de validação)
401 - Não autorizado (chave de API inválida)
402 - Pagamento necessário (créditos insuficientes)
404 - Não encontrado
429 - Muitas requisições (limite de taxa excedido)
500 - Erro interno do servidor