Schnellstart

Erfahren Sie, wie Sie die Web-Scraping- und Crawling-API von AnyCrawl nutzen, um LLM-taugliche Daten von beliebigen Websites zu extrahieren

Einführung

Für LLMs gemacht. Ein mehrthreadfähiger, leistungsstarker Crawler und Scraper, der sofort einsatzbereit ist. Mit einer entwicklerfreundlichen OpenAPI liefert er saubere, strukturierte Daten – optimal aufbereitet für LLMs.

AnyCrawl bietet folgende Funktionen:

Hohe Leistung

Hohe Leistung, Mehrthreading.

Vollständig Open Source

Open Source, verfügbar auf GitHub.

LLM-freundlich

Saubere, strukturierte Daten für LLMs.

OpenAPI

OpenAPI-freundlich.

API-Konventionen

Parameternamen

Die AnyCrawl-API folgt einheitlichen Namenskonventionen:

Anfrageparameter: überwiegend snake_case
- Häufige Beispiele: webhook_url, event_types, cron_expression, max_retries
- Hinweis: Einige feldspezifische Eigenschaften nutzen bestehende camelCase-Namen (z. B. timeRange bei Search).
Antwortfelder: Format snake_case
- Beispiele: task_id, webhook_id, next_execution_at, task_type, cron_expression, is_active

Für Request-Bodies gelten die Parametertabelle bzw. OpenAPI des jeweiligen Endpunkts als maßgeblich.

Antwortformat

Alle API-Antworten folgen einer einheitlichen Struktur:

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}

success: Boolescher Wert, ob die Anfrage erfolgreich war
data: Nutzdaten der Antwort (Objekt oder Array)
message: Optionale, menschenlesbare Nachricht

Fehlerantworten

Fehlerantworten enthalten detaillierte Informationen:

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable error message",
  "details": { ... }
}

Häufige HTTP-Statuscodes:

200 – Erfolg
400 – Bad Request (Validierungsfehler)
401 – Unauthorized (ungültiger API-Schlüssel)
402 – Payment Required (unzureichendes Guthaben)
404 – Not Found
429 – Too Many Requests (Ratenlimit überschritten)
500 – Internal Server Error