Schnellstart
Erfahren Sie, wie Sie die Web-Scraping- und Crawling-API von AnyCrawl nutzen, um LLM-taugliche Daten von beliebigen Websites zu extrahieren
Einführung
Für LLMs gemacht. Ein mehrthreadfähiger, leistungsstarker Crawler und Scraper, der sofort einsatzbereit ist. Mit einer entwicklerfreundlichen OpenAPI liefert er saubere, strukturierte Daten – optimal aufbereitet für LLMs.
AnyCrawl bietet folgende Funktionen:
Hohe Leistung
Hohe Leistung, Mehrthreading.
Vollständig Open Source
Open Source, verfügbar auf GitHub.
LLM-freundlich
Saubere, strukturierte Daten für LLMs.
OpenAPI
OpenAPI-freundlich.
API-Konventionen
Parameternamen
Die AnyCrawl-API folgt einheitlichen Namenskonventionen:
-
Anfrageparameter: überwiegend
snake_case- Häufige Beispiele:
webhook_url,event_types,cron_expression,max_retries - Hinweis: Einige feldspezifische Eigenschaften nutzen bestehende camelCase-Namen (z. B.
timeRangebei Search).
- Häufige Beispiele:
-
Antwortfelder: Format
snake_case- Beispiele:
task_id,webhook_id,next_execution_at,task_type,cron_expression,is_active
- Beispiele:
Für Request-Bodies gelten die Parametertabelle bzw. OpenAPI des jeweiligen Endpunkts als maßgeblich.
Antwortformat
Alle API-Antworten folgen einer einheitlichen Struktur:
{
"success": true,
"data": { ... },
"message": "Optional message"
}success: Boolescher Wert, ob die Anfrage erfolgreich wardata: Nutzdaten der Antwort (Objekt oder Array)message: Optionale, menschenlesbare Nachricht
Fehlerantworten
Fehlerantworten enthalten detaillierte Informationen:
{
"success": false,
"error": "Error type",
"message": "Human-readable error message",
"details": { ... }
}Häufige HTTP-Statuscodes:
200– Erfolg400– Bad Request (Validierungsfehler)401– Unauthorized (ungültiger API-Schlüssel)402– Payment Required (unzureichendes Guthaben)404– Not Found429– Too Many Requests (Ratenlimit überschritten)500– Internal Server Error