快速開始
了解如何使用 AnyCrawl 的網頁抓取和爬蟲 API 從任何網站提取 LLM 就緒資料
簡介
為 LLM 而生。一個多執行緒、高效能的爬蟲和抓取工具,開箱即用。透過開發者友好的 OpenAPI,提供乾淨、結構化的資料,完美適配 LLM。
AnyCrawl 具有以下特性:
高效能
高效能,多執行緒。
完全開源
開源專案,託管在 Github。
LLM 友好
為 LLM 提供乾淨、結構化的資料。
OpenAPI
OpenAPI 友好。
API 約定
參數命名
AnyCrawl API 遵循一致的命名約定:
-
請求參數:主要使用
snake_case- 常見範例:
webhook_url、event_types、cron_expression、max_retries - 注意:少數端點特定欄位使用現有的 camelCase 名稱(例如 Search 中的
timeRange)。
- 常見範例:
-
回應欄位:使用
snake_case格式- 範例:
task_id、webhook_id、next_execution_at、task_type、cron_expression、is_active
- 範例:
對於請求主體,以各端點的參數表/OpenAPI 為準。
回應格式
所有 API 回應遵循標準結構:
{
"success": true,
"data": { ... },
"message": "Optional message"
}success:布林值,表示請求是否成功data:回應資料(物件或陣列)message:可選的人類可讀訊息
錯誤回應
錯誤回應包含詳細資訊:
{
"success": false,
"error": "Error type",
"message": "Human-readable error message",
"details": { ... }
}常見 HTTP 狀態碼:
200- 成功400- 請求錯誤(驗證錯誤)401- 未授權(無效的 API 金鑰)402- 需要付費(積分不足)404- 未找到429- 請求過多(超出速率限制)500- 內部伺服器錯誤