Bắt đầu nhanh
Cách dùng API thu thập và crawl web của AnyCrawl để trích xuất dữ liệu sẵn sàng cho LLM từ bất kỳ trang web nào
Giới thiệu
Sinh ra cho LLM. Crawler và scraper đa luồng, hiệu năng cao, dùng được ngay. Với OpenAPI thân thiện lập trình viên, trả về dữ liệu sạch, có cấu trúc, tối ưu cho LLM.
AnyCrawl có các tính năng sau:
Hiệu năng cao
Hiệu năng cao, đa luồng.
Mã nguồn mở hoàn toàn
Mã nguồn mở, có trên GitHub.
Thân thiện LLM
Dữ liệu sạch, có cấu trúc cho LLM.
OpenAPI
Thân thiện OpenAPI.
Quy ước API
Đặt tên tham số
API AnyCrawl tuân theo quy ước đặt tên nhất quán:
-
Tham số request: Chủ yếu
snake_case- Ví dụ thường gặp:
webhook_url,event_types,cron_expression,max_retries - Lưu ý: một số trường riêng từng endpoint dùng camelCase (ví dụ
timeRangetrong Search).
- Ví dụ thường gặp:
-
Trường response: Dùng định dạng
snake_case- Ví dụ:
task_id,webhook_id,next_execution_at,task_type,cron_expression,is_active
- Ví dụ:
Với body request, hãy dựa vào bảng tham số/OpenAPI của từng endpoint làm nguồn sự thật.
Định dạng response
Mọi response API đều theo cấu trúc chuẩn:
{
"success": true,
"data": { ... },
"message": "Optional message"
}success: Boolean cho biết request có thành công khôngdata: Payload trả về (object hoặc array)message: Thông báo tùy chọn, dễ đọc
Response lỗi
Response lỗi kèm thông tin chi tiết:
{
"success": false,
"error": "Error type",
"message": "Human-readable error message",
"details": { ... }
}Mã HTTP thường gặp:
200- Thành công400- Bad Request (lỗi validation)401- Unauthorized (API key không hợp lệ)402- Payment Required (không đủ credits)404- Not Found429- Too Many Requests (vượt rate limit)500- Internal Server Error