เริ่มต้นอย่างรวดเร็ว
เรียนรู้การใช้ API การดึงข้อมูลและการครอลเว็บของ AnyCrawl เพื่อดึงข้อมูลที่พร้อมสำหรับ LLM จากเว็บไซต์ใดก็ได้
บทนำ
เกิดมาเพื่อ LLM — ตัวครอลและตัวดึงข้อมูลแบบมัลติเธรดประสิทธิภาพสูง พร้อมใช้งานทันที ด้วย OpenAPI ที่เป็นมิตรกับนักพัฒนา ส่งมอบข้อมูลที่สะอาดและมีโครงสร้าง เหมาะสำหรับ LLM อย่างยิ่ง
AnyCrawl มีคุณสมบัติดังนี้:
ประสิทธิภาพสูง
ประสิทธิภาพสูง แบบมัลติเธรด
โอเพนซอร์สเต็มรูปแบบ
โอเพนซอร์ส มีบน GitHub
เหมาะกับ LLM
ข้อมูลที่สะอาดและมีโครงสร้างสำหรับ LLM
OpenAPI
เป็นมิตรกับ OpenAPI
ข้อตกลงของ API
การตั้งชื่อพารามิเตอร์
API ของ AnyCrawl ใช้ข้อตกลงการตั้งชื่อที่สอดคล้องกัน:
-
พารามิเตอร์คำขอ: ส่วนใหญ่เป็น
snake_case- ตัวอย่างทั่วไป:
webhook_url,event_types,cron_expression,max_retries - หมายเหตุ: ฟิลด์เฉพาะบางเอนด์พอยต์ใช้ชื่อ camelCase ที่มีอยู่แล้ว (เช่น
timeRangeใน Search)
- ตัวอย่างทั่วไป:
-
ฟิลด์ในการตอบกลับ: ใช้รูปแบบ
snake_case- ตัวอย่าง:
task_id,webhook_id,next_execution_at,task_type,cron_expression,is_active
- ตัวอย่าง:
สำหรับเนื้อหาคำขอ ให้อ้างอิงตารางพารามิเตอร์ของแต่ละเอนด์พอยต์/OpenAPI เป็นหลัก
รูปแบบการตอบกลับ
การตอบกลับของ API ทั้งหมดมีโครงสร้างมาตรฐาน:
{
"success": true,
"data": { ... },
"message": "Optional message"
}success: บูลีนบอกว่าคำขอสำเร็จหรือไม่data: เพย์โหลดของการตอบกลับ (อ็อบเจ็กต์หรืออาร์เรย์)message: ข้อความที่อ่านได้ (ไม่บังคับ)
การตอบกลับเมื่อเกิดข้อผิดพลาด
การตอบกลับเมื่อเกิดข้อผิดพลาดมีรายละเอียดดังนี้:
{
"success": false,
"error": "Error type",
"message": "Human-readable error message",
"details": { ... }
}รหัสสถานะ HTTP ที่พบบ่อย:
200- สำเร็จ400- คำขอไม่ถูกต้อง (ข้อผิดพลาดการตรวจสอบ)401- ไม่ได้รับอนุญาต (คีย์ API ไม่ถูกต้อง)402- ต้องชำระเงิน (เครดิตไม่พอ)404- ไม่พบ429- คำขอมากเกินไป (เกินขีดจำกัดอัตรา)500- ข้อผิดพลาดภายในเซิร์ฟเวอร์