AnyCrawl

เริ่มต้นอย่างรวดเร็ว

เรียนรู้การใช้ API การดึงข้อมูลและการครอลเว็บของ AnyCrawl เพื่อดึงข้อมูลที่พร้อมสำหรับ LLM จากเว็บไซต์ใดก็ได้

บทนำ

เกิดมาเพื่อ LLM — ตัวครอลและตัวดึงข้อมูลแบบมัลติเธรดประสิทธิภาพสูง พร้อมใช้งานทันที ด้วย OpenAPI ที่เป็นมิตรกับนักพัฒนา ส่งมอบข้อมูลที่สะอาดและมีโครงสร้าง เหมาะสำหรับ LLM อย่างยิ่ง

AnyCrawl มีคุณสมบัติดังนี้:

ประสิทธิภาพสูง

ประสิทธิภาพสูง แบบมัลติเธรด

โอเพนซอร์สเต็มรูปแบบ

โอเพนซอร์ส มีบน GitHub

เหมาะกับ LLM

ข้อมูลที่สะอาดและมีโครงสร้างสำหรับ LLM

OpenAPI

เป็นมิตรกับ OpenAPI

ข้อตกลงของ API

การตั้งชื่อพารามิเตอร์

API ของ AnyCrawl ใช้ข้อตกลงการตั้งชื่อที่สอดคล้องกัน:

  • พารามิเตอร์คำขอ: ส่วนใหญ่เป็น snake_case

    • ตัวอย่างทั่วไป: webhook_url, event_types, cron_expression, max_retries
    • หมายเหตุ: ฟิลด์เฉพาะบางเอนด์พอยต์ใช้ชื่อ camelCase ที่มีอยู่แล้ว (เช่น timeRange ใน Search)
  • ฟิลด์ในการตอบกลับ: ใช้รูปแบบ snake_case

    • ตัวอย่าง: task_id, webhook_id, next_execution_at, task_type, cron_expression, is_active

สำหรับเนื้อหาคำขอ ให้อ้างอิงตารางพารามิเตอร์ของแต่ละเอนด์พอยต์/OpenAPI เป็นหลัก

รูปแบบการตอบกลับ

การตอบกลับของ API ทั้งหมดมีโครงสร้างมาตรฐาน:

{
  "success": true,
  "data": { ... },
  "message": "Optional message"
}
  • success: บูลีนบอกว่าคำขอสำเร็จหรือไม่
  • data: เพย์โหลดของการตอบกลับ (อ็อบเจ็กต์หรืออาร์เรย์)
  • message: ข้อความที่อ่านได้ (ไม่บังคับ)

การตอบกลับเมื่อเกิดข้อผิดพลาด

การตอบกลับเมื่อเกิดข้อผิดพลาดมีรายละเอียดดังนี้:

{
  "success": false,
  "error": "Error type",
  "message": "Human-readable error message",
  "details": { ... }
}

รหัสสถานะ HTTP ที่พบบ่อย:

  • 200 - สำเร็จ
  • 400 - คำขอไม่ถูกต้อง (ข้อผิดพลาดการตรวจสอบ)
  • 401 - ไม่ได้รับอนุญาต (คีย์ API ไม่ถูกต้อง)
  • 402 - ต้องชำระเงิน (เครดิตไม่พอ)
  • 404 - ไม่พบ
  • 429 - คำขอมากเกินไป (เกินขีดจำกัดอัตรา)
  • 500 - ข้อผิดพลาดภายในเซิร์ฟเวอร์