AnyCrawl

แคช

พฤติกรรมแคชสำหรับ API Scrape, Crawl และ Map

ภาพรวม

AnyCrawl ใช้แคชสองชั้น:

  • Page Cache: ใช้กับ /v1/scrape และการประมวลผลระดับหน้าใน /v1/crawl
  • Map Cache: ใช้กับ /v1/map สำหรับผลการค้นหา URL

พารามิเตอร์ทั่วไป

max_age (มิลลิวินาที)

  • ควบคุมพฤติกรรมการอ่านแคช
  • 0: บังคับรีเฟรช (ข้ามการอ่านแคช)
  • > 0: อนุญาตข้อมูลแคชภายในช่วงอายุนั้น
  • ไม่ระบุ: ใช้ค่าเริ่มต้นของเซิร์ฟเวอร์

store_in_cache

  • ใช้กับผลลัพธ์ระดับหน้าของ scrape/crawl
  • true (ค่าเริ่มต้น): เขียนแคช
  • false: ข้ามการเขียนแคช

use_index (เฉพาะ Map)

  • true (ค่าเริ่มต้น): อนุญาตให้ Map ใช้ดัชนี Page Cache เป็นแหล่งข้อมูลเพิ่มเติม
  • false: ปิดแหล่งนั้น

พฤติกรรมตามเอนด์พอยต์

/v1/scrape

  • สามารถอ่าน Page Cache ก่อนจัดคิวงานใหม่ได้
  • เมื่อแคชตรง การตอบกลับจะมีเมตadata ของแคช (เช่น cachedAt / maxAge)

/v1/crawl

  • ปัจจุบันไม่อ่าน Page Cache สำหรับคำขอครอลเต็มรูปแบบ
  • ยังรองรับการควบคุมการเขียนที่เกี่ยวกับแคชในตัวเลือกการดึงข้อมูลต่อหน้า

/v1/map

  • สามารถอ่าน Map Cache ได้
  • การตอบกลับไม่มีฟิลด์ fromCache แบบสาธารณะ (การใช้แคชเป็นภายใน)

เคล็ดลับการใช้งาน

  • ใช้ max_age: 0 เมื่อต้องการข้อมูลสดทันที
  • ใช้ store_in_cache: false สำหรับหน้าที่เปลี่ยนแปลงบ่อย เพื่อไม่ให้บันทึกสแนปช็อตที่ไม่เสถียร
  • สำหรับ Map ปิด use_index หากต้องการให้การค้นพบพึ่งเฉพาะ sitemap/การค้นหา/ลิงก์ในหน้า

เอกสารที่เกี่ยวข้อง