สรุปเหตุการณ์ Cloudflare ล่มเพราะคอนฟิกระบบผิด ไม่ได้ถูกโจมตี

หัวข้อในเนื้อหานี้

THE SUMMARY:

หลังเหตุ Cloudflare ล่มทั่วโลกเมื่อวันที่ 18 พฤศจิกายน 2025 คลี่คลายลง Cloudflare ได้เขียนบล็อกอธิบายสาเหตุของการล่มครั้งนี้ว่าเกิดจากการแก้สิทธิ์ Database พลาด ทำให้ไฟล์ Config ใหญ่เกินกว่าที่โค้ดจะรับไหว ระบบเลย Crash ทั่วโลก ไม่ได้เกิดจากการถูกโจมตีตามที่ทีมงานเข้าใจแต่แรก

ลำดับความผิดพลาด

  1. การเปลี่ยนสิทธิ์เข้าถึงข้อมูล: ทีมงานได้ทำการอัปเดตสิทธิ์การเข้าถึงในฐานข้อมูล ClickHouse เพื่อปรับปรุงความปลอดภัย แต่การเปลี่ยนแปลงนี้ส่งผลข้างเคียงทำให้คำสั่งดึงข้อมูลที่ใช้สร้างไฟล์ตั้งค่าระบบมองเห็นข้อมูลในระดับ Shard ที่ลึกขึ้น ซึ่งปกติไม่ควรมองเห็น
  2. ไฟล์ข้อมูลขยายขนาดผิดปกติ: ผลจากการมองเห็นข้อมูลที่มากขึ้น ทำให้ระบบดึงข้อมูลซ้ำซ้อน (Duplicate rows) ออกมา สร้างเป็น “Feature File” หรือไฟล์ข้อมูลสำหรับแยกว่าใครเป็นคนหรือบอท ที่มีขนาดใหญ่ขึ้นกว่าเดิมถึง 2 เท่า
  3. ระบบล่มเพราะหน่วยความจำไม่พอ: ซอฟต์แวร์พร็อกซีของ Cloudflare ถูกเขียนโปรแกรมไว้ให้รองรับขนาดของ Feature File ได้จำกัด (Hard limit ที่ 200 features) เพื่อจองหน่วยความจำล่วงหน้า

เมื่อไฟล์ที่มีขนาดเกินลิมิตถูกกระจายไปยังเซิร์ฟเวอร์ทั่วโลก โค้ดส่วนที่ประมวลผลจึงเกิดอาการ Panic (หยุดทำงานทันที) เพราะไม่สามารถจัดการกับข้อมูลที่ล้นเกินมาได้ ส่งผลให้เกิด Error 5xx ทั่วทั้งเครือข่าย ผู้ใช้งานอินเทอร์เน็ตทั่วโลกจึงขึ้นหน้า HTTP 5xx Error ซึ่งมีความสับสนในช่วงแรกเพราะหน้า Status Page ของ Cloudflare ก็ล่มไปพร้อมกันด้วยเหตุบังเอิญ ทำให้ทีมงานเข้าใจผิดว่าโดนโจมตี

ส่วนบริการย่อยอื่นๆ เช่น Turnstile (ระบบตรวจจับบอท), Workers KV, และหน้า Dashboard สำหรับล็อกอินเข้าใช้งานระบบ ไม่สามารถใช้งานได้

การแก้ไข

ทีมวิศวกรแก้ไขโดยการหยุดระบบที่สร้างไฟล์ที่มีปัญหา และ Rollback ไปใช้ไฟล์เวอร์ชันก่อนหน้าที่ใช้งานได้ด้วยตนเอง ระบบจึงค่อย ๆ กลับมาทำงานปกติในช่วงเวลาประมาณ 14:30 UTC และกลับมาสมบูรณ์ 100% ในเวลา 17:06 UTC

อ้างอิง: Cloudflare

บรรณาธิการ CEEi ดูแลเนื้อหาด้านเทคโนโลยี Gadget ทุกประเภท

Advertisement

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...