Pada 21 Agustus 2025, pola lalu lintas yang tidak biasa dari satu pelanggan menyebabkan konektivitas antara Cloudflare dan wilayah us-east-1 Amazon Web Services terputus selama hampir empat jam. Insiden ini telah memicu diskusi intens di komunitas teknologi tentang perencanaan kapasitas jaringan, isolasi pelanggan, dan kerapuhan infrastruktur internet.
Pemadaman dimulai ketika satu pelanggan mulai membuat permintaan besar-besaran untuk konten yang di-cache dari AWS us-east-1, menghasilkan lalu lintas respons yang benar-benar memenuhi semua koneksi langsung antara kedua raksasa teknologi tersebut. Yang membuat ini sangat merusak adalah bahwa aliran lalu lintas berjalan dari Cloudflare ke AWS , yang berarti Cloudflare pada dasarnya membanjiri tautan jaringannya sendiri dengan respons terhadap permintaan yang sah.
Kronologi Insiden
- 16:27 UTC: Lonjakan traffic dimulai, menggandakan total traffic Cloudflare ke AWS
- 16:57 UTC: AWS mulai menarik prefix BGP pada link yang mengalami kemacetan
- 17:22 UTC: Penarikan BGP meningkatkan traffic yang terputus dan dampak insiden
- 19:05 UTC: Pembatasan rate pada customer bermasalah mengurangi kemacetan
- 19:27 UTC: Tindakan traffic engineering mengatasi kemacetan
- 20:07 UTC: AWS menyelesaikan pemulihan prefix BGP
- Total Durasi: ~3 jam 40 menit
![]() |
---|
Postingan blog ini menguraikan insiden signifikan dimana pola lalu lintas yang tidak biasa mengakibatkan masalah konektivitas antara Cloudflare dan AWS, memicu diskusi tentang keandalan infrastruktur |
Tantangan Implementasi Teknis
Komunitas telah aktif memperdebatkan bagaimana Cloudflare dapat mencegah insiden serupa di masa depan. Solusi yang diusulkan berupa anggaran lalu lintas per pelanggan terdengar mudah, tetapi implementasinya terbukti kompleks. Memproses paket untuk mengidentifikasi pelanggan mana yang mereka miliki sebelum membuangnya mungkin sebenarnya lebih lambat daripada sekadar meneruskannya, terutama ketika antrian router edge sudah penuh.
Namun, kasus spesifik ini menawarkan jalan yang lebih jelas ke depan. Karena masalahnya adalah respons Cloudflare daripada permintaan masuk, perusahaan dapat dengan mudah berhenti mengirim respons atau mengembalikan kode HTTP 429 (batas tarif) ketika pelanggan melebihi alokasi mereka. Sistem Linux modern juga dapat menggunakan program BPF-XDP untuk membuang lalu lintas di tingkat driver sebelum pemrosesan yang signifikan terjadi.
Langkah-langkah Mitigasi yang Direncanakan
- Jangka pendek: Deprioritisasi lalu lintas selektif untuk pelanggan yang menyebabkan kemacetan
- Jangka menengah: Percepatan peningkatan kapasitas Data Center Interconnect ( DCI )
- Jangka panjang: Sistem manajemen lalu lintas yang ditingkatkan dengan anggaran sumber daya per pelanggan
- Koordinasi: Peningkatan koordinasi rekayasa lalu lintas BGP dengan AWS
Pemeriksaan Realitas Infrastruktur
Insiden ini telah menyoroti betapa terbatasnya kapasitas tulang punggung internet, bahkan antara penyedia utama. Sementara ISP yang lebih kecil mungkin beroperasi dengan koneksi hanya 10 Gbps ke mitra peering, tautan Cloudflare - AWS secara teoritis seharusnya memiliki kapasitas yang jauh lebih tinggi. Namun komunitas mencatat bahwa bahkan dengan beberapa koneksi 100 Gbps, pelanggan yang bertekad dengan akses ke sumber daya komputasi besar AWS berpotensi menghasilkan lalu lintas yang cukup untuk menyebabkan kemacetan.
Luar biasa bahwa lalu lintas cache-hit satu penyewa dapat menggulingkan kapasitas interkoneksi Cloudflare
Situasi diperburuk oleh rangkaian masalah: satu tautan peering langsung sudah beroperasi pada setengah kapasitas karena kegagalan yang sudah ada sebelumnya, dan ketika AWS secara otomatis menarik beberapa rute jaringan untuk mengurangi kemacetan, lalu lintas dialihkan ke koneksi cadangan yang tidak dapat menangani beban.
![]() |
---|
Diagram teknis menunjukkan alur data antara pusat data Cloudflare dan AWS, yang secara visual menggambarkan interaksi yang berkontribusi pada insiden konektivitas pada 21 Agustus 2025 |
Pola Kegagalan Swiss Cheese
Insiden ini mencontohkan apa yang disebut insinyur sebagai kegagalan Swiss Cheese - beberapa masalah kecil yang sejajar untuk menciptakan pemadaman besar. Cloudflare telah terbiasa dengan koneksi peering besar mereka bekerja dengan andal, berpotensi menyebabkan kemalasan tentang memelihara sistem cadangan dan mengatasi tautan sekunder yang terdegradasi dengan segera.
Diskusi komunitas mengungkapkan bahwa penarikan rute AWS kemungkinan otomatis, dirancang untuk mendeteksi kemacetan dan mengurangi lalu lintas secara otomatis. Meskipun ini biasanya bekerja dengan baik, hal ini menjadi bumerang ketika rute cadangan memiliki kapasitas yang tidak mencukupi, mengubah masalah yang dapat dikelola menjadi pemadaman yang meluas.
Faktor Teknis yang Berkontribusi pada Gangguan
- Lonjakan lalu lintas pelanggan tunggal dari AWS us-east-1 ke Cloudflare
- Satu tautan peering langsung beroperasi pada kapasitas 50% karena kegagalan yang sudah ada sebelumnya
- Kapasitas Data Center Interconnect (DCI) tidak mencukupi untuk lalu lintas yang dialihkan
- Penarikan rute BGP otomatis AWS mengalihkan lalu lintas ke tautan cadangan yang kelebihan beban
- Intervensi manual diperlukan untuk pembatasan laju dan rekayasa lalu lintas
Melihat ke Depan
Cloudflare telah menguraikan solusi jangka pendek dan jangka panjang, termasuk mengembangkan mekanisme untuk secara selektif menurunkan prioritas lalu lintas bermasalah dan membangun sistem manajemen lalu lintas yang ditingkatkan dengan alokasi sumber daya per pelanggan. Perusahaan juga bekerja dengan AWS untuk memastikan sistem rekayasa lalu lintas otomatis mereka tidak bertentangan satu sama lain dalam insiden masa depan.
Pelajaran yang lebih luas untuk komunitas infrastruktur internet jelas: karena komputasi awan memungkinkan pelanggan menghasilkan jumlah lalu lintas yang belum pernah ada sebelumnya sesuai permintaan, penyedia harus membangun sistem isolasi dan pembatasan tarif yang lebih canggih. Hari-hari hanya menyediakan pipa besar dan berharap yang terbaik mungkin akan berakhir.
Referensi: Insiden Cloudflare pada 21 Agustus 2025
![]() |
---|
Kaca pembesar melambangkan komitmen Cloudflare untuk meneliti dan meningkatkan sistem manajemen lalu lintas guna mencegah pemadaman di masa depan dan meningkatkan ketahanan infrastruktur |