Pada 21 Ogos 2025, corak trafik luar biasa daripada seorang pelanggan tunggal telah menjatuhkan sambungan antara Cloudflare dan rantau us-east-1 Amazon Web Services selama hampir empat jam. Insiden ini telah mencetuskan perbincangan sengit dalam komuniti teknologi mengenai perancangan kapasiti rangkaian, pengasingan pelanggan, dan kerapuhan infrastruktur internet.
Gangguan bermula apabila seorang pelanggan mula membuat permintaan besar-besaran untuk kandungan cache daripada AWS us-east-1, menghasilkan trafik respons yang benar-benar memenuhi semua sambungan langsung antara kedua-dua gergasi teknologi tersebut. Apa yang menjadikan ini amat merosakkan ialah aliran trafik pergi dari Cloudflare ke AWS, bermakna Cloudflare pada dasarnya membanjiri pautan rangkaiannya sendiri dengan respons kepada permintaan yang sah.
Garis Masa Insiden
- 16:27 UTC: Lonjakan trafik bermula, menggandakan jumlah trafik Cloudflare-ke-AWS
- 16:57 UTC: AWS mula menarik balik awalan BGP pada pautan yang sesak
- 17:22 UTC: Penarikan balik BGP meningkatkan trafik yang digugurkan dan kesan
- 19:05 UTC: Pengehadan kadar pelanggan bermasalah mengurangkan kesesakan
- 19:27 UTC: Tindakan kejuruteraan trafik menyelesaikan kesesakan
- 20:07 UTC: AWS melengkapkan pemulihan awalan BGP
- Jumlah Tempoh: ~3 jam 40 minit
![]() |
---|
Catatan blog ini menggariskan insiden penting di mana corak trafik luar biasa mengakibatkan masalah sambungan antara Cloudflare dan AWS, mencetuskan perbincangan mengenai kebolehpercayaan infrastruktur |
Cabaran Pelaksanaan Teknikal
Komuniti telah aktif membahaskan bagaimana Cloudflare boleh mencegah insiden serupa pada masa hadapan. Penyelesaian yang dicadangkan iaitu bajet trafik setiap pelanggan kedengaran mudah, tetapi pelaksanaannya terbukti rumit. Memproses paket untuk mengenal pasti pelanggan mana yang mereka miliki sebelum menggugurkannya mungkin sebenarnya lebih perlahan daripada sekadar memajukannya, terutamanya apabila barisan penghala pinggir sudah penuh.
Walau bagaimanapun, kes khusus ini menawarkan jalan ke hadapan yang lebih jelas. Memandangkan masalahnya adalah respons Cloudflare dan bukannya permintaan masuk, syarikat itu boleh berhenti menghantar respons atau mengembalikan kod HTTP 429 (had kadar) apabila pelanggan melebihi peruntukan mereka. Sistem Linux moden juga boleh menggunakan program BPF-XDP untuk menggugurkan trafik di peringkat pemacu sebelum sebarang pemprosesan penting berlaku.
Langkah-langkah Mitigasi yang Dirancang
- Jangka pendek: Penyahutamaan trafik terpilih untuk pelanggan yang menyebabkan kesesakan
- Jangka sederhana: Peningkatan kapasiti Data Center Interconnect ( DCI ) yang dipercepatkan
- Jangka panjang: Sistem pengurusan trafik yang dipertingkatkan dengan belanjawan sumber setiap pelanggan
- Penyelarasan: Penyelarasan kejuruteraan trafik BGP yang diperbaiki dengan AWS
Semakan Realiti Infrastruktur
Insiden ini telah menyerlahkan betapa terhad kapasiti tulang belakang internet, walaupun antara pembekal utama. Walaupun ISP yang lebih kecil mungkin beroperasi dengan hanya sambungan 10 Gbps kepada rakan kongsi peering, pautan Cloudflare-AWS secara teorinya sepatutnya mempunyai kapasiti yang jauh lebih tinggi. Namun komuniti menyatakan bahawa walaupun dengan berbilang sambungan 100 Gbps, pelanggan yang berazam dengan akses kepada sumber pengkomputeran besar-besaran AWS berpotensi menghasilkan trafik yang mencukupi untuk menyebabkan kesesakan.
Menakjubkan bahawa trafik cache-hit seorang penyewa boleh menjatuhkan kapasiti interconnect Cloudflare
Keadaan diburukkan lagi oleh masalah berturut-turut: satu pautan peering langsung sudah beroperasi pada separuh kapasiti kerana kegagalan sedia ada, dan apabila AWS secara automatik menarik balik beberapa laluan rangkaian untuk mengurangkan kesesakan, trafik dialihkan kepada sambungan sandaran yang tidak dapat mengendalikan beban tersebut.
![]() |
---|
Diagram teknikal menunjukkan aliran data antara pusat data Cloudflare dan AWS , yang menggambarkan secara visual interaksi yang menyumbang kepada insiden sambungan pada 21 Ogos 2025 |
Corak Kegagalan Swiss Cheese
Insiden ini menggambarkan apa yang dipanggil jurutera sebagai kegagalan Swiss Cheese - berbilang masalah kecil yang sejajar untuk mencipta gangguan besar. Cloudflare telah terbiasa dengan sambungan peering besar mereka berfungsi dengan boleh dipercayai, berpotensi membawa kepada sikap sambil lewa tentang mengekalkan sistem sandaran dan menangani pautan sekunder yang terdegradasi dengan segera.
Perbincangan komuniti mendedahkan bahawa penarikan laluan AWS berkemungkinan automatik, direka untuk mengesan kesesakan dan mengurangkan trafik secara automatik. Walaupun ini biasanya berfungsi dengan baik, ia menjadi bumerang apabila laluan sandaran mempunyai kapasiti yang tidak mencukupi, mengubah masalah yang boleh diurus menjadi gangguan yang meluas.
Faktor Teknikal yang Menyumbang kepada Gangguan
- Lonjakan trafik pelanggan tunggal dari AWS us-east-1 ke Cloudflare
- Satu pautan peering terus beroperasi pada kapasiti 50% akibat kegagalan sedia ada
- Kapasiti Data Center Interconnect (DCI) tidak mencukupi untuk trafik yang dialihkan
- Penarikan laluan BGP automatik AWS mengalihkan trafik ke pautan sandaran yang terbeban
- Campur tangan manual diperlukan untuk pengehadan kadar dan kejuruteraan trafik
Memandang ke Hadapan
Cloudflare telah menggariskan penyelesaian jangka pendek dan jangka panjang, termasuk membangunkan mekanisme untuk menurunkan keutamaan trafik bermasalah secara selektif dan membina sistem pengurusan trafik yang dipertingkatkan dengan peruntukan sumber setiap pelanggan. Syarikat itu juga bekerjasama dengan AWS untuk memastikan sistem kejuruteraan trafik automatik mereka tidak bercanggah antara satu sama lain dalam insiden masa hadapan.
Pengajaran yang lebih luas untuk komuniti infrastruktur internet adalah jelas: memandangkan pengkomputeran awan membolehkan pelanggan menghasilkan jumlah trafik yang tidak pernah berlaku sebelum ini atas permintaan, pembekal mesti membina sistem pengasingan dan pengehadan kadar yang lebih canggih. Zaman hanya menyediakan paip besar dan berharap yang terbaik mungkin akan berakhir.
Rujukan: Insiden Cloudflare pada 21 Ogos 2025
![]() |
---|
Kanta pembesar melambangkan komitmen Cloudflare untuk meneliti dan menambah baik sistem pengurusan trafik bagi mencegah gangguan masa depan dan meningkatkan daya tahan infrastruktur |