Gangguan Besar AWS Ganggu Perkhidmatan Internet Global

Pasukan Editorial BigGo

Gangguan Besar AWS Ganggu Perkhidmatan Internet Global

Gangguan meluas di Amazon Web Services, platform pengkomputeran awan terbesar di dunia, telah menyebabkan gangguan ketara kepada apl popular, laman web, dan perkhidmatan penting di peringkat global pada 20 Oktober 2025. Insiden yang berlanjutan selama beberapa jam ini menonjolkan kebergantungan tinggi internet terhadap infrastruktur awan dan menimbulkan persoalan mengenai kegagalan titik tunggal dalam ekosistem digital moden.

Skop Gangguan

Gangguan AWS bermula pada awal pagi 20 Oktober 2025, dengan laporan pertama muncul sekitar 3 pagi EST. Gangguan tersebut dengan pantas merebak merentasi beberapa benua, menjejaskan segala-galanya daripada apl hiburan hingga perkhidmatan kerajaan kritikal. Menurut perkhidmatan penjejakan gangguan Downdetector, laporan memuncak dengan lebih 13,000 aduan pengguna di Amerika Syarikat sahaja, manakala laporan global mencadangkan berjuta-juta pengguna terjejas merentasi lebih 1,000 syarikat dan perkhidmatan. Insiden ini mewakili salah satu gangguan internet terbesar sejak gangguan CrowdStrike tahun sebelumnya yang melumpuhkan bank dan lapangan terbang di seluruh dunia.

Punca Akar Teknikal Dikenal pasti

Amazon menjejaki masalah tersebut ke wilayah US-EAST-1 di Virginia, yang berfungsi sebagai hab pusat data asal dan terbesar syarikat. Syarikat itu mengenal pasti isu tersebut berpunca daripada kecacatan dalam sistem dalaman yang memantau kesihatan pembahagi beban rangkaian dalam infrastruktur rangkaian EC2 mereka. Kegagalan teknikal ini menyebabkan apa yang digambarkan AWS sebagai peningkatan kadar ralat dan kelengahan serta ralat API merentasi pelbagai perkhidmatan AWS. Masalah ini amat ketara kerana US-EAST-1 berfungsi sebagai wilayah lalai bagi banyak pelanggan AWS dan mengandungi kapasiti atas permintaan yang besar, menjadikan kegagalannya amat memberi kesan.

Butiran Impak Teknikal:

Kawasan utama terjejas: US-EAST-1 (Northern Virginia)
Punca akar: Kelemahan dalam pengimbang beban rangkaian pemantauan sistem dalaman kesihatan rangkaian EC2
Kesan sekunder: Ralat API, peningkatan kelembapan, kegagalan resolusi DNS
Tindakan pemulihan: Pembilasan cache DNS disyorkan, pelaksanaan penghaddan permintaan, pemprosesan tunggakan untuk Cloudtrail dan Lambda

Kesan Perkhidmatan yang Luas

Gangguan tersebut mencipta kesan domino merentasi landskap digital. Perkhidmatan pengguna popular termasuk Snapchat, Fortnite, Roblox, Coinbase, dan Signal menjadi tidak boleh diakses oleh pengguna. Perkhidmatan Amazon sendiri seperti pembesar suara pintar Alexa, sistem keselamatan Ring, dan Prime Video juga terjejas. Lebih kritikal, gangguan itu meluas kepada perkhidmatan penting termasuk laporan mengenai kesan terhadap perkhidmatan NHS di UK, institusi perbankan British seperti Lloyds, dan badan kutipan cukai British HMRC. National Rail di UK mengarahkan penumpang kepada sumber maklumat alternatif apabila laman web dan apl mereka menjadi tidak tersedia semasa insiden tersebut.

Perkhidmatan Yang Terjejas Semasa Gangguan AWS:

Sosial/Hiburan: Snapchat, Fortnite, Roblox, Coinbase, Signal, Reddit, Apple TV, Duolingo
Perkhidmatan Amazon: Alexa, Ring, Prime Video, Amazon Click and Collect
Kewangan: Venmo, Lloyds Bank
Perkhidmatan Kerajaan: NHS (UK), HMRC (pihak berkuasa cukai UK), National Rail (UK)
Lain-lain: Instacart, Perplexity, Canva

Usaha Pemulihan dan Cabaran Berterusan

AWS memulakan usaha mitigasi beberapa jam selepas gangguan bermula, dengan syarikat itu menyatakan bahawa isu DNS telah diatasi sepenuhnya dan kebanyakan operasi perkhidmatan berjaya berfungsi secara normal. Walau bagaimanapun, proses pemulihan menghadapi cabaran ketara. AWS melaksanakan penghadangan permintaan untuk pelayan maya baharu dalam usaha mempercepatkan proses pemulihan dan mengakui bahawa beberapa perkhidmatan sedang menguruskan longgokan peristiwa dalam sistem seperti Cloudtrail dan Lambda. Syarikat itu khususnya menyatakan bahawa permintaan untuk melancarkan contoh EC2 baharu di wilayah US-EAST-1 masih mengalami peningkatan kadar ralat walaupun perkhidmatan lain stabil.

Garis Masa Kemas Kini Kesihatan Perkhidmatan AWS:

Pengenalpastian isu awal: ~3 pagi EST (20 Oktober 2025)
Punca masalah dikenal pasti: Isu resolusi DNS dengan API DynamoDB di US-EAST-1
Mitigasi diumumkan: Beberapa jam selepas gangguan bermula
Isu berterusan: Pelancaran instance EC2 terus mengalami ralat selepas penyelesaian utama
Status pemulihan: Kebanyakan perkhidmatan beroperasi dengan beberapa pemprosesan tunggakan yang berterusan

Implikasi Lebih Luas untuk Pengkomputeran Awan

Insiden ini telah mencetuskan perbincangan semula mengenai penumpuan infrastruktur internet dalam beberapa pembekal awan utama. Pakar keselamatan siber menyatakan bahawa AWS menguasai kira-kira 30% pasaran infrastruktur awan global, bermakna sebarang gangguan boleh mempunyai akibat yang meluas. Profesional industri serta-merta mula mengadvokasikan strategi multi-awan yang lebih kukuh dan perancangan pemulihan bencana yang lebih baik. Gangguan ini berfungsi sebagai peringatan nyata mengenai kerapuhan internet apabila perkhidmatan kritikal bergantung heavily pada wilayah pengkomputeran awan tunggal daripada pembekal individu.

Kebimbangan Keselamatan Semasa Pemulihan

Pakar keselamatan memberi amaran bahawa tempoh pemulihan membentangkan risiko tambahan selain daripada gangguan perkhidmatan segera. Ketua perusahaan Check Point Software, Charlotte Wilson, menegaskan bahawa penyerang sering mengambil kesempatan daripada situasi sedemikian apabila syarikat tergesa-gesa memulihkan akses dan sistem berada dalam keadaan tertekan. Beliau khususnya menekankan potensi untuk tawaran bayaran balik atau diskaun palsu, e-mel penipuan, dan pautan penipuan yang mendakwa boleh menyelesaikan masalah. Ini mencipta landskap ancaman sekunder yang memerlukan kewaspadaan daripada kedua-dua pembekal perkhidmatan dan pengguna semasa fasa pemulihan.

Pengajaran untuk Kesinambungan Perniagaan

Gangguan AWS telah mendorong perniagaan untuk menilai semula kebergantungan awan dan strategi pemulihan bencana mereka. Penasihat teknologi mengesyorkan agar organisasi mengelakkan menyimpan semua infrastruktur mereka dalam satu pembekal awan dan menekankan kepentingan menguji sistem pemindahan kerap. Insiden ini menunjukkan bahawa walaupun dengan infrastruktur awan yang kukuh, titik kegagalan tunggal masih boleh menyebabkan gangguan perniagaan yang ketara. Apabila perkhidmatan beransur pulih normal sepanjang hari, industri teknologi mula menilai perubahan struktur apa yang mungkin diperlukan untuk mengelakkan gangguan meluas yang serupa pada masa hadapan.