Google Cloud mengalami salah satu gangguan paling ketara dalam ingatan baru-baru ini pada 12 Jun 2025, berlangsung kira-kira 3 jam dan menjejaskan pelbagai produk Google Cloud dan Workspace . Insiden ini bermula pada 10:49 pagi Waktu Pasifik dan disebabkan oleh gabungan ralat pengaturcaraan asas dan amalan penggunaan yang lemah yang dianggap oleh ramai dalam komuniti teknologi sebagai mengejutkan amateur bagi sebuah syarikat berstatus Google .
Garis Masa Insiden:
- Masa Mula: 12 Jun 2025, 10:49 Pagi Waktu Pacific
- Tempoh: 3 jam keseluruhan
- Punca Utama Dikenal Pasti: Dalam masa 10 minit
- Pelaksanaan Red Button: 25 minit dari mula insiden
- Pelancaran Red Button Selesai: 42 minit dari mula insiden
- Pemulihan Penuh ( us-central-1 ): 2 jam 40 minit
Punca Utama: Siri Kesilapan Yang Boleh Dicegah
Gangguan ini berpunca daripada tiga isu asas yang berkesan seperti air terjun menjadi gangguan perkhidmatan global. Pertama, Google menggunakan ciri baharu kepada sistem Service Control mereka tanpa perlindungan feature flag yang betul, bermakna ia beroperasi secara global dalam beberapa saat dan bukannya dilancarkan secara beransur-ansur. Kedua, apabila data dasar yang mengandungi medan kosong dimasukkan ke dalam pangkalan data Spanner mereka, kod gagal mengendalikan nilai null dengan betul, menyebabkan null pointer dereference yang merosak binari perkhidmatan. Akhirnya, apabila sistem cuba pulih, ia mencipta kesan thundering herd yang membebankan infrastruktur asas akibat kekurangan mekanisme percubaan semula yang betul dan exponential backoff.
Komuniti teknologi amat mengkritik kesilapan-kesilapan ini, dengan menyatakan bahawa ia mewakili kegagalan kejuruteraan asas dan bukannya isu sistem teragih yang kompleks. Ramai pembangun menunjukkan bahawa pengecualian null pointer, pengendalian ralat yang tidak mencukupi, dan dasar percubaan semula yang hilang adalah masalah buku teks yang sepatutnya dapat dikesan melalui proses ujian dan semakan kod yang betul.
Standard Kejuruteraan Google Dalam Penelitian
Insiden ini telah mencetuskan perdebatan sengit tentang sama ada standard kejuruteraan Google telah merosot dari masa ke masa. Pengkritik menyatakan ironi bahawa Google secara literal menulis buku mengenai Site Reliability Engineering ( SRE ), namun gagal mengikuti banyak amalan yang digariskan dalam penerbitan mereka sendiri. Gangguan ini melanggar beberapa prinsip asas termasuk pelancaran beransur-ansur, pengendalian ralat yang betul, ujian menyeluruh, dan mekanisme fail-safe.
Ini benar-benar perkara tahap amateur: NPE, tiada pengendalian ralat, tiada exponential backoff, tiada liputan ujian, tiada ujian dalam staging, tiada pelancaran beransur-ansur, fail deadly. Saya membaca buku SRE mereka, semua perkara ini ada di dalamnya.
Sesetengah pemerhati industri mencadangkan bahawa pemberhentian kerja baru-baru ini dan perubahan budaya di Google mungkin telah menyumbang kepada tergesa-gesa melancarkan ciri ke pengeluaran tanpa perlindungan yang mencukupi. Yang lain berhujah bahawa insiden ini mendedahkan bahawa walaupun syarikat teknologi peringkat atasan tidak kebal daripada kesilapan pengaturcaraan asas, mencabar persepsi bahawa syarikat FAANG mewakili kemuncak kecemerlangan kejuruteraan.
Kesilapan Berbilion Dolar Menyerang Lagi
Null pointer dereference yang menjadi teras gangguan ini mewakili apa yang saintis komputer Tony Hoare terkenal panggil sebagai kesilapan berbilion dolarnya - penciptaan rujukan null. Bahasa pengaturcaraan moden seperti Rust telah direka untuk mencegah ralat sedemikian melalui sistem jenis mereka, membawa kepada perbincangan baharu tentang sama ada infrastruktur kritikal perlu ditulis semula dalam bahasa memory-safe.
Walau bagaimanapun, komuniti sebahagian besarnya bersetuju bahawa pilihan bahasa pengaturcaraan bukanlah isu utama di sini. Masalah sebenar ialah proses penggunaan yang membenarkan laluan kod yang tidak diuji untuk beroperasi secara global tanpa pengesahan yang betul. Walaupun isu null pointer telah dikendalikan dengan baik, replikasi global segera perubahan konfigurasi mencipta situasi berbahaya di mana sebarang pepijat boleh segera menjejaskan semua pengguna di seluruh dunia.
Produk Google Cloud yang Terjejas: Identity and Access Management, Cloud Build, Cloud Key Management Service, Google Cloud Storage, Cloud Monitoring, Google Cloud Dataproc, Cloud Security Command Center, Artifact Registry, Resource Manager API, Dataproc Metastore, VMware Engine, Dataplex, Migrate to Virtual Machines, Google BigQuery, Google Cloud Deploy, Filestore, Media CDN, Cloud Asset Inventory, Disks/Local SSD, Google Cloud NetApp Volumes, Looker (Google Cloud Core), Secret Manager, Cloud Functions, Traffic Director
Pengajaran Yang Dipelajari dan Jalan Ke Hadapan
Respons Google termasuk senarai komprehensif penambahbaikan yang mereka rancang untuk dilaksanakan, termasuk memodulkan seni bina Service Control mereka untuk fail open dan bukannya rosak sepenuhnya, menguatkuasakan perlindungan feature flag untuk semua perubahan kritikal, dan menambah baik amalan ujian mereka untuk menangkap kes tepi seperti pengendalian data null. Mereka juga komited untuk memperlahankan replikasi data global untuk membenarkan masa bagi pengesahan dan pengesanan isu.
Insiden ini berfungsi sebagai peringatan bahawa walaupun syarikat teknologi yang paling canggih boleh menjadi mangsa kesilapan kejuruteraan asas. Walaupun post-mortem terperinci Google dan komitmen untuk penambahbaikan patut dipuji, gangguan ini sudah pasti merosakkan kepercayaan pelanggan dan berkemungkinan melanggar banyak Perjanjian Tahap Perkhidmatan, berpotensi merugikan kedua-dua Google dan pelanggan mereka berjuta-juta dolar Amerika dalam kehilangan hasil dan penalti.
Rujukan: Service Health