Clubhouse Meninggalkan OpenTelemetry untuk Penyelesaian Tersuai, Mencapai Sasaran Kos 500 Dolar Amerika Per Petabyte

Pasukan Komuniti BigGo
Clubhouse Meninggalkan OpenTelemetry untuk Penyelesaian Tersuai, Mencapai Sasaran Kos 500 Dolar Amerika Per Petabyte

Clubhouse telah menimbulkan gelombang dalam komuniti kebolehperhatian dengan meninggalkan rangka kerja standard industri OpenTelemetry (OTel) demi penyelesaian pengelogan tersuai. Langkah ini membantu mereka mencapai matlamat bercita-cita tinggi untuk memproses data kebolehperhatian pada kos hanya 500 dolar Amerika per petabyte sambil mengendalikan lebih 100 petabyte data termampat setiap hari.

Keputusan ini telah mencetuskan perdebatan sengit dalam kalangan pembangun tentang sama ada pengumpulan data besar-besaran sedemikian diperlukan atau hanya pembaziran. Syarikat kini memproses 100 bilion peristiwa setiap hari, menimbulkan persoalan tentang nilai menyimpan jumlah data log yang begitu besar.

Pencapaian Skala Kebolehperhati Clubhouse

Metrik Skala Tarikh Pencapaian
Peristiwa setiap hari 100 Bilion Oktober 2023
Data yang diproses setiap hari (termampat) 100+ Petabait November 2023
Sasaran kecekapan kos $500 USD setiap Petabait Matlamat semasa
Kos operasi harian Bawah $50,000 USD Sasaran semasa

Perdebatan Pengelogan Besar: Simpan Semua atau Bersikap Selektif

Komuniti terbahagi dua mengenai pendekatan Clubhouse terhadap pengumpulan data. Pengkritik berpendapat bahawa menyimpan 100 petabyte log menunjukkan pertimbangan kejuruteraan yang lemah dan bukannya pencapaian teknikal. Mereka mencadangkan bahawa kebanyakan data ini terdiri daripada maklumat nyahpepijat yang jarang diperiksa melainkan sistem pengeluaran mengalami isu kritikal.

menyimpan 100PB log hanya bermakna kita belum mengetahui apa yang sebenarnya berbaloi untuk dilog. metrik + peristiwa berstruktur biasanya boleh menceritakan 90% daripada keseluruhan cerita.

Walau bagaimanapun, penyokong menentang dengan menyatakan bahawa mempunyai data komprehensif yang tersedia adalah penting untuk menyahpepijat isu yang tidak dijangka. Mereka menunjukkan bahawa menapis log terlalu agresif boleh menyebabkan jurutera tidak mempunyai maklumat yang diperlukan semasa menyiasat masalah kompleks yang tidak dijangka semasa reka bentuk pengelogan awal.

Perdebatan ini mencerminkan ketegangan asas dalam pembangunan perisian moden antara pengoptimuman kos dan keterlihatan operasi. Sesetengah organisasi memilih pengelogan ringkas dengan kurasi berhati-hati, manakala yang lain menggunakan pendekatan kumpul segala-galanya dan tapis kemudian.

Seni Bina Teknikal: Memudahkan Saluran Paip Data

Penyelesaian teknikal Clubhouse melibatkan penyingkiran lapisan pengumpul OpenTelemetry, yang mereka dapati menambah kerumitan dan overhed yang tidak perlu. Sebaliknya, mereka melaksanakan saluran paip langsung menggunakan FluentBit untuk mengalirkan log aplikasi terus ke dalam ClickHouse, asas pangkalan data kolumnar mereka.

Perubahan seni bina ini mengurangkan keperluan pemprosesan mereka secara dramatik. Syarikat melaporkan memerlukan 8,000 teras CPU untuk mengendalikan pemprosesan log JSON dalam persediaan sebelumnya, berbanding hanya 90 teras dengan pendekatan baharu mereka. Saluran paip yang dipermudahkan menghapuskan pelbagai langkah pensirialan dan penyahsirialan yang memakan sumber pengiraan yang ketara.

Sistem baharu menggunakan skema jadual lebar dalam ClickHouse, membolehkan jurutera menyimpan data peristiwa yang pelbagai dalam struktur jadual tunggal. Pendekatan ini membolehkan pertanyaan yang lebih pantas dan korelasi peristiwa berkaitan yang lebih baik semasa sesi penyelesaian masalah.

Perbandingan Seni Bina Teknikal

Persediaan Terdahulu (dengan OpenTelemetry):

  • Container stdout → CRI-O/dockerd
  • FluentBit menangkap dan memperkaya dengan metadata Kubernetes
  • Pengumpul OTel memproses data dalam memori
  • OTel menolak data yang telah diubah ke backend streaming
  • ClickHouse menerima dan menyimpan data
  • Diperlukan: 8,000 teras CPU untuk pemprosesan JSON

Persediaan Baharu (Pipeline Tersuai):

  • FluentBit terus ke streaming ClickHouse
  • Penghalaan acara berasaskan Lua dalam FluentBit
  • Skema jadual luas untuk analisis khusus
  • Diperlukan: 90 teras CPU (pengurangan 99%)

Pertukaran Antara Kos dan Masa Kejuruteraan

Implikasi kewangan platform kebolehperhatian telah menjadi kebimbangan utama bagi pasukan kejuruteraan. Beberapa ahli komuniti berkongsi pengalaman dengan vendor seperti Datadog dan Splunk, di mana pembaharuan kontrak sering mencetuskan langkah pemotongan kos yang agresif yang boleh menjejaskan keterlihatan sistem.

Organisasi semakin terpaksa mengimbangi tingkah laku sistem yang boleh diperhatikan dengan kekangan bajet. Sesetengah syarikat mendedikasikan 5-10% daripada jumlah bajet mereka untuk pengelogan dan kebolehperhatian, melihatnya sebagai pelaburan infrastruktur penting. Yang lain bergelut untuk membenarkan kos ini, terutamanya apabila nilai sukar dikuantifikasi dalam metrik perniagaan tradisional.

Cabaran menjadi lebih kompleks apabila mempertimbangkan kos tersembunyi kebolehperhatian yang tidak mencukupi. Jurutera mungkin menghabiskan jam atau hari menyiasat isu yang boleh diselesaikan dalam beberapa minit dengan data pengesanan dan pengelogan yang betul. Walau bagaimanapun, mengkuantifikasi kesan produktiviti ini kekal sukar bagi kebanyakan organisasi.

Prestasi Pangkalan Data pada Skala Besar

Peranan ClickHouse sebagai asas penyimpanan telah menarik perhatian ketara daripada komuniti. Pengguna melaporkan peningkatan prestasi yang dramatik berbanding pangkalan data tradisional, dengan sesetengahnya mengalami peningkatan kelajuan 50 kali ganda untuk beban kerja analitik yang melibatkan set data besar.

Walau bagaimanapun, ClickHouse datang dengan set cabarannya sendiri. Pangkalan data berfungsi terbaik dengan corak data yang tidak boleh diubah dan hanya tambah, menjadikannya kurang sesuai untuk aplikasi yang memerlukan kemas kini yang kerap. Kebergantungannya pada sistem koordinasi seperti Zookeeper juga memperkenalkan kerumitan operasi yang sesetengah pasukan dapati membebankan.

Model penyimpanan kolumnar pangkalan data cemerlang dalam mengendalikan skema peristiwa lebar yang digunakan oleh Clubhouse, membolehkan pertanyaan yang cekap terhadap lajur data tertentu tanpa mengimbas keseluruhan set data. Keupayaan ini menjadi penting apabila memproses volum maklumat berskala petabyte.

Pertimbangan Peraturan dan Privasi

Perbincangan juga telah menyerlahkan kebimbangan peraturan yang penting, terutamanya mengenai pengekalan data dan pematuhan privasi. Peraturan GDPR Eropah mengehadkan tempoh organisasi boleh mengekalkan log yang mungkin mengandungi maklumat peribadi, biasanya mengehadkan log analisis ralat am kepada kira-kira satu bulan.

Rangka kerja peraturan ini memaksa syarikat untuk lebih sengaja tentang data yang mereka kumpul dan kekalkan jangka panjang. Sesetengah organisasi mendapati bahawa pematuhan GDPR sebenarnya meningkatkan amalan pengelogan mereka dengan menggalakkan strategi pengumpulan data yang lebih berfikiran.

Cabaran menjadi mengimbangi keterlihatan sistem yang komprehensif dengan keperluan privasi dan kos penyimpanan. Platform kebolehperhatian moden mula menawarkan penyelesaian penyimpanan berperingkat yang boleh mengarkibkan log terperinci sambil mengekalkan data yang kerap diakses dalam peringkat penyimpanan yang lebih pantas dan lebih mahal.

Kesimpulan

Keputusan Clubhouse untuk menggantikan OpenTelemetry dengan penyelesaian tersuai mencerminkan ketegangan industri yang lebih luas mengenai kos kebolehperhatian, dasar pengekalan data, dan produktiviti kejuruteraan. Walaupun pencapaian teknikal mereka mengagumkan, komuniti kekal terbahagi sama ada pengumpulan data yang komprehensif sedemikian mewakili amalan kejuruteraan yang baik atau over-engineering yang mahal.

Perdebatan akhirnya berpusat pada pengurusan risiko: risiko kehilangan maklumat nyahpepijat kritikal berbanding risiko kos infrastruktur yang berlebihan dan isu pematuhan peraturan. Apabila alat kebolehperhatian terus berkembang, organisasi perlu mencari keseimbangan mereka sendiri antara keterlihatan yang komprehensif dan kekangan praktikal.

Rujukan: Scaling our Observability platform beyond 100 Petabytes by embracing wide events and replacing OTel