Polars Cloud Dilancarkan dengan Enjin Pengkomputeran Teragih, Mencabar Dominasi Spark

Pasukan Komuniti BigGo
Polars Cloud Dilancarkan dengan Enjin Pengkomputeran Teragih, Mencabar Dominasi Spark

Polars , perpustakaan pemprosesan data yang berkembang pesat, telah melancarkan platform awannya secara rasmi dengan enjin pengkomputeran teragih yang kini berada dalam beta terbuka. Ini menandakan langkah penting dalam misi syarikat untuk merapatkan apa yang mereka panggil jurang skala DataFrame - perpecahan bersejarah antara kemudahan penggunaan tempatan pandas dan kebolehskalaan jauh PySpark .

Komuniti Mempersoalkan Pelaburan Berterusan Spark

Pelancaran ini telah mencetuskan perbincangan menarik dalam komuniti pembangun mengenai masa depan pemprosesan data besar. Sesetengah pembangun mempersoalkan mengapa pemain utama seperti Databricks terus melabur besar-besaran dalam Apache Spark apabila alternatif yang lebih baharu seperti Polars dan DuckDB mungkin mencukupi untuk banyak kes penggunaan, terutamanya untuk syarikat permulaan dan syarikat yang lebih kecil.

Masa pelancaran ini nampaknya sangat relevan kerana syarikat seperti Palantir sudah menyokong model bawa pengkomputeran sendiri, menunjukkan peralihan ke arah pendekatan infrastruktur yang lebih fleksibel dan dikawal pengguna.

Pengurusan Infrastruktur yang Dipermudahkan Menarik Perhatian

Salah satu aspek Polars Cloud yang paling dibincangkan ialah pendekatannya terhadap abstraksi infrastruktur. Walaupun contoh awal menunjukkan pengguna menyatakan jenis instance AWS secara langsung, platform ini sebenarnya menyokong spesifikasi sumber yang lebih intuitif menggunakan keperluan CPU dan memori berbanding nama instance khusus awan.

Pasukan pembangunan telah menunjukkan bahawa mereka sedang berusaha ke arah penyelesaian yang lebih automatik, termasuk konfigurasi kluster minimum dan penskalaan automatik berdasarkan keperluan pertanyaan. Ini menangani masalah biasa di mana saintis data dan penganalisis perlu memahami butiran infrastruktur awan hanya untuk menjalankan analisis mereka.

Kaedah Spesifikasi Sumber:

 Kaedah 1: Jenis instance AWS
pc.ComputeContext(
    instance_type="m6i.large",
    cluster_size=8,
    storage=64
)

 Kaedah 2: Keperluan sumber  
pc.ComputeContext(
    cpus=4,
    memory=16
)

Strategi Penskalaan Unik Membezakannya

Apa yang menjadikan Polars Cloud sangat menarik ialah pendekatan penskalaan berbilang arahnya. Tidak seperti sistem teragih tradisional yang memberi tumpuan terutamanya pada penskalaan mendatar (menambah lebih banyak mesin), Polars menawarkan strategi penskalaan menegak, mendatar, dan pepenjuru. Ini bermakna sistem boleh memilih antara menggunakan banyak pekerja yang lebih kecil atau mesin yang kurang berkuasa bergantung pada ciri-ciri beban kerja.

Fleksibiliti ini boleh memberi kesan yang ketara kepada pengoptimuman kos, kerana sesetengah operasi lebih mendapat manfaat daripada nod tunggal yang berkuasa berbanding pemprosesan teragih, yang datang dengan overhed pengocokan.

Pilihan Penskalaan Polars Cloud:

  • Penskalaan mendatar: Pendekatan tradisional menggunakan berbilang pekerja yang lebih kecil
  • Penskalaan menegak: Mesin tunggal yang berkuasa untuk tugasan intensif pengkomputeran
  • Penskalaan pepenjuru: Pendekatan hibrid dengan saiz pekerja yang heterogen
  • Penskalaan automatik: Ciri yang dirancang untuk pelarasan sumber automatik

Pengebilan dan Kedudukan Pasaran

Platform ini beroperasi melalui pengebilan AWS , dengan markup Polars muncul terus pada bil AWS pengguna. Pendekatan ini meletakkan Polars Cloud lebih sebagai lapisan pengoptimuman pengkomputeran berbanding pengganti untuk gudang data seperti Snowflake . Perbandingan awal menunjukkan ia menyasarkan pasaran yang sama seperti AWS Glue dan perkhidmatan pemprosesan data yang serupa, dengan dakwaan lebih pantas dan lebih kos efektif.

Fokus kekal teguh pada operasi DataFrame berbanding SQL , dengan pasukan menunjukkan bahawa sokongan SQL mungkin datang kemudian tetapi bukan keutamaan semasa memandangkan pasaran pemprosesan SQL yang tepu.

Garis Masa Ciri-ciri Yang Dirancang:

  • Sokongan on-premise: Beberapa bulan akan datang (pelanggan pertama sedang dalam proses onboarding)
  • Papan pemuka kluster langsung: Dalam pembangunan dengan pemantauan kluster masa nyata
  • Orkestrasi tugasan: Keupayaan penjadualan minimum (tidak menggantikan Airflow / Prefect )
  • Sokongan katalog: Fokus kepada integrasi format jadual Iceberg
  • Multi-wilayah: Pengembangan melangkaui wilayah US East semasa

Memandang ke Hadapan

Dengan ciri-ciri seperti sokongan di premis, papan pemuka kluster langsung, dan integrasi katalog yang dirancang untuk masa terdekat, Polars Cloud nampaknya bersedia untuk mencabar pemain yang mantap dalam ruang pemprosesan data teragih. Gabungan API yang biasa, penskalaan fleksibel, dan pengoptimuman kos boleh menjadikannya alternatif yang menarik untuk organisasi yang ingin memodenkan infrastruktur pemprosesan data mereka tanpa kerumitan yang secara tradisinya dikaitkan dengan pengkomputeran teragih.

Rujukan: Launch of Polars Cloud and Distributed Polars