Komunitas ClickHouse Memperdebatkan Alternatif yang Lebih Sederhana untuk Arsitektur Logging yang Kompleks

Tim Komunitas BigGo

Komunitas ClickHouse Memperdebatkan Alternatif yang Lebih Sederhana untuk Arsitektur Logging yang Kompleks

Dalam dunia pemrosesan data skala tinggi, sebuah artikel teknis baru-baru ini yang merinci perjalanan satu perusahaan dari jutaan menjadi miliaran log permintaan telah memicu diskusi yang hangat di antara para ahli basis data. Penulis asli menggambarkan solusi kompleks mereka yang melibatkan Kafka, Vector, dan ClickHouse, namun komunitas pengembang dengan cepat mempertanyakan apakah alternatif yang lebih sederhana mungkin sudah cukup.

Debat Inti Arsitektur

Komunitas teknis telah mengajukan pertanyaan signifikan tentang perlunya arsitektur tiga komponen tersebut. Beberapa komentator menunjuk pada fitur async_insert bawaan ClickHouse sebagai solusi potensial untuk error TOO_MANY_PARTS yang awalnya menghantui implementasi. Fitur ini memungkinkan basis data untuk secara otomatis mengelompokkan penulisan yang masuk, mengurangi jumlah bagian yang menyebabkan masalah stabilitas. Konsensus komunitas menunjukkan bahwa desain skema yang tepat dengan kunci partisi dan kunci primer yang sesuai dapat mencegah banyak masalah awal tanpa memerlukan komponen infrastruktur tambahan.

Masalah utamanya adalah kunci primer merge tree Anda salah. ClickHouse async_insert akan menyelesaikan semua masalah Anda.

Masalah Umum ClickHouse yang Disebutkan

Error TOO_MANY_PARTS akibat insert yang terlalu cepat
Desain skema yang buruk (partition key dan primary key)
Penggunaan memori yang tinggi selama proses import
Masalah stabilitas dengan integrasi Kafka native
Strategi migrasi yang kompleks

Mempertanyakan Tumpukan Komponen

Beberapa pengguna ClickHouse berpengalaman mengungkapkan kebingungan tentang peran setiap komponen dalam arsitektur akhir. Komentar menyoroti bahwa Vector menyertakan kemampuan buffering bawaan, membuat Kafka berpotensi berlebihan untuk kasus penggunaan ini. Sebaliknya, yang lain mencatat bahwa ClickHouse dapat mengonsumsi langsung dari Kafka menggunakan integrasi native, mempertanyakan mengapa Vector diperlukan sama sekali. Hal ini memicu diskusi tentang apakah solusinya menjadi terlalu rumit untuk apa yang pada dasarnya adalah masalah pengumpulan data volume tinggi.

Debat tersebut meluas ke strategi buffering alternatif, dengan saran mulai dari solusi berbasis Redis hingga alat khusus seperti kittenhouse. Beberapa komentator berbagi implementasi sukses mereka sendiri menggunakan arsitektur yang lebih sederhana, dengan satu catatan tentang peningkatan kinerja yang mengesankan: Saya sudah terkesima dengan kinerjanya (200ms untuk menanyakan apa yang Postgres lakukan dalam 500-600ms), tetapi kemudian saya menyadari saya belum memasang indeks pada tabel Clickhouse. Sekarang kueri kembali dalam 50-70ms.

Perbandingan Performa ClickHouse

Query PostgreSQL original: 500-600ms
ClickHouse tanpa indeks: 200ms
ClickHouse dengan indeks: 50-70ms (termasuk waktu jaringan)

Strategi Migrasi dan Pemilihan Alat

Anggota komunitas juga mempertanyakan pendekatan migrasi, khususnya keputusan untuk memperkenalkan Kafka sebagai komponen arsitektur permanen untuk apa yang tampaknya merupakan persyaratan penulisan ganda sementara selama migrasi. Beberapa menyarankan bahwa menulis ke kedua MariaDB dan ClickHouse secara bersamaan selama periode transisi sudah cukup tanpa berkomitmen pada kompleksitas operasional mempertahankan kluster Kafka dalam jangka panjang.

Diskusi mengungkapkan bahwa meskipun solusi yang dipilih bekerja, banyak insinyur berpengalaman percaya pendekatan yang lebih sederhana dapat mencapai hasil serupa dengan lebih sedikit overhead operasional. Seperti yang dicatat seorang komentator, Kafka + Vector benar-benar solusi yang salah. Masalah inti mereka adalah skema tabel tujuan dan kunci primer + partisi yang dipilih dengan sangat buruk.

Solusi Alternatif yang Diusulkan oleh Komunitas

Fitur async_insert ClickHouse
Tabel buffer dengan konfigurasi yang tepat
Buffering Redis dengan cron jobs
Kittenhouse (alat buffering khusus)
Integrasi langsung Kafka ke ClickHouse
Dual-write ke database sumber dan ClickHouse selama migrasi

Pertukaran Pilihan Arsitektur

Percakapan tersebut menyoroti ketegangan penting dalam keputusan teknik: keseimbangan antara menggunakan solusi kompleks yang teruji versus mengoptimalkan untuk kesederhanaan. Beberapa membela pendekatan asli, mencatat bahwa memilih solusi yang agak lebih kompleks yang melibatkan arsitektur tambahan tetapi telah dicoba dan diuji oleh pihak ke-3 yang Anda percayai terkadang bisa menjadi hasil akhir yang lebih sesuai. Jaminan sering kali lebih berbobot daripada kesederhanaan.

Ini mencerminkan pola umum dalam tantangan penskalaan - apa yang dimulai sebagai penggantian basis data yang sederhana sering berkembang menjadi pertimbangan ulang arsitektur yang lebih luas. Diskusi komunitas ini berfungsi sebagai studi kasus berharga tentang bagaimana tim teknik yang berbeda mungkin mendekati masalah yang sama dengan filosofi yang berbeda tentang kompleksitas, kemampuan pemeliharaan, dan beban operasional.

Dialog yang sedang berlangsung menunjukkan bahwa bahkan dengan teknologi matang seperti ClickHouse, tidak ada solusi satu-untuk-semua untuk menskalakan sistem data. Arsitektur yang paling tepat sangat bergantung pada kasus penggunaan spesifik, keahlian tim, dan pertimbangan pemeliharaan jangka panjang daripada kemampuan teknis semata.

Referensi: Millions to Billions Scaling Request Logging from Millions to Billions with ClickHouse, Kafka, and Vector

Berita Terkait

‌

‌
‌

‌

‌
‌

‌