Startup AI Membangun Kluster Penyimpanan 30 Petabyte dengan Biaya 35 Ribu Dolar AS per Bulan vs Biaya AWS 1,2 Juta Dolar AS

Tim Komunitas BigGo
Startup AI Membangun Kluster Penyimpanan 30 Petabyte dengan Biaya 35 Ribu Dolar AS per Bulan vs Biaya AWS 1,2 Juta Dolar AS

Sebuah laboratorium riset AI yang berbasis di San Francisco telah mendemonstrasikan penghematan biaya yang dramatis dengan infrastruktur penyimpanan on-premises, membangun kluster penyimpanan 30 petabyte hanya dengan biaya 35.000 dolar AS per bulan dibandingkan dengan estimasi biaya Amazon Web Services sebesar 1,2 juta dolar AS per bulan. Proyek ini, yang dirancang untuk menyimpan dataset video besar-besaran untuk pelatihan model computer vision, telah memicu diskusi signifikan di komunitas teknologi tentang biaya tersembunyi dan trade-off dari operasi datacenter DIY.

Perbandingan Biaya (Bulanan)

Penyedia Biaya Penyimpanan Biaya Egress Total Bulanan
On-Premises $17,5K (berulang) + $17,5K (depresiasi) Termasuk $35K
AWS S3 $690K $500K $1,19M
Cloudflare R2 $450K (dipublikasikan) / $150K (estimasi privat) $0 $150K-450K
Rak server berteknologi tinggi yang menampilkan hard drive enterprise bekas untuk cluster penyimpanan masif
Rak server berteknologi tinggi yang menampilkan hard drive enterprise bekas untuk cluster penyimpanan masif

Faktor Biaya Tenaga Kerja yang Terlewat

Kekhawatiran paling menonjol yang diangkat oleh komunitas berpusat pada biaya operasional yang tidak dimasukkan dalam perbandingan biaya. Sementara startup tersebut menghitung total biaya tahunan mereka sebesar 354.000 dolar AS termasuk depresiasi, para kritikus menunjukkan bahwa gaji staf berbasis San Francisco untuk memelihara infrastruktur dapat dengan mudah menggandakan atau melipattigakan biaya operasional sebenarnya. Kelalaian ini menyoroti jebakan umum dalam perbandingan cloud versus on-premises di mana biaya tenaga kerja diremehkan atau diabaikan sepenuhnya.

Strategi Tanpa Redundansi Menuai Keraguan

Setup penyimpanan sengaja menghilangkan redundansi data untuk meminimalkan biaya, sebuah keputusan yang telah membagi opini komunitas. Pendekatan ini bekerja untuk kasus penggunaan spesifik mereka dalam menyimpan data pelatihan yang dapat dengan mudah diganti, tetapi banyak yang mempertanyakan penerapannya untuk bisnis yang membutuhkan jaminan integritas data. Komunitas mencatat bahwa meskipun strategi ini masuk akal untuk menimbun video dari YouTube , strategi ini tidak akan berhasil untuk sebagian besar organisasi yang membutuhkan jaminan bahwa data mereka aman dari kegagalan hardware atau bencana.

Taruhan Hardware Bekas Membuahkan Hasil

Keputusan tim untuk menggunakan 2.400 hard drive enterprise bekas senilai 500.000 dolar AS telah menghasilkan perdebatan yang cukup besar tentang keandalan versus penghematan biaya. Anggota komunitas berbagi pengalaman yang beragam dengan drive bekas, mencatat variabilitas kinerja yang tinggi dan mempertanyakan biaya pemeliharaan jangka panjang. Namun, yang lain berargumen bahwa drive bekas dapat hemat biaya karena mereka telah selamat dari periode kegagalan awal yang biasanya mempengaruhi hardware baru.

Drive bekas masuk akal jika memelihara home server Anda adalah hobi. Menyenangkan untuk mendiagnosis dan memecahkan masalah di home server, dan drive yang gagal memberi saya alasan untuk mengerjakan server.

Startup tersebut melaporkan tingkat kegagalan disk tahunan yang konservatif sebesar 5%, yang berarti mengganti sekitar 120 drive per tahun - angka yang dapat dikelola untuk arsitektur penyimpanan sederhana mereka yang dibangun hanya dengan 200 baris kode Rust dan server web nginx .

Spesifikasi Perangkat Keras

Infrastruktur Penyimpanan:

  • 2.400 hard drive (sebagian besar 12TB bekas enterprise SATA/SAS)
  • 120 chassis dual SATA/SAS (24 drive masing-masing)
  • 10 head node CPU ( Intel R2200 series )
  • Koneksi internet khusus 100 Gbps

Biaya Sekali Bayar:

  • Hard drive: $500K
  • Infrastruktur: $35K
  • Jaringan & pengaturan: $91.5K
  • Total investasi awal: $626.5K

Pemeriksaan Realitas Pemeliharaan

Diskusi komunitas mengungkapkan bahwa ujian sebenarnya dari pendekatan ini terletak pada overhead operasional yang berkelanjutan. Sementara startup tersebut mendapat keuntungan dari memiliki datacenter mereka hanya beberapa blok dari kantor mereka, memungkinkan kunjungan debugging dan pemeliharaan yang cepat, sebagian besar organisasi akan membutuhkan staf operasi khusus. Estimasi menunjukkan setidaknya 5 jam mingguan untuk tugas pemeliharaan, yang dapat secara signifikan mempengaruhi perhitungan total biaya kepemilikan.

Proyek ini telah mencapai kapasitas dan tim sedang mempertimbangkan untuk mereplikasi setup tersebut, menunjukkan bahwa analisis cost-benefit mereka telah terbukti berhasil untuk kebutuhan spesifik mereka. Namun, konsensus komunitas menunjukkan bahwa meskipun penghematan biaya yang mengesankan dimungkinkan dengan penyimpanan on-premises, kompleksitas operasional tersembunyi dan biaya tenaga kerja membuat solusi cloud lebih praktis untuk sebagian besar organisasi.

Referensi: Building the heap: racking 30 petabytes of hard drives for pretraining