Thinking Machines Milik Mira Murati Mengatasi Masalah Non-Determinisme LLM dalam Sistem Produksi

Tim Komunitas BigGo
Thinking Machines Milik Mira Murati Mengatasi Masalah Non-Determinisme LLM dalam Sistem Produksi

Mantan CTO OpenAI Mira Murati dengan perusahaan barunya, Thinking Machines , telah menerbitkan penelitian yang menangani masalah kritis yang mengganggu penerapan model bahasa besar: perilaku non-deterministik dalam sistem produksi. Perusahaan yang berhasil mengumpulkan dana sebesar 2 miliar dolar Amerika Serikat ini mengatasi masalah yang mempengaruhi aplikasi AI dunia nyata di mana konsistensi sangat penting.

Latar Belakang Perusahaan Thinking Machines:

  • Didirikan oleh mantan CTO OpenAI Mira Murati
  • Meraih pendanaan sebesar $2 miliar USD
  • Nama perusahaan merujuk pada Thinking Machines Corporation milik Danny Hillis pada tahun 1980-an
  • Thinking Machines yang asli menciptakan superkomputer Connection Machine
  • Merek dagang tersedia setelah kebangkrutan perusahaan asli pada tahun 1994

Masalah Inti: Non-Determinisme Tingkat Batch

Penelitian ini mengungkapkan bahwa non-determinisme LLM bukan hanya tentang pengaturan temperatur atau sampling acak. Bahkan dengan temperatur yang diatur ke nol dan input yang identik, model dapat menghasilkan output yang berbeda tergantung pada bagaimana permintaan dibatch bersama selama pemrosesan. Hal ini terjadi karena forward pass tidak memiliki batch invariance - yang berarti output permintaan bergantung pada ukuran batch dan komposisi permintaan paralel yang diproses secara bersamaan.

Penemuan ini menantang asumsi umum tentang determinisme LLM. Banyak developer percaya mereka dapat mencapai hasil yang konsisten dengan hanya mengontrol random seed dan parameter temperatur, tetapi kenyataannya lebih kompleks ketika berhadapan dengan sistem inferensi skala produksi.

Tantangan Teknis Utama yang Teridentifikasi:

  • Non-determinisme tingkat batch mempengaruhi output meskipun dengan temperature=0
  • Forward pass tidak memiliki "batch invariance" dalam sistem produksi
  • Perbedaan perangkat keras di berbagai versi GPU/TPU menimbulkan variasi
  • Optimisasi compiler dapat mengubah urutan operasi floating-point
  • Sistem inferensi multi-GPU menambah kompleksitas di luar pengaturan single-node

Dampak Dunia Nyata pada Tim Pengembangan

Perilaku non-deterministik menciptakan tantangan signifikan untuk alur kerja pengembangan. Developer kesulitan untuk berbagi prompt dan berkolaborasi secara efektif ketika input yang sama menghasilkan output berbeda di berbagai run. Hal ini membuat hampir mustahil untuk membuat unit test yang dapat diandalkan atau framework evaluasi untuk aplikasi bertenaga AI.

Masalah ini meluas melampaui reproduktibilitas sederhana. Dalam industri yang diregulasi seperti layanan keuangan dan hukum, perilaku non-deterministik dapat membuat sistem AI tidak dapat digunakan karena persyaratan kepatuhan yang menuntut rekonstruksi eksak dari interaksi pengguna.

Solusi Teknis dan Trade-off

Thinking Machines mengembangkan kernel CUDA khusus untuk memastikan operasi batch-invariant, memungkinkan model menghasilkan output identik terlepas dari komposisi batch. Namun, pendekatan ini datang dengan biaya performa dan tidak mengatasi semua bentuk non-determinisme dalam sistem AI yang kompleks.

Solusi ini bekerja dengan baik untuk lingkungan yang terkontrol tetapi menghadapi keterbatasan dalam cluster komputasi heterogen di mana konfigurasi hardware yang berbeda masih dapat memperkenalkan variasi. Seperti yang dicatat oleh salah satu anggota komunitas, operasi floating-point tidak selalu komutatif, dan optimisasi compiler dapat menyusun ulang operasi dengan cara yang tidak dapat diprediksi.

Debat Komunitas tentang Kebutuhan

Penelitian ini telah memicu debat tentang apakah menghilangkan non-determinisme selalu diinginkan. Beberapa orang berargumen bahwa keacakan adalah fitur fundamental dari pemrosesan bahasa alami, bukan bug yang harus diperbaiki. Yang lain menunjukkan bahwa konteks yang berbeda secara alami harus menghasilkan respons yang berbeda, dan memaksa output identik mungkin justru mengurangi utilitas model.

Bahasa alami itu ambigu. Memang harus begitu. Saya pikir pendekatan di sini untuk mencoba mencari cara membuat lingkaran menjadi persegi, dan berargumen mengapa lingkaran harus menjadi persegi, adalah salah arah.

Diskusi ini menyoroti ketegangan antara kebutuhan engineering praktis dan sifat inheren model bahasa sebagai sistem probabilistik yang dirancang untuk menangani ambiguitas dan respons yang bergantung pada konteks.

Melihat ke Depan

Meskipun karya Thinking Machines mewakili kemajuan penting dalam memahami perilaku LLM, ini juga mengungkapkan kompleksitas membangun sistem AI yang dapat diandalkan dalam skala besar. Penelitian ini menunjukkan bahwa mencapai determinisme sejati memerlukan perhatian cermat pada setiap level dari computing stack, dari perbedaan hardware hingga optimisasi compiler.

Untuk organisasi yang menerapkan LLM dalam produksi, karya ini memberikan solusi dan wawasan yang mengkhawatirkan tentang tantangan ke depan. Jalan menuju sistem AI yang dapat diandalkan melibatkan lebih dari sekadar model yang lebih baik - ini memerlukan kemajuan fundamental dalam cara kita membangun dan mengoperasikan infrastruktur yang mendukungnya.

Referensi: Defining NonDeterminism in LLM Inference