Model Open-Source Baru OpenAI Menunjukkan Benchmark yang Kuat namun Kesulitan dengan Tugas Dunia Nyata

Tim Komunitas BigGo
Model Open-Source Baru OpenAI Menunjukkan Benchmark yang Kuat namun Kesulitan dengan Tugas Dunia Nyata

OpenAI baru-baru ini merilis model bahasa open-source pertama yang besar, gpt-oss-120b dan gpt-oss-20b, menandai pergeseran signifikan bagi perusahaan yang dikenal karena menyimpan model-model tercanggihnya di balik pintu tertutup. Meskipun model-model ini menunjukkan performa yang mengesankan pada benchmark standar, umpan balik pengguna awal mengungkap pola yang familiar yang telah menghantui model-model yang dilatih dengan data sintetis: skor tes yang sangat baik namun performa dunia nyata yang mengecewakan.

Spesifikasi Model:

  • gpt-oss-120b: 120 miliar parameter (5 miliar parameter aktif)
  • gpt-oss-20b: 20 miliar parameter
  • Lisensi: Apache 2.0
  • Pendekatan pelatihan: Data sintetis dan terkurasi (mirip dengan seri Microsoft Phi)

Pendekatan Pelatihan Data Sintetis

Model-model baru OpenAI tampaknya mengikuti filosofi yang sama dengan seri Phi dari Microsoft, yang berfokus pada pelatihan secara eksklusif menggunakan data sintetis berkualitas tinggi dan data yang dikurasi daripada teks internet mentah. Pendekatan ini memberikan kontrol penuh kepada pengembang atas konten pelatihan, memungkinkan mereka menghasilkan data yang sangat sesuai dengan tugas-tugas benchmark. Namun, metodologi mengajar untuk tes ini sering menghasilkan model yang unggul dalam evaluasi terkontrol tetapi kesulitan dengan sifat dunia nyata yang berantakan dan tidak dapat diprediksi.

Diskusi komunitas mengungkap bahwa pengguna telah menemukan model-model tersebut secara teknis kompeten dalam domain spesifik seperti sains dan coding, dengan beberapa melaporkan keberhasilan pada query SQL kompleks yang membuat model berukuran serupa lainnya kebingungan. Seorang pengguna mencatat bahwa model 20B dengan benar mengidentifikasi hubungan logis yang halus yang terlewatkan oleh model-model yang lebih besar, mendemonstrasikan kemampuan penalaran yang asli dalam tugas-tugas terstruktur.

Koneksi Personel Kunci:

  • Sebastien Bubeck : Memimpin pengembangan model Phi Microsoft pada tahun 2024
  • Bergabung dengan OpenAI pada akhir tahun 2024
  • Kemungkinan terlibat dalam pengembangan model gpt-oss
  • Model Phi dikenal dengan pendekatan pelatihan data sintetis

Trade-off Keamanan

Pilihan untuk menggunakan data pelatihan sintetis kemungkinan berasal dari kekhawatiran keamanan daripada optimisasi performa. Model open-source menyajikan risiko unik bagi perusahaan-perusahaan besar karena setelah dirilis, mereka tidak dapat diperbarui atau dikontrol. Pengguna dapat melakukan fine-tune pada model-model ini untuk tujuan apa pun, dan kasus penggunaan paling populer untuk kustomisasi model lokal secara historis adalah generasi konten dewasa.

Dengan berlatih pada data sintetis yang dikurasi dengan hati-hati, OpenAI dapat memastikan model-model mereka mengandung pelatihan penolakan yang ekstensif dan tidak memiliki paparan terhadap konten bermasalah. Ini membuat model-model tersebut jauh lebih aman untuk dirilis secara publik, meskipun dengan mengorbankan pengetahuan umum dan kemampuan percakapan. Model-model tersebut dilaporkan memiliki pengetahuan ilmiah yang luas tetapi kurang memahami budaya populer dan peristiwa terkini.

Penerimaan Komunitas dan Kesenjangan Performa

Para early adopter memiliki perasaan campur aduk tentang model-model baru ini. Sementara beberapa memuji kemampuan coding dan penalaran logis mereka, yang lain mengkritik basis pengetahuan yang terbatas dan respons yang terlalu berhati-hati. Model-model tersebut menunjukkan gejala klasik dari pelatihan data sintetis: mereka berkinerja baik pada benchmark akademis dan tugas terstruktur tetapi terasa artifisial dan terbatas dalam percakapan terbuka.

Mereka secara teknis kompeten tetapi kurang memiliki banyak pengetahuan di luar domain: misalnya, mereka memiliki pengetahuan umum yang luas tentang sains, tetapi tidak tahu banyak tentang budaya populer.

Kesenjangan performa ini menyoroti tantangan fundamental dalam pengembangan AI. Perusahaan harus menyeimbangkan kemampuan dengan keamanan, terutama ketika merilis model yang dapat dimodifikasi pengguna secara bebas. Untuk OpenAI, yang bisnis utamanya tetap model-model closed-source mereka, rilis open ini lebih berfungsi sebagai positioning kompetitif melawan model-model China daripada sebagai alternatif serius untuk produk unggulan mereka.

Karakteristik Performa:

  • Performa yang kuat pada benchmark akademis
  • Baik dalam tugas-tugas terstruktur ( SQL , coding, penalaran logis)
  • Lemah dalam budaya populer dan peristiwa terkini
  • Pengetahuan di luar domain terbatas
  • Respons yang terlalu berhati-hati karena pelatihan keamanan

Melihat ke Depan

Strategi rilis menunjukkan bahwa OpenAI memandang model open-source sebagai bagian yang diperlukan tetapi sekunder dari bisnis mereka. Tidak seperti Meta, yang membutuhkan model open yang kuat untuk mendorong adopsi ekosistem mereka, OpenAI dapat memposisikan keamanan di atas kemampuan dalam rilis publik mereka. Apakah pendekatan ini akan memuaskan komunitas open-source masih harus dilihat, tetapi indikator awal menunjukkan model-model ini akan bergabung dengan daftar sistem AI yang terus bertambah yang mengesankan dalam demo tetapi mengecewakan dalam penggunaan sehari-hari.

Perdebatan seputar model-model ini juga mencerminkan pertanyaan yang lebih luas tentang apa yang merupakan open source di era AI, dengan anggota komunitas berdebat apakah merilis bobot model tanpa data pelatihan dan kode benar-benar memenuhi syarat sebagai perangkat lunak open source.

Referensi: OpenAl's new open-source model is basically Phi-5