Peneliti AI Memperdebatkan Apakah Tokenisasi Akan Menjadi Usang Seiring Peningkatan Skala Model

Tim Komunitas BigGo
Peneliti AI Memperdebatkan Apakah Tokenisasi Akan Menjadi Usang Seiring Peningkatan Skala Model

Komunitas AI sedang mengadakan diskusi sengit tentang masa depan tokenisasi - proses yang mengubah teks menjadi angka yang dapat dipahami oleh model bahasa. Sebuah artikel baru berargumen bahwa seiring model AI menjadi lebih kuat, kita mungkin tidak memerlukan tokenisasi sama sekali.

"Masa depan tokenisasi dalam AI diselimuti perdebatan, seperti sosok misterius dalam gambar ini"
"Masa depan tokenisasi dalam AI diselimuti perdebatan, seperti sosok misterius dalam gambar ini"

Masalah Inti dengan Tokenisasi Saat Ini

Model bahasa saat ini tidak bekerja langsung dengan teks. Sebaliknya, mereka menggunakan tokenisasi untuk memecah teks menjadi bagian-bagian kecil yang disebut token, yang kemudian diubah menjadi angka. Misalnya, kata strawberry mungkin dipecah menjadi token straw dan berry. Pendekatan ini telah bekerja dengan baik, tetapi menciptakan beberapa masalah yang tidak terduga.

Contoh paling terkenal adalah masalah strawberry - banyak model AI kesulitan menghitung jumlah huruf 'r' dalam strawberry karena mereka melihatnya sebagai dua token terpisah daripada huruf-huruf individual. Ketika model melihat token untuk straw, ia tidak secara otomatis tahu bahwa token ini mengandung huruf-huruf s-t-r-a-w.

Token: Bagian kecil dari teks (seperti bagian kata) yang diubah menjadi angka untuk diproses oleh model AI

Contoh Tokenisasi:

  • Kata "strawberry" → token: "straw" + "berry"
  • Angka "1234567" → token: "123" + "456" + "7"
  • Tokenisasi angka yang diperbaiki: "1234567" → "1" + "234" + "567" (pengelompokan dari kanan ke kiri)

Matematika dan Logika Paling Menderita

Masalah tokenisasi menjadi sangat jelas dengan matematika. Model AI saat ini sering kesulitan dengan aritmatika karena angka dipecah dengan cara yang aneh. Angka seperti 1234567 mungkin menjadi token 123, 456, dan 7 - membuat model jauh lebih sulit melakukan matematika dengan benar.

Beberapa peneliti telah menemukan solusi pintar, seperti memecah angka dari kanan ke kiri dalam kelompok tiga digit, sehingga 1234567 menjadi 1, 234, 567. Pendekatan ini membantu dengan masalah matematika, tetapi memerlukan lebih banyak rekayasa manusia - persis apa yang disarankan oleh pelajaran pahit untuk kita hindari.

Pelajaran Pahit: Prinsip dalam penelitian AI yang menyatakan bahwa metode yang menggunakan banyak daya komputasi dan data biasanya mengalahkan solusi manusia yang dirancang dengan hati-hati

"Metrik performa komparatif menggarisbawahi tantangan yang dihadapi AI dengan tokenisasi dalam tugas-tugas matematika"
"Metrik performa komparatif menggarisbawahi tantangan yang dihadapi AI dengan tokenisasi dalam tugas-tugas matematika"

Dorongan Menuju Raw Bytes

Alih-alih token, beberapa peneliti ingin memasukkan raw bytes atau karakter individual langsung ke dalam model AI. Ini akan menghilangkan langkah tokenisasi sepenuhnya dan membiarkan model belajar memahami teks secara alami. Tantangan utamanya adalah bahwa model perlu jauh lebih besar untuk menangani pendekatan ini secara efektif.

Namun, seiring daya komputasi terus tumbuh secara eksponensial, ini mungkin menjadi praktis. Model dapat dengan mudah menghafal semua karakter yang mungkin dan hubungan mereka tanpa memerlukan langkah tokenisasi perantara.

Pendekatan Alternatif:

  • Pemrosesan Tingkat Byte: Memasukkan byte UTF-8 mentah langsung ke model (256 nilai yang mungkin)
  • Tingkat Karakter: Memproses karakter individual alih-alih potongan kata
  • Byte-Latent Transformer ( BLT ): Arsitektur baru yang bekerja dengan byte mentah sambil mempertahankan efisiensi

Skeptisisme Komunitas dan Kekhawatiran Praktis

Tidak semua orang setuju bahwa membuang tokenisasi adalah langkah yang tepat. Banyak anggota komunitas menunjukkan bahwa tokenisasi sudah melalui pelajaran pahitnya sendiri - bergerak dari aturan yang dibuat dengan tangan ke metode statistik yang dipelajari. Mereka berargumen bahwa menghilangkan tokenisasi sepenuhnya mungkin terlalu berlebihan.

Ada juga kekhawatiran praktis tentang biaya dan efisiensi. Melatih model untuk bekerja dengan raw bytes memerlukan daya komputasi yang jauh lebih besar, yang berarti biaya lebih tinggi. Beberapa perkiraan menunjukkan bahwa model AI teratas sudah memerlukan biaya puluhan juta dolar Amerika Serikat untuk dilatih, dan menghilangkan tokenisasi dapat membuat ini jauh lebih mahal.

Biaya Pelatihan Model AI Saat Ini:

  • OpenAI GPT-4 : sekitar $78 juta USD untuk biaya komputasi
  • Google Gemini Ultra : sekitar $191 juta USD untuk biaya komputasi
  • Biaya-biaya ini hanya untuk komputasi saja dan tidak termasuk pengeluaran pengembangan lainnya
"Perbedaan performa menggambarkan skeptisisme komunitas terkait penghapusan tokenisasi karena kekhawatiran praktis"
"Perbedaan performa menggambarkan skeptisisme komunitas terkait penghapusan tokenisasi karena kekhawatiran praktis"

Gambaran Besar

Perdebatan ini mencerminkan ketegangan yang lebih luas dalam penelitian AI antara merekayasa solusi pintar dan hanya melemparkan lebih banyak daya komputasi pada masalah. Meskipun pendekatan meningkatkan skala segala sesuatu telah bekerja dengan baik baru-baru ini, tidak jelas apakah itu selalu jalan terbaik ke depan.

Diskusi tokenisasi juga menyoroti bagaimana pengembangan AI sering melibatkan trade-off yang tidak terduga. Apa yang tampak seperti pilihan teknis sederhana - bagaimana mengubah teks menjadi angka - dapat memiliki dampak besar pada kemampuan model untuk menghitung huruf atau melakukan matematika dasar.

Seiring model AI terus meningkat dan biaya komputasi menurun, kita kemungkinan akan melihat lebih banyak eksperimen dengan pendekatan berbeda untuk pemrosesan teks. Apakah tokenisasi menghilang sepenuhnya atau berkembang menjadi sesuatu yang baru tetap merupakan pertanyaan terbuka yang akan membentuk masa depan AI bahasa.

Referensi: The Bitter Lesson is coming for Tokenization