Nanonets-OCR-S Hadapi Kontroversi Open Source Meski Miliki Fitur Pemrosesan Dokumen Canggih

Tim Editorial BigGo
Nanonets-OCR-S Hadapi Kontroversi Open Source Meski Miliki Fitur Pemrosesan Dokumen Canggih

Nanonets telah merilis OCR-S, sebuah model vision-language dengan 3 miliar parameter yang dirancang untuk mengonversi dokumen ke dalam format markdown terstruktur. Model ini menjanjikan fitur-fitur canggih seperti pengenalan persamaan LaTeX, deteksi tanda tangan, dan ekstraksi tabel kompleks. Namun, peluncuran ini telah memicu perdebatan di komunitas developer mengenai lisensi dan aksesibilitasnya.

Spesifikasi Model:

  • Ukuran Model: 3 miliar parameter
  • Model Dasar: Qwen-2.5-VL-3B
  • Bahasa Utama: Bahasa Inggris (dengan dukungan terbatas untuk bahasa Tiongkok dan bahasa Eropa)
  • Lisensi: Open-weight (bukan open source)
  • Ketersediaan: Hub model Hugging Face

Kebingungan Open Source vs Open Weight

Diskusi paling hangat berpusat pada apakah Nanonets-OCR-S benar-benar open source. Anggota komunitas dengan cepat menunjukkan bahwa model tersebut tampaknya memiliki pembatasan lisensi yang mencegahnya diklasifikasikan sebagai perangkat lunak open source. Penulis model tersebut mengklarifikasi bahwa model ini seharusnya dianggap sebagai open-weight daripada open source, yang berarti bobot model yang telah dilatih tersedia untuk diunduh, namun kode pelatihan dan proses pengembangan penuh tetap bersifat proprietary.

Perbedaan ini sangat penting bagi developer dan organisasi yang perlu memahami hak mereka untuk memodifikasi, mendistribusikan, atau menggunakan model secara komersial. Model open-weight menyediakan akses ke parameter yang telah dilatih tetapi mungkin masih memiliki pembatasan penggunaan.

Kekhawatiran Performa Multibahasa

Beberapa anggota komunitas mengajukan pertanyaan tentang performa model dengan dokumen non-Inggris. Penulis mengakui bahwa meskipun model ini terutama dilatih pada teks bahasa Inggris, data pelatihan mencakup jumlah yang lebih kecil dari bahasa Mandarin dan bahasa-bahasa Eropa. Model dasar Qwen-2.5-VL-3B yang mendasari memang mendukung beberapa bahasa, yang mungkin membantu pemrosesan dokumen internasional.

Model ini terutama dilatih pada dokumen bahasa Inggris, itulah mengapa bahasa Inggris tercantum sebagai bahasa utama. Namun, data pelatihan memang mencakup proporsi yang lebih kecil dari bahasa Mandarin dan berbagai bahasa Eropa.

Bagi organisasi yang memproses dokumen dalam bahasa selain bahasa Inggris, keterbatasan ini dapat secara signifikan mempengaruhi kegunaan model dalam aplikasi dunia nyata.

Tantangan Benchmark dan Evaluasi

Kurangnya benchmark standar untuk konversi dokumen-ke-markdown telah membuat sulit untuk mengevaluasi performa model secara objektif. Penulis menjelaskan bahwa mengevaluasi konversi gambar-ke-markdown menghadirkan tantangan unik karena beberapa output yang benar dapat ada untuk dokumen input yang sama. Misalnya, ketika memproses dokumen dengan blok informasi berdampingan, model yang berbeda mungkin mengekstrak konten dalam urutan yang berbeda sementara keduanya secara teknis benar.

Tantangan evaluasi ini menyoroti masalah yang lebih luas dalam bidang pemrosesan dokumen, di mana metrik akurasi tradisional mungkin tidak menangkap persyaratan bernuansa dari konversi dokumen terstruktur.

Kompetisi dan Alternatif

Peluncuran ini bertepatan dengan model OCR lain yang memasuki pasar, termasuk MonkeyOCR, yang juga menggunakan lisensi Apache 2.0. Waktu ini menunjukkan meningkatnya minat pada model vision-language yang ringan dan terspesialisasi untuk tugas pemrosesan dokumen. Kompetisi ini mungkin mendorong perbaikan dalam performa dan kejelasan lisensi di seluruh bidang.

Diskusi komunitas mengungkapkan bahwa meskipun Nanonets-OCR-S menawarkan kemampuan teknis yang mengesankan, pertanyaan tentang lisensi, dukungan multibahasa, dan evaluasi standar tetap menjadi pertimbangan penting bagi pengguna potensial. Organisasi yang mengevaluasi model ini harus dengan hati-hati meninjau ketentuan lisensi dan menguji performa pada jenis dokumen dan bahasa spesifik mereka.

Referensi: Nanonets-OCR-S