KittenTTS Hadapi Masalah Dependensi Python Meski Janjikan 25MB

Tim Komunitas BigGo
KittenTTS Hadapi Masalah Dependensi Python Meski Janjikan 25MB

KittenTTS telah muncul sebagai model text-to-speech open-source yang menjanjikan, mengklaim dapat memberikan sintesis suara berkualitas tinggi hanya dalam 25MB dengan operasi khusus CPU. Namun, respons komunitas mengungkap kesenjangan signifikan antara janji ringan proyek ini dengan tantangan deployment di dunia nyata.

Spesifikasi Model

  • Parameter: 15 juta
  • Ukuran model: <25MB
  • Operasi CPU saja (tidak memerlukan GPU)
  • Sample rate: 24kHz
  • Suara yang tersedia: 6 pilihan (expr-voice-2/3/4-m/f)
  • Lisensi: Apache-2.0 (dengan masalah dependensi GPL)

Mimpi Buruk Instalasi Bertentangan dengan Klaim Bekerja Secara Harfiah di Mana Saja

Proyek ini dengan berani menyatakan Bekerja secara harfiah di mana saja dalam persyaratan sistemnya, tetapi pengguna melaporkan kegagalan instalasi yang meluas. Masalah inti berasal dari masalah kompatibilitas versi Python dan jaringan dependensi yang kompleks yang dapat membengkak hingga beberapa gigabyte ukurannya. Pengguna mengalami kegagalan dengan versi Python yang lebih lama dan lebih baru, dengan beberapa instalasi memerlukan hingga 6GB ruang virtual environment - jauh dari jejak 25MB yang diiklankan.

Situasi ini menjadi sangat bermasalah sehingga anggota komunitas merekomendasikan metode instalasi alternatif seperti uvx dan uv untuk menghindari neraka dependensi. Tools ini, meskipun membantu, menambah lapisan kompleksitas lain bagi pengguna yang hanya ingin mencoba model tersebut.

Ringkasan Masalah Instalasi

  • Ukuran virtual environment: Hingga 6GB (vs yang diiklankan 25MB)
  • Masalah kompatibilitas versi Python
  • Ketergantungan pada komponen berlisensi GPL-3.0
  • Error kompilasi pada beberapa sistem
  • Solusi yang disarankan: Gunakan tools uvx/uv

Kekhawatiran Lisensi GPL Mengancam Penggunaan Komersial

Masalah lisensi kritis telah muncul yang dapat membatasi adopsi KittenTTS dalam aplikasi komersial. Meskipun diiklankan sebagai berlisensi Apache-2.0, model ini bergantung pada phonemizer, yang menggunakan espeak-ng berlisensi GPL-3.0. Rantai dependensi ini secara efektif membuat seluruh proyek berlisensi GPL, berpotensi memblokir kasus penggunaan komersial.

Penggunaan library ini adalah empat baris. Tiga mengatur library, yang lain memanggilnya. Ditambah saya kira pernyataan import. Bahkan mengabaikan Google vs Oracle saya tidak berpikir baris-baris itu sendiri memenuhi ambang batas orisinalitas apa pun.

Konflik lisensi ini telah memicu diskusi tentang solusi potensial, termasuk menghapus dependensi GPL atau mengimplementasikan pendekatan dual-licensing.

Ulasan Campuran Performa dan Kualitas

Pengujian komunitas mengungkap hasil campuran untuk kualitas TTS yang sebenarnya. Sementara beberapa pengguna memuji pencapaian teknis memasukkan model neural TTS ke dalam 25MB, yang lain menggambarkan output sebagai metalik dan buatan. Benchmark performa menunjukkan model menghasilkan audio dengan kecepatan sekitar 5x real-time pada perangkat keras modern, dengan latensi awal sekitar 315ms untuk teks pendek.

Kualitas tampaknya bervariasi secara signifikan antara opsi suara yang berbeda, dengan beberapa suara terdengar seperti remaja yang belum selesai pubertas sementara yang lain digambarkan sebagai terlalu bersemangat atau buatan. Beberapa pengguna telah mencatat masalah pengucapan dengan angka dan kombinasi kata tertentu.

Benchmark Performa ( Intel Core i9-14900HX )

  • Waktu pemuatan model: ~710ms
  • Latensi awal: ~315ms untuk teks pendek
  • Kecepatan generasi audio: 5.46x waktu nyata untuk teks panjang
  • Performa konsisten di berbagai suara (4.63x - 5.28x waktu nyata)

Respons Developer dan Rencana Masa Depan

Tim pengembangan telah mengakui masalah-masalah ini dan mengindikasikan bahwa rilis saat ini hanyalah checkpoint preview dari pelatihan awal. Mereka berjanji rilis model penuh dengan versi parameter 15M dan 80M yang seharusnya memberikan kualitas yang jauh lebih tinggi. Tim juga sedang bekerja untuk mengatasi masalah dependensi dan kekhawatiran lisensi.

Meskipun tantangan saat ini, proyek ini mewakili langkah penting menuju model AI yang benar-benar portabel yang dapat berjalan pada perangkat edge tanpa persyaratan GPU. Konsep model TTS ultra-ringan telah menghasilkan minat signifikan dalam komunitas, khususnya untuk aplikasi embedded dan kasus penggunaan offline.

Referensi: Kitten TTS