Kesalahan Terjemahan AI Ancam Bahasa Langka dengan Kepunahan Digital

Tim Komunitas BigGo
Kesalahan Terjemahan AI Ancam Bahasa Langka dengan Kepunahan Digital

Di era digital, kecerdasan buatan menjanjikan penghancuran hambatan bahasa, tetapi bagi penutur bahasa minoritas, revolusi teknologi ini membawa ancaman tak terduga. Seiring merajalelanya alat terjemahan AI, upaya yang bermaksud baik namun dieksekusi dengan buruk untuk membuat konten digital dalam bahasa-bahasa rentan menciptakan lingkaran umpan balik berbahaya yang justru dapat mempercepat kepunahan linguistik alih-alih mencegahnya.

Masalah Wikipedia: Niat Baik, Hasil yang Katastrofik

Inti masalahnya terletak pada bagaimana model AI belajar dari konten digital yang sudah ada. Ketika relawan bermaksud baik menggunakan alat terjemahan untuk membuat artikel Wikipedia dalam bahasa yang tidak mereka pahami, mereka tanpa sengaja memperkenalkan kesalahan yang kemudian menjadi data pelatihan untuk sistem AI di masa depan. Hal ini menciptakan siklus setan di mana AI belajar dari terjemahan yang buruk dan menghasilkan konten yang bahkan lebih buruk lagi, berpotensi merusak representasi digital dari seluruh bahasa.

Salah seorang komentator menyoroti skala masalah ini: Latar belakangnya di sini adalah bahwa Scots sebenarnya bukanlah sebuah bahasa. Coba tanya sopir taksi Glasgow yang menyapa Anda dalam 'Scots' apakah dia bisa berbahasa Inggris. Ini memicu perdebatan sengit tentang apa yang membentuk sebuah bahasa versus dialek, dengan pengguna lain membantah: Scots adalah bahasanya sendiri. Ia adalah 'saudara' dari bahasa Inggris, dengan kedua bahasa Inggris dan Scots merupakan keturunan dari bahasa Jermanik Barat.

Tantangan Pelestarian Bahasa:

  • Bahasa Greenland memiliki sekitar 55.000 penutur dengan perbedaan dialek yang cukup signifikan sehingga penutur dari wilayah Timur dan Barat sering berkomunikasi menggunakan bahasa Denmark
  • Kontroversi Wikipedia Scots melibatkan sekitar 50% artikel yang dibuat oleh penutur non-natif
  • Wikipedia Korea mengalami masalah tata kelola meskipun Korea memiliki populasi besar dan kemajuan teknologi yang pesat

Krisis Tata Kelola dalam Pelestarian Bahasa Digital

Komunitas bahasa kecil menghadapi tantangan mustahil ketika harus mempertahankan sumber daya digital. Seperti yang dicatat seorang komentator tentang Wikipedia Korea: Komunitas sering menolak kontributor dari luar, dan banyak editor berpengalaman telah pindah ke platform alternatif. Hal ini menciptakan kekosongan yang diisi oleh konten yang dihasilkan AI, seringkali dengan hasil yang buruk.

Masalah ini terutama akut untuk bahasa seperti Greenlandic, di mana seorang komentator mengungkapkan: Orang-orang di Greenland Timur berbicara dalam bahasa yang memiliki kemiripan, tetapi cukup berbeda dalam kosakata dan suara sehingga sering dianggap sebagai bahasa terpisah dan bukan dialek. Ketika orang dari Greenland Timur dan Barat berkumpul, mereka biasanya berbicara dalam bahasa Denmark karena mereka tidak dapat memahami satu sama lain dalam bahasa asli mereka sendiri. Kompleksitas ini membuat terjemahan AI terutama rentan terhadap kesalahan yang bahkan mungkin tidak ditangkap oleh penutur asli.

Debat Darwinisme Budaya

Situasi ini telah memicu diskusi panas tentang apakah kita harus turun tangan untuk melindungi bahasa-bahasa rentan atau membiarkan seleksi alam berjalan. Beberapa berargumen bahwa evolusi bahasa tidak terhindarkan, dengan seorang komentator menyatakan: Kita memiliki banyak bahasa mati. Itu tidak masalah. Orang menggunakan bahasa apa pun yang sesuai bagi mereka dan kita tidak perlu mempertahankannya selamanya.

Saya menemukan argumen Darwinisme budaya ini sangat ironis, mengingat betapa vokalnya faksi-faksi di 2 negara berbahasa Inggris (asli) terbesar telah mengeluh tentang 'budaya mereka' dinodai oleh imigran.

Yang lain melihat ini sebagai Darwinisme budaya, berargumen bahwa hilangnya keragaman linguistik mewakili hilangnya pengetahuan manusia dan warisan budaya yang tidak tergantikan. Debat ini menyentuh pertanyaan mendasar tentang apakah kemajuan teknologi harus berfungsi untuk melestarikan keragaman budaya atau mempercepat homogenisasi.

Solusi Teknis dan Keterbatasannya

Beberapa solusi teknis telah diusulkan, seperti sistem inkubator Wikipedia di mana edisi bahasa baru harus menunjukkan minat komunitas yang cukup sebelum menjadi proyek penuh. Namun, seperti yang ditunjukkan seorang komentator: Komunitas yang lebih kecil mungkin perlu membalik prinsip operasi Wikipedia dan membatasi pengguna baru hanya untuk membuat draf, dengan asumsi bahwa sebagian besar akan tidak berguna, dan admin dapat menerima yang baik setelahnya.

Tantangannya adalah bahwa solusi-solusi ini memerlukan pengawasan manusia, yang justru itulah yang kurang dalam banyak komunitas bahasa rentan. Seperti yang dicatat pengguna lain: Untuk melatih model dalam semua bahasa itu Anda juga membutuhkan banyak ahli linguistik dan ML khusus, yang keduanya tidak tumbuh di pohon. Dan itu hanya satu hal yang seharusnya dikuasai model generalis, dari banyak hal lainnya. Skalanya mustahil.

Model Tata Kelola Wikipedia:

  • Model Standar: Penyuntingan terbuka dengan pembalikan suntingan yang buruk (berfungsi untuk komunitas besar)
  • Model Inkubator: Bahasa baru harus menunjukkan minat dan kualitas yang memadai
  • Model Tertutup yang Diusulkan: Membatasi pengguna baru untuk membuat draf dengan persetujuan admin (disarankan untuk komunitas kecil)

Masa Depan Keragaman Linguistik di Era AI

Situasi ini menghadirkan paradoks: teknologi AI yang sama yang dapat membantu melestarikan bahasa-bahasa terancam punah melalui terjemahan dan dokumentasi, saat ini justru mengancam akan merusaknya melalui otomatisasi yang dieksekusi dengan buruk. Diskusi komunitas mengungkapkan kekhawatiran mendalam tentang apakah pendekatan saat ini terhadap pelestarian bahasa digital justru lebih banyak mendatangkan bahaya daripada kebaikan.

Beberapa menyarankan bahwa jawabannya terletak pada alat yang lebih baik daripada mengurangi otomatisasi. Seperti yang diusulkan seorang komentator: Solusinya adalah membedakan dan memberi tag pada input dan output, sehingga output tidak dapat diumpankan sebagai input secara rekursif. Ini akan mencegah lingkaran umpan balik dari AI yang belajar dari kesalahannya sendiri, tetapi menerapkan sistem seperti itu di berbagai platform dan bahasa menghadirkan tantangan teknis yang signifikan.

Percakapan terus berlanjut sementara para teknolog, ahli bahasa, dan advokat komunitas bergulat dengan cara memanfaatkan potensi AI untuk pelestarian bahasa tanpa mempercepat kepunahan yang justru mereka harap untuk cegah. Taruhannya tinggi - kita mungkin menyaksikan kepunahan massal warisan budaya manusia era digital pertama, didorong oleh intervensi teknologi yang bermaksud baik namun dieksekusi dengan buruk.

Referensi: How AI could alter the very foundations of language