Sebuah eksperimen menarik sedang melacak apakah pengguna Bluesky dapat secara kolektif mengucapkan setiap kata dalam bahasa Inggris. Proyek Bluesky Dictionary , yang dibuat oleh pengembang Avi Bagla , memantau postingan real-time platform untuk melihat seberapa banyak kamus bahasa Inggris yang muncul dalam percakapan sehari-hari. Setelah memproses lebih dari 4 juta postingan, hasilnya menunjukkan kesenjangan mengejutkan dalam kosakata digital kita.
Cakupan Terbatas Meskipun Pemrosesan Data Masif
Proyek ini telah menganalisis 51,7 juta kata dari 4,2 juta postingan Bluesky , namun hanya mencakup 35,57% dari kamus bahasa Inggris standar yang berisi 274.937 kata. Ini berarti hampir dua pertiga kata bahasa Inggris tidak pernah muncul dalam postingan yang dianalisis. Anggota komunitas menyatakan terkejut betapa umumnya beberapa kata yang hilang, mencatat bahwa istilah-istilah wajar seperti congregant, definer, dan stereoscope belum terdeteksi.
Namun, keterbatasan cakupan cukup signifikan. Dengan Bluesky yang menampung sekitar 1,7 miliar total postingan menurut data komunitas, proyek ini hanya memeriksa 0,28% dari semua pesan di platform. Ukuran sampel kecil ini mungkin menjelaskan mengapa banyak kata biasa masih belum tertangkap.
Statistik Saat Ini:
- Cakupan Kamus: 35,57% (97.796 dari 274.937 kata)
- Total Kata yang Diproses: 51,7 juta
- Postingan yang Dianalisis: 4,2 juta
- Ukuran Database: 58 MB
- Tingkat Pemrosesan Data: ~900 kbps
Implementasi Teknis dan Tantangan Dunia Nyata
Sistem backend menggunakan pendekatan langsung dengan tabel database SQLite yang melacak statistik kata dan pola penggunaan. Pencipta memproses aliran data Bluesky sekitar 900 kilobit per detik, menyimpan setiap kata unik dengan jumlah dan stempel waktu penggunaannya. Ukuran database 58 megabyte menunjukkan seberapa efisien data teks dapat disimpan dan dianalisis.
Beberapa pengguna melaporkan kesulitan teknis mengakses situs, mengalami kesalahan SSL dan masalah CORS . Ketergantungan pada JavaScript sisi klien untuk menampilkan hasil menciptakan hambatan bagi pengguna dengan pengaturan keamanan browser yang ketat atau firewall perusahaan.
Arsitektur Teknis:
- Backend: Database SQLite dengan dua tabel utama
- Sumber Data: Bluesky Jetstream API (firehose terkompresi)
- Kamus Kata: "an-array-of-english-words" dari GitHub (274.937 kata)
- Pemrosesan: Tokenisasi kata dan pencarian secara real-time
- Penyimpanan: Jumlah kata, penggunaan pertama, penggunaan terakhir, dan referensi postingan
Penemuan Tak Terduga dan Memanipulasi Sistem
Proyek ini telah menangkap beberapa istilah yang benar-benar tidak jelas seperti stigmatophilia, algolagnia, dan pyrosomes sambil melewatkan kata-kata umum. Beberapa pengguna mulai sengaja memposting kata-kata kamus langka untuk meningkatkan persentase cakupan. Satu pengguna berhasil melakukan kombo ganda dengan menggunakan wheal dan sluices dalam satu postingan tentang kunjungan museum Cornwall .
Sistem ini juga menghadapi tantangan akurasi, seperti mengindeks eluvium ketika pengguna membahas nama band daripada istilah geologis. Masalah deteksi bahasa muncul ketika postingan Prancis yang berisi kata-kata yang tampak seperti bahasa Inggris diproses, meskipun Bluesky menyertakan metadata bahasa yang dapat membantu memfilter hasil.
Eksperimen ini mengungkapkan bagaimana percakapan digital, meskipun dalam skala besar, hanya mewakili sebagian kecil dari bahasa manusia. Bahkan dengan jutaan postingan, kosakata online kita tetap mengejutkan terbatas dibandingkan dengan kekayaan penuh bahasa Inggris.
Referensi: The Bluesky Dictionary
