Manuskrip Voynich, sebuah dokumen misterius dari abad ke-15 yang dipenuhi dengan teks yang tidak dapat diterjemahkan dan ilustrasi aneh, terus membingungkan para peneliti berabad-abad setelah pembuatannya. Analisis komputasi terbaru menggunakan teknik Natural Language Processing (NLP) modern telah mengungkapkan wawasan menarik tentang struktur manuskrip tersebut, menunjukkan bahwa manuskrip ini mengandung pola yang konsisten dengan bahasa sebenarnya daripada sekadar tulisan tidak bermakna.
Analisis Terstruktur Mengungkap Pola Mirip Bahasa
Analisis ini menggunakan beberapa teknik NLP termasuk pengelompokan kata dasar yang telah dipisahkan menggunakan SBERT (Sentence-BERT) multibahasa, identifikasi kelompok yang mirip kata fungsi versus kelompok yang mirip kata konten, dan pemodelan transisi gaya Markov. Dengan memisahkan akhiran yang berulang dari kata-kata (seperti aiin, dy, dan chy), peneliti mampu mengisolasi apa yang tampak sebagai bentuk dasar yang berulang dengan variasi. Keputusan pra-pemrosesan ini secara signifikan meningkatkan perilaku pengelompokan, dengan akar kata yang serupa mengelompok lebih erat dan matriks transisi menunjukkan pola struktural yang lebih jelas.
Temuan ini mengungkapkan bahwa beberapa kluster menunjukkan karakteristik yang khas dari bahasa alami. Kluster 8, misalnya, menunjukkan frekuensi tinggi, keragaman rendah, dan sering muncul di awal baris—perilaku yang konsisten dengan kata fungsi dalam bahasa yang dikenal. Sementara itu, Kluster 3 menunjukkan keragaman tinggi dan posisi yang fleksibel, menunjukkan bahwa kluster ini mungkin mewakili kata-kata konten. Mungkin yang paling meyakinkan, matriks transisi menunjukkan struktur internal yang kuat yang tampak jauh dari acak, dan pola penggunaan kluster berbeda secara nyata antara bagian manuskrip (seperti bagian Biologis versus Botani).
![]() |
---|
Peta panas probabilitas transisi kluster, menampilkan pola linguistik yang diidentifikasi dalam Manuskrip Voynich |
Komunitas Menyarankan Teknik Reduksi Dimensi Alternatif
Sementara analisis asli menggunakan Principal Component Analysis (PCA) untuk reduksi dimensi, anggota komunitas menyarankan alternatif yang lebih canggih yang mungkin mengungkapkan struktur yang lebih dalam. Beberapa komentator merekomendasikan algoritma yang lebih baru seperti UMAP (Uniform Manifold Approximation and Projection), t-SNE, PaCMAP, atau LocalMAP sebagai alat yang potensial lebih efektif untuk jenis data ini.
Ketika saya mendapatkan pemisahan yang bagus dengan PCA, saya pribadi cenderung menghindari UMAP, karena jarak relatif semua titik satu sama lain lebih mudah ditafsirkan. Saya menghindari t-SNE dengan segala cara, karena jarak dalam plot tersebut hampir tidak berarti.
Diskusi ini menyoroti pertimbangan metodologis penting dalam visualisasi embedding: sementara teknik yang lebih baru mungkin mengungkapkan pola yang lebih kompleks, mereka terkadang mengorbankan interpretabilitas jarak relatif antar titik. Pilihan teknik reduksi dimensi dapat secara signifikan mempengaruhi pola yang diamati peneliti dan bagaimana mereka menafsirkannya.
Model Embedding Usang dan Kekhawatiran Pra-pemrosesan
Poin signifikan lain yang diangkat oleh komunitas adalah bahwa model embedding yang digunakan dalam analisis—paraphrase-multilingual-MiniLM-L12-v2—berusia sekitar empat tahun, yang dalam bidang NLP yang berkembang pesat dianggap usang. Komentator menyarankan bahwa model embedding teks modern, bahkan yang tidak secara eksplisit dilatih untuk dukungan multibahasa, mungkin berkinerja lebih baik pada bahasa yang tidak dikenal seperti bahasa Manuskrip Voynich.
Selain itu, beberapa mempertanyakan apakah teknik NLP tradisional seperti memisahkan akhiran mungkin sebenarnya merusak kualitas embedding dengan menghapus data kontekstual yang relevan. Peneliti asli mengakui keterbatasan ini, mencatat bahwa pemisahan akhiran adalah keputusan pra-pemrosesan yang kuat yang mungkin telah menghapus informasi morfologis aktual atau menyamarkan varian infleksional yang bermakna.
Teknik NLP Utama yang Digunakan dalam Analisis
- Pengelompokan kata-kata dasar yang telah dipisahkan menggunakan SBERT multibahasa
- Identifikasi kelompok kata fungsi vs. kelompok kata konten
- Pemodelan transisi gaya Markov dari urutan kelompok
- Pemetaan struktur sintaksis berbasis folio
- Pengembangan hipotesis leksikon berbasis data
Saran Peningkatan dari Komunitas
- Mengganti PCA dengan algoritma reduksi dimensi yang lebih baru (UMAP, t-SNE, PaCMAP, LocalMAP)
- Menggunakan model embedding teks yang lebih baru daripada paraphrase-multilingual-MiniLM-L12-v2 yang berusia 4 tahun
- Mempertimbangkan untuk tetap menyertakan akhiran untuk mempertahankan informasi morfologis
- Menguji kelompok kontrol dengan bahasa buatan
- Membandingkan dengan bahasa yang sudah dikenal untuk kesamaan struktural
Perdebatan Tipuan vs Bahasa Berlanjut
Komunitas tetap terbagi mengenai apakah Manuskrip Voynich mewakili bahasa sebenarnya atau tipuan rumit. Sementara beberapa percaya bahwa manuskrip tersebut adalah omong kosong yang tidak dapat diterjemahkan, analisis statistik secara konsisten menemukan pola yang tidak mungkin muncul dari teks acak. Seperti yang dicatat oleh seorang komentator, untuk menciptakan pola seperti itu, seseorang harus melangkah cukup jauh menuju pembangunan bahasa buatan penuh—sebuah prestasi yang mengesankan.
Yang lain menunjukkan bahwa manusia terkenal buruk dalam menghasilkan keacakan sejati, dan seseorang yang mencoba menciptakan bahasa palsu pada abad ke-15 mungkin secara tidak sengaja menghasilkan teks dengan sifat statistik seperti bahasa. Perdebatan berlanjut, dengan beberapa peneliti menyarankan bahwa manuskrip tersebut mungkin mengkodekan bahasa buatan atau mnemonik terstruktur menggunakan pengisian silabik dan pengulangan posisional.
Penerapan teknik komputasi modern pada misteri berabad-abad ini menunjukkan bagaimana teknologi dapat memberikan pandangan baru pada teka-teki sejarah. Meskipun kita mungkin belum memecahkan kode Manuskrip Voynich, analisis ini membantu kita memahami strukturnya dan mempersempit kemungkinan apa yang mungkin diwakilinya.
Referensi: Analisis Struktural Manuskrip Voynich