Dalam demonstrasi cerdas tentang kemampuan pengenalan visual AI, seorang pengembang baru-baru ini menciptakan tes otomatis yang berhasil mendeteksi asap putih dari cerobong Kapel Sistina, menandakan pemilihan paus baru. Tes tersebut, yang dengan tepat dinamai tes asap, menunjukkan bagaimana AI dapat digunakan untuk pemantauan acara secara real-time melalui penilaian visual daripada metode analisis gambar tradisional.
Pengujian Visual AI Menggantikan Analisis Gambar Tradisional
Pengembang tersebut menciptakan skrip pengujian menggunakan kerangka kerja pengujian AI yang terhubung ke siaran langsung YouTube dari cerobong Kapel Sistina di Vatikan. Alih-alih menerapkan algoritma pemrosesan gambar yang kompleks untuk mendeteksi warna asap, sistem ini memanfaatkan kemampuan pengenalan visual AI melalui prompt sederhana. Tes ini dirancang untuk lulus hanya ketika asap putih muncul, menandakan pemilihan paus yang berhasil, dan gagal jika asapnya hitam atau tidak ada. Menurut komentar dari pengembang, tes tersebut lulus tepat ketika asap mulai keluar, mengkonfirmasi pemilihan secara real-time.
Pendekatan ini menunjukkan bagaimana rekayasa prompt dapat menawarkan alternatif yang lebih sederhana dibandingkan teknik computer vision tradisional. Dengan menginstruksikan AI untuk menilai kondisi spesifik secara visual melalui pernyataan bahasa alami, pengembang dapat menghindari kompleksitas membangun solusi analisis gambar khusus.
Detail Implementasi Pengujian:
- Framework: Framework pengujian AI kustom
- Batas Waktu: 60.000 milidetik (1 menit)
- Model AI yang Digunakan: Beberapa model diuji termasuk Gemini, GPT-4o
- Biaya: $0,29 USD untuk pemantauan selama 2 hari
- Pendekatan: Penegasan visual melalui AI daripada analisis gambar tradisional
- Repositori: Tersedia di GitHub (donobu-papal-election-tests)
Aplikasi AI Multimodal yang Hemat Biaya
Salah satu aspek yang sangat menarik dari implementasi ini adalah efektivitas biayanya. Ketika ditanya tentang biaya API untuk menjalankan tes dengan Google Flash 2.0, pengembang melaporkan hanya menghabiskan 0,29 dolar AS selama dua hari pemantauan. Pengeluaran minimal ini menyoroti betapa terjangkaunya kemampuan AI canggih saat ini, bahkan untuk kasus penggunaan khusus seperti pemantauan acara.
Beberapa komentator membahas potensi masa depan aplikasi semacam itu, menunjukkan bahwa model AI multimodal yang dijalankan di tempat akan membuat implementasi ini jauh lebih baik. Pengembang mengkonfirmasi mereka sedang mempersiapkan masa depan ini dengan pendekatan yang mengutamakan lokal termasuk aplikasi desktop, menunjukkan bahwa latensi dan persyaratan pemrosesan tetap menjadi pertimbangan untuk tugas penilaian visual real-time.
Instead of AI looking at your code and browser and writing Playwright scripts, AI is directly controlling browser and asserting over tests.
Tes ini berfungsi sebagai aplikasi praktis dan permainan kata yang cerdas. Dalam pengembangan perangkat lunak, tes asap biasanya mengacu pada pengujian awal untuk memverifikasi fungsionalitas dasar. Di sini, istilah tersebut mengambil makna harfiah karena tes tersebut benar-benar memantau asap, menciptakan permainan kata teknis yang menghibur yang mendapat sambutan dari komunitas pengembang.
Sementara beberapa komentator menyarankan alternatif yang lebih sederhana—seperti memantau notifikasi berita di ponsel—pendekatan berbasis AI menunjukkan bagaimana pengenalan visual dapat diterapkan pada peristiwa dunia nyata dengan upaya pengembangan minimal, yang berpotensi membuka pintu untuk aplikasi serupa di domain lain yang memerlukan pemantauan visual dan deteksi peristiwa.
Referensi: papal_election_smoke.test.ts