Seorang developer telah merilis tool Python open-source yang dirancang untuk mem-parsing dokumen PDF dari Poste Italiane, layanan perbankan pos Italia, mengkonversinya menjadi data JSON atau CSV yang terstruktur. Proyek ini, dengan humoris didedikasikan agli sventurati che hanno un conto postale (untuk orang-orang malang yang memiliki rekening pos), mencerminkan frustrasi yang meluas terhadap sistem perbankan pos Italia.
Jenis Dokumen yang Didukung:
- Estratto Conto BancoPosta (Laporan rekening bank)
- Rendiconto Postepay Evolution (Laporan Postepay)
- Lista Movimenti Postepay Evolution (Daftar transaksi Postepay)
Reaksi Komunitas Menyoroti Masalah Layanan Perbankan
Peluncuran tool ini telah memicu diskusi signifikan tentang kualitas layanan Poste Italiane. Para pengguna telah membagikan pengalaman yang sangat buruk, dengan salah satunya menggambarkannya sebagai bank terburuk yang pernah saya hadapi sepanjang hidup saya karena layanan yang mengerikan dan waktu tunggu yang sangat lama di cabang-cabang. Kritik tersebut meluas melampaui layanan perbankan, dengan pengguna mencatat bahwa layanan pos Italia sendiri berkinerja buruk dibandingkan dengan negara-negara Eropa lainnya.
Diskusi komunitas mengungkapkan perbandingan menarik dengan sistem pos lainnya. Layanan pos Jerman mendapat pujian untuk inovasi seperti cap bercetak rumah, layanan pemindaian surat, dan adopsi awal loker paket. Sementara itu, pengguna mencatat bahwa penjual Italia di marketplace internasional sering menjual dengan diskon sebagian karena waktu pengiriman yang lebih lambat dibandingkan negara Eropa lainnya.
Implementasi Teknis dan Tantangan
Parser menggunakan library PyMuPDF dengan pemetaan koordinat yang presisi untuk mengekstrak informasi dari dokumen PDF. Pendekatan ini meng-hardcode layout dokumen, membuatnya rentan terhadap perubahan format tetapi umumnya stabil karena layout dokumen keuangan jarang berubah. Tool ini secara otomatis mendeteksi jenis dokumen, memvalidasi data keuangan, dan mendukung pemrosesan batch dari beberapa file.
Untuk yang penasaran bagaimana cara kerjanya, tool ini menggunakan pymupdf dan pemetaan presisi dari semua informasi dalam koordinat area, sehingga layout dokumen di-hardcode.
Anggota komunitas mendiskusikan tantangan yang lebih luas dalam mem-parsing statement bank dan PDF keuangan. Bahkan dengan PDF digital yang berisi tabel aktual daripada gambar, parsing tetap sulit karena perubahan layout yang sering terjadi antar statement. Meskipun solusi berbasis LLM modern tersedia, developer menyatakan keengganan untuk mempercayainya dengan data keuangan yang sensitif.
Fitur Utama:
- Deteksi otomatis jenis dokumen
- Validasi data untuk verifikasi saldo
- Berbagai format output ( JSON , CSV )
- Kemampuan pemrosesan batch
- Dukungan antarmuka command-line dan pustaka Python
Implikasi yang Lebih Luas untuk Pemrosesan Data Keuangan
Proyek ini menyoroti tantangan berkelanjutan dalam otomasi data keuangan. Pendekatan developer menggunakan parsing berbasis koordinat mewakili solusi praktis untuk jenis dokumen tertentu, meskipun memerlukan pemeliharaan ketika layout berubah. Struktur kode yang bersih dan langsung membuatnya relatif mudah untuk diperbaiki ketika pembaruan diperlukan.
Tool ini mendukung tiga jenis dokumen utama: Estratto Conto BancoPosta (statement bank), Rendiconto Postepay Evolution (laporan Postepay), dan Lista Movimenti Postepay Evolution (daftar transaksi Postepay Evolution). Tool ini mencakup fitur validasi data untuk memastikan saldo dan total sesuai dengan data transaksional, mengatasi kekhawatiran umum tentang integritas data dalam pemrosesan keuangan otomatis.
Proyek ini menunjukkan bagaimana developer individu menciptakan solusi untuk mengatasi kesenjangan dalam digitalisasi layanan keuangan, terutama ketika berurusan dengan institusi yang mungkin tertinggal dalam menyediakan tool digital modern untuk pelanggan.
Referensi: Poste Italiane Documents Parser