Pada Selasa lalu (10/5), konsorsium wartawan investigasi atau International Consortium of Investigative Journalists (ICIJ) akhirnya membuka bank data Dokumen Panama atau lebih dikenal The Panama Papers ke publik. Isinya memuat daftar 214 ribu perusahaan cangkang di luar negeri (offshore) yang didirikan di 21 negara suaka pajak (tax haven). Selain itu, informasi lebih dari 100 ribu entitas offshore lainnya yang masuk dalam investigasi Offshore Leaks tahun 2013.
Bank data ini bagian dari investigasi ICIJ bersama 376 jurnalis dari 76 negara, yang bersumber dari bocoran data firma hukum Mossack Fonseca di Panama. Disebut bank data karena menyimpan 11,5 juta dokumen berukuran 2,6 terabita. Ini setara dengan 2.200 film layar lebar berdurasi 90 menit lebih dengan kualitas tinggi (High Definition/HD) atau 6.816 film standar DVD. Karena itulah, Panama Papers disebut sebagai kebocoran data terbesar dalam sejarah jurnalistik.
Bukan perkara mudah memilah, menyisir, hingga mengelompokkan jutaan dokumen dalam beragam format itu. Mulai dari spreadsheet, surat elektronik (e-mail), PDF, hingga format lama yang sudah tidak dijumpai lagi saat ini. Termasuk menampilkannya berdasarkan domisili negara asal pemilik perusahaan cangkang itu sehingga mudah diakses dan dimengerti oleh pengakses dari berbagai penjuru dunia.
Mar Cabra, anggota ICIJ dan Kepala Tim Data Panama Papers, mengungkapkan proses kerja besar selama 12 bulan untuk mengolah bank data tersebut, yang juga melibatkan koordinasi dengan 376 jurnalis dari 76 negara. Ia menilai pekerjaan itu sangat menantang karena berbagai hal.
(Baca: Di Sini Data Panama Papers Bisa Diakses)
Pertama, jumlahnya sangat besar dengan data berukuran 2,6 terabita. Kedua, semua data itu tidak datang bersamaan. Tim Panama Papers berhadapan dengan informasi yang masuk secara bertahap, disertai dengan banyak gambar. Mayoritas dokumen itu berupa e-mail serta bank data. Ada juga dokumen dengan format PDF dan TIFF.
Mayoritas data tersebut tidak terstruktur dan masih dalam format mentah aslinya. Alhasil, tim harus merekonstruksi dan menghubungkan kode-kode dari dokumen tersebut. "Jadi, kami harus melakukan konversi jutaan dokumen tersebut," kata Cabra dalam wawancara dengan situs teknologi Source, yang dilansir Selasa (10/5) lalu.
Hal seperti itu, dalam kapasitas lebih kecil, sebenarnya juga telah dilakukan Cabra bersama timnya saat mengolah data dan menampilkan dokumen Offshore Leaks tahun 2013 dan Swiss Leaks tahun lalu. "Pemogram kami, Rigoberto Carvajal, benar-benar ahli sulap. Ia sangat mahir mengutak-atik bank data," katanya. Bersama Miguel Fiandor, Carvajal mengekstrak dan mereproduksi bank data, yang dikenal sebagai proses reverse-engineer.
Perbedaannya, bocoran data Panama Papers saat ini menghadirkan informasi yang jauh lebih besar, dengan keterlibatan klien kelas atas Mossack Fonseca. ICIJ kemudian menggabungkan dua bank data menjadi URL Offshore Leaks. Jadi, orang bisa mencari informasi dari bank data terbesar ini mengenai perusahaan offshore. "Namun kami tidak merilis keseluruhan dokumen sebanyak 11,5 juta itu. Yang kami buka adalah data terstruktur yang berasal dari bank data internal Mossack Fonseca," ujarnya.
Keterlibatan para penelisik atau wartawan data seperti Cabra dan perangkat teknologi serta piranti lunak, sangat berperan penting dalam pengolahan dan pembuatan bank data terstruktur tersebut. Cabra mengaku, memanfaatkan teknologi open source yaitu Apache Solr untuk mengerjakan indeks dan Apache Tika untuk memproses dokumen.
Piranti lunak itu mampu memproses banyak dokumen dengan beragam format. Apache Tika bisa dipakai bersama dengan Tesseract untuk mengkonversi dokumen.
Sedangkan untuk konversi gambar, tim Cabra membangun 30-40 server sementara di Amazon sehingga mereka dapat memproses dokumen secara paralel. "Jika kecepatan server membutuk, kami menambah jumlah server. Namun jika sudah cukup cepat, kami mengurangi jumlahnya karena tentu saja setiap server membutuhkan biaya," ujarnya.
Kemudian, tim memasukkan data-data tersebut. Namun masalahnya, Solr tidak memiliki fasilitas pengontrol aplikasi atau user interface. Oleh karena itu, mereka memakai Project Blacklight, sebuah piranti lunak open source yang biasa digunakan oleh pustakawan. Dengan begitu, proses pencarian data menjadi lebih mudah.
Sebagai contoh, tim bisa mencari informasi berdasarkan tahun dan jenis berkas. Sebab, bocoran data Mossack memiliki rentang waktu hampir empat dekade, mulai 1977 hingga akhir 2015. Rantai pengolahan dokumen itu dibangun oleh web developer tim Panama, Matthew Caruana Galizia.
(Baca: Pengakuan Pembocor Sumber Panama Papers)
Sebagai visualisasi dari bank data internal Mossack Fonseca, tim Cabra bekerja menggunakan Linkurious. Piranti lunak memungkinkan menampilkan data dalam bentuk grafik. Ditambah piranti lunak ekstraksi Extract, Transform and Load (ETL) bernama Talend, mempermudah pengerjaan untuk mengubah data dari SQL menjadi Neo4j. Yaitu format bank data dalam bentuk grafik yang digunakan oleh Panama Papers.
Ketika data sudah diubah formatnya, langkah selanjutnya adalah memasukkannya dalam Linkurious. "Dalam dua menit, kita sudah bisa melihatnya dalam bentuk jaringan. Jadi, semua orang bisa mengaksesnya dari belahan dunia manapun," kata Cabra.
Visualisasinya pun sangat mudah dipahami semua orang. Bahkan, dia mengklaim, wartawan yang tidak begitu mahir teknologi bisa memanfaatkan dokumen-dokumen tersebut bagaikan seorang pesulap.