Oko 2,94 terabajta podataka otkrilo je tajne bezbroj bogatih elita iz više od 200 zemalja i teritorija. To su ljudi koji koriste utočišta za poreze i tajnost za kupovinu imovine i skrivanje imovine izbjegavajući plaćanje poreza. Među njima su više od 330 političara i 130 Forbesovih milijardera, te slavne osobe, preprodavači droga, članovi kraljevske porodice i vođe vjerskih grupa širom svijeta.
Međunarodni konzorcij istraživačkih novinara (ICIJ) proveo je više od godinu dana u strukturiranju, istraživanju i analiziranju više od 11,9 miliona zapisa u curenju Pandora Papers. Zadatak je uključivao tri glavna elementa: novinare, tehnologiju i vrijeme.
Istraga Pandora Papers najveća je svjetska novinarska saradnja koja uključuje više od 600 novinara iz 150 medija u 117 zemalja.
Ovi podaci podijeljeni su s medijskim partnerima širom svijeta i stigli su u različitim formatima: kao dokumenti, slike, e-mailovi, tabele i drugo.
Evidencija uključuje dosad neviđenu količinu podataka o takozvanim stvarnim vlasnicima registriranih na britanskim Djevičanskim otocima, Sejšelima, Hong Kongu, Belizeu, Panami, Južnoj Dakoti i drugim. Također sadrže podatke o dioničarima, direktorima i službenicima.
Podaci su sadržavali više od 4,1 milion slika i e-mailova. Budžetske tabele činile su četiri posto dokumenata ili više od 467.000. Zapisi su uključivali i projekcije slajdova te audio i video datoteke.
Kako bi istražio i analizirao podatke u Pandorinim dokumentima, ICIJ je identificirao datoteke koje sadrže podatke o stvarnom vlasništvu prema kompanijama i nadležnostima te ih prema tome strukturirao. Podaci svakog pružatelja zahtijevali su drugačiji postupak.
U slučajevima kada su informacije dolazile u obliku tabele, ICIJ je uklanjao duplikate i kombinirao ih. Za datoteke PDF ili dokumente korišteni su programski jezici poput Pythona.
U složenijim slučajevima ICIJ je koristio druge alate, uključujući softver Fonduer i Scikit-learn, za identifikaciju i odvajanje posebnih obrazaca od dužih dokumenata.
Neki obrasci davatelja usluga pisani su rukom, što je zahtijevalo od ICIJ -a da ručno izvlači podatke.
Nakon strukturiranja podataka, ICIJ je upotrijebio grafičke platforme (Neo4J i Linkurious) za generiranje vizualizacija i njihovo pretraživanje. To je novinarima omogućilo da istraže veze između ljudi i kompanija različitih pružatelja usluga.
ICIJ je podijelio zapise s medijskim partnerima koristeći Datashare, siguran istraživački i analitički alat koji je razvio ICIJ-ov tehnički tim. Datashare-ova funkcija skupnog pretraživanja pomogla je novinarima da uporede neke javne ličnosti s podacima.
Oko 150 medijskih partnera podijelilo je savjete, tragove i druge informacije od interesa koristeći globalni ICIJ-ov I-Hub, sigurnu društvenu mrežu i platformu za razmjenu poruka.
Izvor: ICIJ