Népszava, 2015. április (142. évfolyam, 77–101. sz.)

2015-04-29 / 100. szám

12INTERJÚ www.nepszava.hu belfold@nepszava.hu 2015. ÁPRILIS 29., SZERDA – Kezdjük a mi szívünknek kedves témával; nemrég befe­jeződött a Népszava 141 évfo­lyamának digitalizálása. Éppen egy éve beszéltünk, amikor azt mondta, optimista lenne, ha 2016 végére sikerülne lezárni ezt a munkát, amely akkor más­fél-két éve tartott. – Ezek szerint túl pesszimis­ta voltam. Mindig elsősorban az anyag összegyűjtése jelent problémát. A Népszava 141 éve esetében például hatalmas megrakott autókkal szaladgál­tunk, amíg mindent el tudtunk vinni. Egy éve nagyjából 1948­ig, illetve a második világhábo­rúig volt kész az anyag, az az­óta kiadott számokat pedig egy­szerűbb volt összeszedni. Bár beszéltünk arról is korábban, hogy ez sem mindig igaz: gyak­ran a legújabb számok már két nap után sincsenek meg. Főleg napilapoknál. Azokat az újsá­gokat, amelyek nagyobb pél­dányszámban jelennek meg, az emberek valahogy nem őrzik meg. De immár sajtótörténeti pillanatként számolhatok be róla, hogy a 141 éves újság tel­jes anyaga 1873-tól kereshető módon az interneten hozzá­férhetővé vált (az adtplus. arcanum.hu/hu/collection/ Nepszava oldalon). A lényeg, hogy most lehetne megírni a Népszava történetét. Valakinek venni kellene a fáradságot, hogy a teljes anyagot átnézi, mert abból nagyon jó dolog tud­na összeállni. – Mi a helyzet a hiányzó szá­mokkal? Annak idején kértük olvasóinkat, ha megtalálják a lappangó példányokat, küldjék el. – Ezek a számok sajnos tény­leg eltűntek. Volt néhány ked­ves beküldő, de azok a példá­nyok sajnos már megvoltak, az olvasók is a háború alatti hibás és zavaros számozás miatt ke­verték össze a számokat. A hi­ányzó számok keresése során amúgy is mindenféle furcsa­sággal találkoztunk, a lap min­denféle leágazásával: volt idő­szak, amikor Debrecenben ad­ták ki a Népszavát, ám a bo­nyolult számozás miatt nem tudtuk, hogy ez az eredeti Nép­szava vagy egy másik. Hiszen a lap Munkás-Heti-Krónika né­ven indult 1873-ban, és amikor 1877-ben a Népszava névre vál­tott, sokáig ugyanúgy kiadták a Krónikát is. Eleinte hetente, majd hetente háromszor jelent meg a Népszava, volt, hogy visz­szaváltott, szóval kissé zavaros volt a megjelenés, de mindez most már dokumentálható. Ami miatt még nagyon nehéz volt, hogy az OCR, az optikai szövegfelismerés nem mindig működött. Ez egy olyan techno­lógia, amely lehetővé teszi ké­pek, szkennelt vagy digitálisan fotózott dokumentumok és PDF-fájlok szerkeszthető, szö­vegesen – nemcsak a címben, hanem a cikkek tartalmában is – kereshető formába alakítását. Tehát ezzel könnyen tudunk szöveget előállítani. Minden jól is haladt a szövegfelismeréssel, kivéve az ’50-es, ’60-as évek számait: egyszerűen nincs rá magyarázat, nem tudjuk ma sem, hogy miért, de ezeket a program nem ismerte fel. Pedig ez egy világszerte használt szoftver, az 1870-es, az 1920­as, az 1980-as Népszaváknál is működött, de ezeknél nem. – Ilyenkor semmit nem lát a gép? – Az OCR első lépése, hogy a hasábokat felismeri. Egy na­gyon bonyolult oldalon – a na­pilapoké pedig annak számít – is látnia kell, hogy van rajta öt hasáb, és közben mondjuk egy háromhasábos felcím. Nos, a hasábokat nem látta a prog­ram; ha pedig már eltévedt bennük, akkor a szövegnek is annyi. Ekkora mennyiségnél – 387 ezer oldalról beszélünk – ez valami borzalmas akadály. – És akkor kézzel kellett beál­lítani? – Kézzel, manuálisan kere­tezgettük a hasábokat, gyakor­latilag oda tereltük a gép figyel­mét. – Pedig még a tördelés is ha­sonló, mint az előző évtizedek­ben… – Ezért is érthetetlen a dolog. Gondoltunk már mindenre, a papír minőségére, próbáltunk nagyobb felbontásban szken­nelni, néztük a festéket, hátha gyengébb minőségű volt akkor. Ráadásul mindez a folyamat legvégén derült ki, mert a fel­dolgozásban „két oldalról” ha­ladtunk, a ’40-es, illetve a ’70­es évektől közelítettünk, tehát elég nagy meglepetésként ért minket. De korábban is voltak gikszerek: például 1999 és 2005 között olyan borzasztó nagy volt a Népszava, hogy gya­korlatilag csak az egyméteres térképszkennerünkben fért el rendesen, amely 36 centiméter­szer 49 centiméteres, ami ke­zelhetetlen méret. Ez is nagy erőpróba volt. Ezekhez készítet­tünk egy nagy felbontású, 36 pixeles fényképezőt is, ami a szkennerrel párhuzamosan tu­dott haladni, elég jó ütemben. – Ha jól értem, teljes a 141 év, de mégis mennyi az, ami most nem elérhető? – Valóban igényel még némi munkát a dolog, az utolsó hó­napok még nincsenek fent, de közben más anyagokat is készí­tünk. Összességében egytized százalékra tenném, ami való­ban hiányzik a Népszava teljes digitalizálásából. Ez legfeljebb 2-300 oldal, tehát nagyon ke­vés. – A mi internetező olvasóink és a történészek nyilván meg­nézik majd a gyűjteményt, de érdemes lenne valahogy nép­szerűsíteni is? – Abszolút szükséges lenne népszerűsíteni. Alapvetően két nagy adatbázisunk van, az Arcanum Digitális Tudomány­tár (ADT) mellett szeptember óta működik a Hungaricana is – hungaricana.hu –, ami több mint száz közgyűjtemény állo­mánya: múzeumok, levéltárak, könyvtárak, több mint száz in­tézmény anyagai találhatók itt. Ezek együtt több tízmillió ol­dalt tesznek ki, fontos anyagok. Eddig egyébként csak amolyan suttogó propagandában terjedt a Hungaricana híre, de április­ban Kövér László házelnök „avatta fel” az archívumot, mely már az Országgyűlési Könyvtár állományát is tartalmazza. Re­méljük, hogy népszerűvé válik, a Hungaricana amúgy is egy nagy ernyő: itt van 300 ezer ké­peslap, ami talán a leglátoga­tottabb gyűjtemény, napi két­háromezer emberrel, és ha ma valaki egy képeslapot keres a Google-ban, akkor már a mi ol­dalunk az első találat. Képes­lapban gyakorlatilag nincs kon­kurenciánk. Továbbá vannak térképeink, ezeknek is kétezer körül van a napi látogatottsá­ga. És léteznek olyan száraz adatok, amelyek ezekkel a nép­szerűbb tartalmakkal nem ve­tekedhetnek. De vannak nagy­szerű kéziratos térképeink az Országos Levéltártól, azokon mindenki megtalálhatja a saját faluját. Nyilván szűkebb réteget érdekel, de megtalálható az 1700 előtt kiadott magyar könyvek adatbázisa is, és ne­kem nagy kedvenceim a Mária Terézia-féle úrbéri tabellák. Ez első hallásra borzasztó érdek­telennek tűnhet, pedig benne van az összes jobbágy neve, vagy is nem más, mint a felme­nőink eredete. – Akkor elég bő lehet az ADT anyaga is, ahová a Népszava is került… – Több mint 250 folyóiratot tartalmaz, és azt mondhatom, hétről hétre bővül a bázis. A Tolnai Világlapja, a Budapesti Hírlap, a Pesti Napló, Pesti Hír­lap is hozzáférhető itt, az adat­bázis ingyenesen kereshető, csak a dokumentumok megte­kintésekor kell fizetni. Ennek is nő a híre, lényegében alig van jelentős folyóirat, amely ne len­ne itt megtalálható. Most éppen határon túli anyagokkal bővít­jük az állományt, a kolozsvári Korunkkal, a marosvásárhelyi Látóval egyeztünk meg, nemrég a megszűnt Holmi is megkere­sett. Csupa olyan, a rendszer­váltás környékén induló lap, mely mára megszűnt. Nincs az jól, hogy ezeket nem őrzi meg az utókor. – Egy éve még szintén terv volt, hogy egy Habsburg-kori térképet a Google térképébe il­lesszenek, ami mára sikerült is. Hogyan lehetett ezt elérni? – Folyamatosan finomítottuk a technikát. Az akkori térképe­ket „georeferáltuk”, vagyis a térképek minden egyes pixelé­hez a mai GPS-koordinátákat rendeltük hozzá. Ha ez meg­van, a térinformatikai progra­mok segítségével már „köny­nyen” össze lehet passzítani a Google-lal. Szakmailag annyi a titok, hogy a Google-nak is van egy saját térképvetülete, hiszen a térképeket mindig va­lamilyen vetületben készítik: amikor térképet készítünk, az ellipszoid alakú Földről egy kétdimenziós verziót csiná­lunk. Erre pedig a régi térkép teljesen automatikus rákerül. Ehhez az kell, hogy az akkori térkép szelvényezve legyen; na­gyon részletes kataszteri tér­képet például úgy csinálnak, hogy mondjuk a Gellért-hegyet berácsozzák, és tudjuk, hogy összesen 2850 méter széles és 1700 méter magas. Tehát en­nek a téglalapnak a négy sar­kát nézzük, és az alapján meg tudjuk mondani a mai GPS­koordinátáit tízméteres vagy akár méteres pontossággal. A kézi munka ebben, hogy a négy sarkát bejelölöm, meg­mondom, hogy ez pontosan melyik koordináta. – Tehát akkor ezek a régi tér­képek teljesen pontosak? – Lukak persze vannak, de egészen különböző okokból. Hadd meséljem el: nemrég vol­tunk Beregszászon, a külügyi tárca támogatásával sikerült a Kárpátaljai Területi Állami Le­véltárban lévő – egykori magyar királyság korabeli – térképeket digitalizálni. A levéltár bereg­szászi részlege egy hatalmas, volt börtönépületben található, borzasztó körülmények között. Itt őrzik a magyarság és a ma­gyar történelem szempontjából rendkívül fontos iratokat, 2012­ben pedig az épület egy része beázott, majd gombásodásnak indult. Aztán egy év múlva rá­szakadt a mennyezet az értékes kataszteri térképgyűjteményre. A tető maga alá temette az ira­tokat, úgy kellett hosszú mun­kával kimenteni. Végül az egé­szet nem nekünk kellett rend­be hozni, a romokat takarítani, de porszívózni és a sérült állo­mányt megmenteni, beszken­nelni igen… És ahogy Bereg, Máramaros, Ugocsa megyéket töltöttük fel, szomorúan lát­szott, mely megyék hiányoz­nak. És ezeket az ottani kollé­gák még most is keresik az épület különböző szobáiban. A jó hír, hogy már folyik az épü­let felújítása, így az egész táro­lási rendszer is átalakul, de sokszor ezek a térképek már a használat miatt is tönkreme­hettek. Aztán sokan mondják, hogy a tanácselnök vagy pol­gármester hazavitte, és feltette a falra…, vagyis számunkra so­sem lesz meg. Ilyenkor külön­böző forrásokhoz nyúlunk, má­solatokból próbálunk dolgozni. Fáradságos munka. Már három éve gyűjtjük Horvátországból is az iratokat, kissé tragikomi­kus, hogy én próbálom meg a horvát levéltárakat összehozni: gyerekek, nézzétek már meg, nálatok mi van meg, mi nincs, mert az lehet, hogy a másiknak megvan. Hogy ez miért van? Tudja, szakmai dolog: „ki a jobb levéltáros”. Szóval velem gyak­ran jobban együttműködnek, mint egymással. – És hogyan működik a Google-nál, hogy befogadnak egy térképet? Van egy térké­pem, beküldöm nekik, és felte­szik? Hogy megy ez? – Valahogy így. Beküldöd a térképet, hogy ezt szeretnéd, ha a Google Mapsen megjelenne, azt leellenőrzik és engedélyezik. A Google-térképek egyébként ingyen használhatók, kevés korlátozással: például, ha a na­pi 30 ezer látogatót túllépi az adott portál, akkor már fizetni kell a szolgáltatásokért – mi né­ha elértük ezt a számot –, de amúgy nem kell. És lehet mon­dani nekik, hogy az ettől eddig tartó GPS-koordinátákat ké­rem, azokat ők szolgáltatják, innentől teljesen szabadon rá­tehetem az én térképemet. So­kan nem tudják, a Google-nak hatalmas készlete van, amit in­gyen lehet használni, ami első­sorban a fejlesztőknek fontos, és ők ismerik is ezeket a lehető­ségeket. A Google-nak van egy olyan honlapja is, amire ráte­szik az általuk legjobbnak ítélt ilyen kezdeményezéseket: ame­rikai népszámlálási adatokat, francia régi térképeket, és a mi­einket is olyan színvonalasnak találták, hogy csinálhattunk egy külön Arcanum-oldalt ne­kik, a Google Maps Generato­ron. Aminek számunkra továb­bi nagy előnye, hogy ezzel nö­velik a kapacitást, amennyit használhatunk, amin terjesz­kedhetünk. – Az MTI archívumát is az Arcanum készítette, biztosan nem volt kis munka… – Ez egy viszonylag régebbi dolog, 2010 környékén kezdtük. Az MTI teljes archív anyaga az Országos Levéltárban volt meg­található papíron, ez majdnem egymillió oldal, 1920 és 1950 közötti napi hírek. A távirati irodának akkoriban nagyon sok rovata volt, és mind elérhe­tő volt papíron a levéltárban. 1920 előtt nem maradt fenn szinte semmi, az akkori anya­gok megsemmisültek. Külön­ben ez egy nagyon szép munka volt, a nehézségeket itt is a bor­zalmas állapotú gépiratok okoz­ták. Különben évente 5-6 mil­lió oldalt digitalizálunk, nyil­ván nem mindegy, mennyire rossz minőségű valami vagy mennyire bonyolult megcsinál­ni. – Lesz-e folytatása a Népsza­va archiválásának? Felkerülnek az idei és a későbbi számok is? – Most egy kicsit kipihenjünk magunkat Népszava-ügyileg, de azt mondhatom, hogy lesz. Negyedévente ránézünk majd, és ha majd újra erőt veszünk magunkon, akkor folytatjuk a további számokkal. Azokat az újságokat, amelyek nagyobb példányszámban jelennek meg, az emberek valahogy nem őrzik meg Évente 5-6 millió oldalt digitalizálunk Sajtótörténeti pillanatnak nevezi Biszak Sándor, hogy a 141 éves Népszava teljes anyaga – 1873-tól 2014-ig – digitalizálva, kereshető módon az interneten hozzáférhetővé vált. A hatalmas, több évig tartó munkát végző Arcanum Adatbázis Kft. vezetője szerint problémát elsősorban az anyag ösz­szegyűjtése jelentett, de a digitalizáció során azért akadtak technikai ne­hézségeik is. Nemcsak lapunk, de például az MTI, az Országgyűlési Könyv­tár és számos közgyűjtemény is az Arcanumnak köszönheti, hogy ma már digitális formában is elérhető az interneten. BARNA L. NORBERT Biszak Sándor és munkatársai most kicsit rápihennek a Népszava 141 évnyi anyagának digitalizálására FOTÓ: VAJDA JÓZSEF

Next

/
Oldalképek
Tartalomjegyzék