Már-már űrtechnológiával dolgozzák fel a levéltári iratokat

Szerző: Borsodi Attila
2024.02.20.
A Magyar Nemzeti Levéltár Informatikai és Innovációs Igazgatóságának a munkája arra bizonyíték, hogy a modern kor vívmányait sikerrel lehet alkalmazni a történelmi iratok, anyagok feldolgozásában is. A munka során hatékonyan használják a mesterséges intelligenciát, a kézírás-felismerést és számos új technológiát, ezek kapcsán saját fejlesztésű újításokat, megoldásokat is letettek már az asztalra. Ezeket nemzetközileg is elismerik.

Nagyon jó csapat állt össze az elmúlt időszakban az általam vezetett igazgatóságon annak köszönhetően, hogy minőségi embereket tudtunk magunkhoz csábítani – jelentette ki a Magyar Nemzeti Levéltár (MNL) Informatikai és Innovációs Igazgatóságának vezetője. Szatucsek Zoltán (képünkön) kifejtette, három terület tartozik hozzájuk, így a digitalizálás, amelyet a tartalomfejlesztési osztály végez. Emellett a szervezeti egység része a szolgáltatásfejlesztés, az ottani munkatársak azért felelősek, hogy miként kerülnek ki az elkészült anyagok az internetre, és az igazgatóság része az informatikai osztály is. – Mind a három osztálynak zseniális vezetője van. Az informatikai osztályt Ősi György vezeti, aki az MTVA-tól igazolt hozzánk. A tartalomfejlesztésért, digitalizálásért Hegedűs István felel, ő nagyon dinamikus fiatalember, aki jól érti a munka informatikai oldalát is. A szolgáltatásfejlesztés pedig Bánki Zsolthoz tartozik, aki tapasztalt, és rendkívül széles látóköre van, hiszen korábban minden kulturális örökség típusú intézménynél dolgozott már, hozzánk a Petőfi Irodalmi Múzeumtól érkezett. Zsolt nagyon komoly kapcsolati hálóval rendelkezik – emelte ki Szatucsek Zoltán. Hozzátette: emellett jöttek hozzájuk digitális bölcsészek a Nyelvtudományi Kutatóközpontból és Országos Széchényi Könyvtárból, akik nagy gyakorlattal rendelkeznek.


Elindulhatott a digitalizáció

Az MNL Informatikai és Innovációs Igazgatóságának vezetője úgy véli: annak köszönhetően, hogy a csapat erős, nagyon komoly munkát képes végezni. Erre szükség is van, mert a teljes intézményben 300 kilométert meghaladó iratot őriznek, amelyet a kollégák több mint száz éve dolgoznak fel különböző segédletekben. A munka most nagy lökést kapott az által, hogy az automatizálás különböző technológiai lehetőségei rendelkezésre állnak, és ezzel a kutatást lehet segíteni. Mint Szatucsek Zoltán elmondta, Szabó Csaba főigazgató ezeket a törekvéseket nagyon támogatja, és így jönnek is az eredmények. – Az egyik terület, amin dolgozunk, a kézírás-felismerés. A gépelt szöveg felismerése már régi technológia, amely eleinte hagyományos módszerekkel történt, alapvetően optikai felismeréssel dolgoztak. Ami változott, hogy a géppel írt szövegek felismerését is meg tudják támogatni gépi tanulásos eszközök. Ma már megtanítják a szoftvereket a különböző mintázatokra, például arra, hogy mi lehet A, B vagy éppen C betű és mi nem. S ezt a beazonosítást képes a szoftver elvégezni akkor is, ha a szó elmosódott, vagy csak félig látszik – fogalmazott az igazgató. Hozzátette: ugyanezen az elven működik a kézírásnak a felismerése is. Fontos, hogy a kézírásos szövegek digitális szövegként nem voltak elérhetőek. A 19. század második felében Magyarországon elkezdték átírni a régi okleveleket, és kiadványokban jelentették meg azokat. Ezt azonban csak az iratok töredékénél tudták elvégezni, hiszen 1911 előtt minden irat kézzel készült.
 

Külföldi kapcsolatok

Szatucsek Zoltán kifejtette, hogy a kézírás-felismerés területén a levéltár tavaly rendezett egy nemzetközi workshopot (műhelymunkát – a szerk.), ahol a levéltárak megosztották a megszerzett tapasztalataikat. Márpedig tapasztalat van bőven, amit a Magyar Nemzeti Levéltár és más, nyugat-európai partner levéltárak kölcsönösen felhasználnak. A kiindulás az Európa Digitális Kincsei (European Digital Treasures) projekt volt, aminek egyik feladata a levéltár megismertetése volt az idősebb generációval. – Az volt az elgondolásunk, hogy szervezünk egy közösségi programot, amelyben önkéntesként segíthetnek segédleteket összeállítani. S ehhez jött a spanyolok zseniális ötlete, hogy ezt kombináljuk a kézírás-felismeréssel. Indítottunk egy alprogramot, amelyben a nyugdíjasok betanították a mesterséges intelligenciát, sok szöveget kézzel átírtak az öt ország különböző forrásaiból. Mi az 1828-ik évi országos összeírást dolgoztuk így fel hetven önkéntes segítségével, az alprogramban határon túli magyarok is részt vettek – jegyezte meg az MNL Informatikai és Innovációs Igazgatóságának vezetője. A továbblépéshez Szabó Csaba főigazgató azt kérte, hogy a munkát ne külsősök végezzék, hanem csinálják az igazgatóság munkatársai. Ezt a rendszert el is kezdték építeni, a munkával jól haladnak. A végcél az, hogy a technológia valamennyi lépése házon belül valósulhasson meg. – Vannak saját alkalmazásaink, amelyeket mi fejlesztettünk, és már külföldről is van érdeklődés irántuk. Megkeresett minket például a német Bundesarchiv, arról érdeklődtek, hogy a mi alkalmazásainkkal fel tudják-e dolgozni a náci pártagok kartonjait – fűzte hozzá.

Szatucsek Zoltán a kézírás-felismerés kapcsán még kitért arra, hogy készülőben van az első teljesen saját munkájuk. – Megkeresett minket a Nyelvtudományi Kutatóközpont azzal, hogy van egy 5 millió darabból álló cédulagyűjteményük, amelyeket a nyelvészek készítettek korábban a magyar szavak különböző kontextusban való előfordulásairól. Ez lesz az első olyan munka, ahol saját eszközzel végezzük a digitalizálást, a rendkívül összetett és bonyolult folyamat a végéhez közeledik. A karakterhiba százalék itt 3 százalék körül alakul, ami nagyon jónak mondható. Van azonban egy olyan munkatársunk, aki olyan automatikus eszközöket keres, hogy a hibás szöveget miként lehet nyelvészeti eszközökkel javítani – mutatott rá az igazgató. Itt is folyamatosan tökéletesítik a technológiát.


Betanítják az algoritmust

Az igazgatóságon van egy másik fontos terület is, a rekordok, bevitt adatok összekapcsolása. – A legnagyobb kutatói közösségünk a családtörténet-kutatóké, hiszen az emberek keresik az őseiket, a régi rokonságukat. Nálunk nagyon sok adatkészlet van, különböző adó- és katonai összeírások, anyakönyvek, és ezekkel az információkkal tudjuk a munkát támogatni. A kultúra mindig alulfinanszírozott, de ahhoz, hogy több forrást tudjunk magunkhoz vonzani, meg kell mutatnunk, hogy társadalmilag hasznosak vagyunk, és vannak, akik használják az intézmény szolgáltatásait. Így ez a terület kitörési pont nekünk, hiszen a családtörténet-kutatás nagyon népszerű, egy ipar telepedett rá, és az egész most már genetikai vizsgálatokkal is kiegészül. Nem véletlen, hogy az Amerikai Egyesület Államokban a családtörténet-kutatás a második legnépszerűbb hobbi a kertészkedés után – hangsúlyozta az MNL Informatikai és Innovációs Igazgatóságának vezetője. Hozzátette: az ő munkájuk itt abban tud segíteni, hogy az azonos személyekre vonatkozó bevitt adatokat össze tudják kapcsolni, ami a családfakutatásnál nagyon jól jön. A gyakori neveknél ugyanakkor ez nagyon komoly kihívás, ráadásul az adatok pontatlanok, töredékesek.

Az első jelentős programjuk a Szovjetunióba elhurcoltak, hadifoglyok és kényszermunkások adatbázisa volt. Emlékezhetünk rá, hogy az Orosz-Magyar Levéltári Vegyesbizottság megállapodása értelmében Magyarország megkapta hatszázezer, a második világháborúban szovjet táborokba került magyar fogoly azonosító kartonját. S az igazgatóságnak ezeket az adatokat kellett összekapcsolniuk azzal az adatbázissal, ami megvolt a hazatértektől. – A feladat komoly kihívás elé állított minket, hiszen a szovjet táborokban a foglyok adatait félanalfabéta, magyarul nem tudó katonák rögzítették hallás alapján. Ez különösen akkor volt problémás, ha a szovjet katonáknak bonyolult település- és családneveket kellett leírniuk, mert ezeket változatos módon voltak képesek rögzíteni, rengeteg volt az elírás. Ráadásul amíg a mi kultúránkban az édesanyák, addig a Szovjetunióban az édesapák nevét rögzítették. Így kellett a két bevitt adathalmazban levő, ugyanarra a személyre vonatkozó adatokat összekapcsolnunk. Ezt a munkát szintén a mesterséges intelligencia segítségével végeztük el úgy, hogy az algoritmust megtanítottuk a mintázatok felismerésére – közölte Szatucsek Zoltán.


Robot szkennerek jönnek

Fontos, hogy az elvégzett munka nem hozhatott tökéletes eredményt, és amikor az adatbázist publikálták a világhálón, arra kértek mindenkit, hogy ha valaki hibát talál vagy észrevétele van, írja azt meg. A két éve kirakott adatbázis elképesztően népszerű lett, százezrek látogatták meg az oldalt, sokan jeleztek hibákat, illetve osztották meg saját, szüleik vagy éppen nagyszüleik történetét. Mivel fél év elteltével azt is lehetővé tették, hogy a látogatók tartalmakat oszthassanak meg, több száz fotót, iratot is feltöltöttek.  Összesen ötezer visszajelzés érkezett.

Ez a két nagy kezdeményezés, a kézírás-felismerés és a rekord-összekapcsolás, egy nagy közös programban egyszerre jelenik majd meg. – Nálunk vannak az 1895 és 1980 közötti állami anyakönyvek, ez szinte az egész 20. század családtörténete. A születési, házassági és halotti anyakönyvek a vármegyei levéltárakban találhatóak kötetekben, ezeket teljeskörűen digitalizáljuk. A Petőfi kulturális program lehetővé teszi, hogy vásároljunk három robot szkennert, amely teljesen automatikusan digitalizálja majd a köteteket. Számba vettük a lehetőségeinket, és találtunk egy kisebb német céget, egy manufaktúrát, a társaság a köteteinkre optimalizálva készíti el az eszközöket, amelyek március végén érkeznek meg – fogalmazott Szatucsek Zoltán.


Ország családfája

A digitalizálásnál, a kézírás-felismerésnél kihívást jelent még, hogy az anyakönyvek nem folyó szövegeket tartalmaznak, hiszen az adatok táblázatban szerepelnek. Így is kell felismertetni az adatokat, és azok rögtön adatbázisba kerülnek, gépi szövegként. Ezt követően először az azonos személyekre vonatkozó adatokat megpróbálják majd összekapcsolni. Ezután pedig ez a művelet nemcsak az azonos személyekre, hanem a leszármazottakra is alkalmazható lehet. – A vízió az, hogy az új technológia segítségével automatikusan felépítjük az ország családfáját, ami az eddigi munkánk megkoronázása lehet. S a munka más iratokkal is folytatódhat – emelte ki Szatucsek Zoltán.

Idén egy újabb célt is kitűzött az igazgatóság. Egy olyan szoftvert próbálnak megalkotni, hogy egy érdeklődő – a ChatGPT-hez hasonlóan – természetes nyelvű kereséssel levéltári anyagot tudjon elérni, vagyis a kérdésére megfelelő választ kapjon a mesterséges intelligencia segítségével. A tényleges irathoz való kapcsolat bemutatása egyúttal igazolja, hogy az adatok, információk valósak. Ebben a programban az Óbudai Egyetemmel működnek együtt, és ezt alkalmaznák majd a levéltári anyagoknál is. Sőt, pályázni fognak közösen az Európai Levéltári Portállal, hogy a szolgáltatást európai szintre emeljék.


 

 

Utolsó frissítés:

2024.03.15.

Új hozzászólás

A hozzászóláshoz regisztráció és bejelentkezés szükséges