Jelenlegi hely

Digitális Örökség Nemzeti Laboratórium

2022.07.23.
A Magyar Nemzeti Levéltár konzorciumi partnerként vesz részt a Digitális Örökség Nemzeti Laboratórium 2022. júliusától folytatódó munkájában. Az MNL 2021-ben kapcsolódott be a programba, részvételünk akkor fél évig tartott. A projekt célja, hogy intézményközi összefogásban kidolgozza a nemzeti kulturális örökség MI alapú feldolgozásának, kutatásának és oktatásának, valamint a lehető legszélesebb körű közzétételének módszertanát. Mindezt úgy kívánja elérni, hogy a kifejlesztett módszertanok és eszközök, valamint a szakértői kompetenciafejlesztés piaci hasznosítására is követendő gyakorlatokat alakítson ki.

A Magyar Nemzeti Levéltár a szerteágazó projekt megvalósítása során több részfeladatban is együttműködik a partner egyetemekkel.
 

Optikai karakterfelismerés

Az optikai karakterfelismerés (OCR) egy olyan technológia, amely lehetővé teszi képek, szkennelt vagy digitálisan fotózott dokumentumok és a PDF fájlok szerkeszthető és szövegesen kereshető formába átalakítását. Az így kinyert szöveg kereshető, szerkeszthető, kivágható, archiválható. A technológia a géppel írt szövegek felismerését támogatja. Az OCR technológia az egyik első gépi látást használó dokumentumfeldolgozási technológia volt. Az elmúlt évtizedekben köszönhetően a hatékonyabb algoritmusoknak, a növekvő számítási kapacitásoknak majd a gépi tanulási módszerek alkalmazásának jelentős fejlődésen ment keresztül. A jelenleg elérhető dobozos alkalmazások hiányossága, hogy tömeges folyamatokban nem lehetséges a kapott eredmények hatékonyságának automatizált növelése, a validálási folyamat pedig csak különböző modulrendszerek beszerzésével valósulhat meg, ezért a technológia továbbra is innováció és kutatásigényes terület.

A program során célunk a fentebb említett mindhárom munkafázis részeként innovatív módszerek implementálása a jelenlegi levéltári munkafolyamatokba, a munkafolyamatlépések automatizálása. Az együttműködés eredményeként megvalósulhat egy magyar nyelvre optimalizált, tanítható, moduláris karakterfelismerő rendszer fejlesztése, amely magában foglalhatja a fentebb részletezett munkafázisokat.
 

Kézírásfelismerés

A kézírásfelismerés (HTR) a képi szövegfelismerés speciális területe, a szkennelt vagy digitálisan fotózott dokumentumokban kézírással rögzített tartalom szöveges kinyerését jelenti. Tekintettel arra, hogy a levéltárakban őrzött dokumentumok jelentős része kézírással került rögzítésre, ezeknek az egyetlen példányban létező, ezért korábbiakban csak manuális kutatás által hozzáférhető, jobb esetben az interneten képként megjeleníthető tartalmaknak a szöveges kereshetővé tétele a levéltári tartalom 21. századi kutatásának gyökeresen új, forradalmi lehetőségét kínálja.

Korábbi tapasztalataink birtokában a levéltár a program során olyan intézményközi szolgáltatási modell kialakítását célozza meg, amelyben optimalizálható a HTR technológiák fejlesztéséhez szükséges szakértelem, az algoritmusok integrálása, az üzemeltetési környezet kialakítása, a modellek alkalmazásához szükséges számítási kapacitások biztosítása és a HTR modellek levéltári újrahasznosítása.
 

Audiovizuális tartalmak feliratozása és szövegalapú elemzése

Az utóbbi években egyre szélesebb körben váltak használható a különböző hangzóanyagok leírásával dolgozó alkalmazások, más néven „speech to text” fejlesztések. A legnagyobb probléma ezekkel az volt, hogy a magyar nyelvre szabott alkalmazások száma igen csekély, az azok által használt magyar nyelvű korpuszok pedig rendkívül szűkre szabottak voltak. A „feliratozás” alprogramban kitűzött célunk, hogy az MNL őrizetében található, folyamatosan digitalizálásra, majd publikálásra kerülő audiovizuális tartalmainkat automatizált megoldásokkal feliratozhassuk. Ennek a mindennapokban is alkalmazott eredménye kettős. A feliratozott tartalmak könnyítik az információkhoz való hozzáférést és hallássérültek számára is elérhetővé teszik ezeket. Mindemellett az általános kutatás számára is komoly adalékot jelentenek, hiszen könnyebbé válik a több ezer órányi tartalomban való keresés, az automatikus segédletkészítés, valamint a szövegelemzés óriási tárháza nyílik meg.
 

Elektronikusan keletkezett dokumentumok hosszú távú megőrzése

Az elektronikusan keletkezett dokumentumok által jelentett kihívás a kulturális örökség megőrzését biztosító közgyűjtemények egyik legnagyobb kihívása. A digitális formában való megőrzés nemcsak a jogi értelemben vett hitelesség, de a használhatóság, hatékonyság és nem utolsósorban a környezeti fenntarthatóság szempontjából is prioritás. A digitálisan keletkezett tartalmak digitális formában való hozzáférhetősége pedig a tudományos kutatás és a demokratikus intézmények átláthatósága szempontjából is kiemelt állami érdek.

A digitális objektumok természetüknél fogva veszélyeztetettek. Függőségük az alkalmazásukat lehetővé tévő hardver és szoftverkörnyezettől nyilvánvaló, használatuk, értelmezésük csak alapos dokumentáció birtokában válik lehetővé. A hozzáférésükhöz, felhasználásukhoz fűződő jogok kezelését átszövi a szerzői jogok, személyes adatok, üzleti titkok és minősített iratok nehezen áttekinthető és alkalmazható hazai és nemzetközi szabályozása. A kulturális örökség megőrzését biztosító közgyűjteményekben új típusú szakértelmek (IT, data specialist, data curator) rendelkezésre állását feltételezik, amely a többnyire bölcsész hátterű könyvtárosokat, muzeológusokat és levéltárosokat foglalkoztató intézmények esetében nehezen biztosítható.

Az MNL jogszabályi kötelezettségeiből fakadóan elsők között kezdett el foglalkozni Magyarországon a „géppel olvasható iratok” megőrzésével, 1982-ben felállítva a Számítástechnikai Adathordozók Osztályát. 2001-es megalapozást követően öt évvel később fogott hozzá nagyvolumenű projektjéhez, amelynek eredményeként 2013-ban létrehozta az elektronikus levéltárat, majd 2020-ban azt az időközben csatlakozó megyei tagintézmények révén országossá tette. Ezeknek a tapasztalatoknak a birtokában képes támogatni a Nemzeti Labor célját, hogy intézményközi összefogásban kidolgozza a „Born digital” objektumok tartós megőrzését, hiteles transzformációját és felhasználását biztosító eszköztárat és szolgáltatási infrastruktúrát.
 

Danube AI

A Dube AI alprojekt célja a határon túli magyar vonatkozású kulturális gyűjtemények feldolgozása. A Magyar Nemzeti Levéltár digitalizálási kapacitásaival és szakértelmével segít az egyes gyűjtemények digitalizálásában, leírásában és hozzáférhetővé tételében.
 

A Digitális Örökség Nemzeti Laboratórium átfogó céljai

  • A magyar nyelvre optimalizált nyelvfeldolgozó algoritmusok fejlesztése a szövegalapú oktatási, kutatási, valamint piaci alkalmazások felé nyit utat.
  • A határon túli magyar nyelvű korpuszok priorizált integrálása mesterséges intelligencia alapú szolgáltatásokba felszámolja a jelenlegi aránytalanságokat.
  • A digitális kulturális örökség kutathatóvá tételével szélesebb felhasználói kör számára nyújt célzottabb, intelligens hozzáférést a nemzeti kulturális örökséghez. A digitalizálás folyamatának gyorsítása MI eszközök révén, valamint a tömeges digitalizálás eredményeinek gépi tárgyszavazása, kéziratok automatikus felismertetése többszörösére emelheti széles körben felhasználható kulturális tartalmak mennyiségét.
  • Az anyaország és a határon túli magyar közösség kutatási és innovációs szempontból releváns webes forrásainak webaratása, valamint a ’born digital’ anyagok archiválása és közzététele egy rendkívül értékes és ugyanakkor veszélyeztetett szeletét menti meg a magyar nemzeti kultúrának.
  • A korábban magyar részvétel nélkül működő nemzetközi kutatási hálózatokhoz való csatlakozás egyrészt a kétirányú tudásáramlást, másrészt új pályázati és piaci források bevonását is lehetővé teszi.

     

A projektek további adatai:

2021

„Digitális Örökség Nemzeti Laboratórium” támogatási igény

Támogatói szerződés száma: IGSZF/1286/2021-ITMSZERZ

Konzorciumvezető: ELTE

Konzorciumi tagok: Bölcsészettudományi Kutatóközpont, Magyar Nemzeti Levéltár, Miskolci Egyetem

A Magyar Nemzeti Levéltár részére megállapított összeg: 14.026.320 Ft

Megvalósítás: 2021.07.01.-2021.12.31.

2022-2026

„Nemzeti Laboratóriumok létrehozása, komplex fejlesztése” címmel, 2022-2.1.1-NL-2022-00009 azonosító számú pályázati kiíráson „Digitális Örökség Nemzeti Laboratórium” címmel elnyert pályázat. (Hazai forrás)

Támogatói szerződés száma: 2022-2.1.1-NL-2022-00009

Konzorciumvezető: ELTE

Konzorciumi tagok: Bölcsészettudományi Kutatóközpont, Magyar Nemzeti Levéltár, Miskolci Egyetem

A pályázat teljes összege: 1.031.074.484 Ft

A Magyar Nemzeti Levéltár részére megállapított összeg: 94.428.996 Ft

Megvalósítás: 2022.07.01.-2026.02.28.

Sajtóközlemények

A projekt indulásáról szóló sajtóközlemény itt érhető el (PDF).

 

Utolsó frissítés:

2024.02.05.

Új hozzászólás

A hozzászóláshoz regisztráció és bejelentkezés szükséges