Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea.

Slides:



Advertisements
Podobné prezentace
Irena Baranayová Ústav výpočetní techniky Univerzity Karlovy v Praze
Advertisements

Spisová služba – páteřní systém eGovernmentu v úřadu
Praha, Brno Nové komunikační možnosti systému Kramerius © Qbizm technologies, a.s. René Michálek
Souborný katalog ČR pod systémem ALEPH 500 Knihovny současnosti 2003 Národní knihovna ČR PhDr. Eva Svobodová – Mgr.Danuše Vyorálková Souborný katalog ČR.
CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Knihovny současnosti 2011, České Budějovice 13. – 15. září 2011
Digitalizace knižního a časopiseckého fondu v muzejních knihovnách.
Organisation for Economic Cooperation and Development OECD iLibrary.
Informace z konference Problematika historických a vzácných knižních fondů Čech, Moravy a Slezska v Olomouci se zaměřením na příspěvek Digitalizace map.
Passport PhDr. Ivana Reznerová Centrum informačních a knihovnických služeb Odbor informační podpory studia a výzkumu
JSTOR Mgr. Alena Doláková Centrum informačních a knihovnických služeb Odbor informační podpory studia a výzkumu
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Velké infrastruktury pro výzkum, vývoj a inovace
Bc. Vladimíra Kováříková Ústřední knihovna VŠB-TU Ostrava 1. setkání českých uživatelů systému 24. dubna 2008 DSpace na VŠB-TU Ostrava.
Digitální publikace a e-knihy v Ústavu pro českou literaturu AV ČR Pavel Janáček, Michal Kosák, Praha,
Metodologie historického výzkumu volného času
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Praha Jan Mach Vysoká škola ekonomická v Praze Příprava Národního registru VŠKP a Národního úložiště šedé literatury Ing. Jan Mach
8. prosinec 2009, PrahaSeminář ASEP Spolupráce Národního úložiště šedé literatury (NUŠL) a ústavů AV ČR Iveta Fürstová
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Brněnská 10, Vyškov » tel.: » fax: » » Banská Bystrica 2008 Elsyst Engineering Ing. Jiří.
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
13. února 2007Systém Kramerius, Martin Lhoták, KNAV1 Systém Kramerius aktuální stav a vývoj v roce 2007 Martin Lhoták, Knihovna AV ČR, v.v.i. SDRUK – IT,
Digitální knihovna AV ČR a vývoj nové verze systému Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě
Krajská digitalizační jednotka Kraje Vysočina
Koncepce trvalého uchování knihovních sbírek tradičních i elektronických dokumentů v knihovnách ČR do roku 2010 Bohdana Stoklasová & kol. Národní knihovna.
Záměry Knihovny Antonína Švehly v oblasti poskytovaných služeb pro knihovníky Knihovna Antonína Švehly 2014.
Jak se dělá digitální matematická knihovna Miroslav Bartošek Vlastimil Krejčíř ÚVT MU Brno.
Nové nástroje pro digitalizaci knihovních dokumentů
Digitalizace knihovních dokumentů Jiří Polišenský.
Mgr. Rostislav Krušinský VĚDECKÁ KNIHOVNA V OLOMOUCI Služba EOD - Elektronické knihy na objednávku.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Archivy, knihovny, muzea v digitálním světě 2010, Praha,
Informace o přípravě Integrovaného operačního programu  Ministerstvo kultury  Ministerstvo informatiky Vít Richter Národní knihovna ČR
Projekt FRVŠ 1547/2007/E/b Budování digitální knihovny starých a vzácných dokumentů Řešitel: Ing. Věra Svobodová Ústav vědecko-pedagogických informací.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
SU Aleph Repozitáře, archivy, a dlouhodobá ochrana digitálních informací Mgr. Eliška Pavlásková Ústav výpočetní techniky Univerzita Karlova.
Rody Unifikované názvy Personální jména Konference Edice Akce Rodiny Korporace Geografická jména National Authority Files/ Names Soubory národních (jmenných)
NÁRODNÍ DIGITÁLNÍ ARCHIV
Ing. Michal Unzeitig ARTIO s.r.o..  Co je Museo24  Vize a cíle  Role společnosti ARTIO  Technické řešení –CIDOC CRM –Sémantický web Obsah.
Informační kulturní portál
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Projekt Digitální knihovna AV ČR a vývoj systému Kramerius Martin Lhoták, Knihovna AV ČR AMK v digitálním světě 2005, Praha.
Souborný katalog ČR Dana Vyorálková. Souborný katalog ČR Co je souborný katalog Kde najdete Souborný katalog ČR Co hledat v Souborném katalogu ČR Jak.
Datovýsklad Datový sklad V budoucích službách státního archivu.
TŘI ROKY DIGITÁLNÍHO UNIVERZITNÍHO REPOZITÁŘE UNIVERZITY KARLOVY Eliška Pavlásková, Andrea Fojtu Archivy, knihovny a muzea v digitálním světě.
Možnosti spolupráce při vytváření digitálních sbírek Ing. Martin Lhoták Knihovna AV ČR.
Kramerius 4 – nová generace systému pro digitální knihovnu Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě ,
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Databáze Bibliografie dějin českých zemí jako cesta k plným textům v domácích i zahraničních knihovnách Václava Horčáková Elektronické služby knihoven.
Základy VY_30_INOVACE_GR_781. CO JE TO GIMP ? Název vychází ze zkratky GNU Image Manipulation Program, což česky znamená GNU program pro úpravu obrázků.
EBooks on Demand – projekt evropské kooperace Věra Pospíšilíková – MZK, Kateřina Kamrádková – NTK AKM 2010.
Možnosti seberealizace v odborných soutěžích Patrik Čermák.
VYTVÁŘENÍ e-LEARNINGOVÝCH MATERIÁLŮ Přednáší Mgr. Jaromír Kozel
Operační program Vzdělávání pro konkurenceschopnost 1.4 Zlepšení podmínek pro vzdělávání na základních školách „Kvalitní škola“ Základní škola M. Choceňského,
Odbor digitálních fondů Zuzana Kvašová,
IPS Informační a poradenské středisko pro volbu povolání a změnu zaměstnání Ing. Ivana Šatrová.
TEXTOVÝ EDITOR Karin Tylšerová. Textový editor je software, kterým je možné editovat prostý text. Neobsahuje žádné informace o formátování, jako je použití.
Co nového na "obálkách ...“ Seminář SK ČR Jiří Nechvátal
Informační zdroje pro STM
Textový Editor.
Digitalizace v krajské knihovně (SVK HK)
Informační den ÚVIS MZLU, Brno
Veřejná databáze Českého statistického úřadu
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Elektronické informační zdroje (VIKBA25)
Digitalizace knihovních dokumentů
Passport Centrum informačních a knihovnických služeb
Transkript prezentace:

Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea v digitálním světě 2009

Obsah 1. Charakteristika projektu 2. Cíle projektu 3. METS – charakteristika 4. METS – základní části 5. METS - standardy 6. Zlepšení výsledků OCR 7. Časové a tematické rozvrstvení 8. Nástroj BookSave 9. Nástroj BookStore 10. Báze WordBase 11. ComponentsDescriptionGenerator 12. Projekt IMPACT Archivy, knihovny a muzea v digitálním světě 2009

Charakteristika projektu  Projekt se realizuje v rámci programu MK ČR DC - Zpřístupnění a ochrana kulturních, uměleckých a vědeckých zdrojů. 1. podprogram: Integrované interaktivní zpřístupnění kulturního dědictví  Termín: 2006 – 2010  Řešitel J. Polišenský NK ČR, spoluřešitel M. Lhoták KNAV  Náklady: Kč  Spolupracující firmy: Qbizm, a.s., Elsyst Engineering Archivy, knihovny a muzea v digitálním světě 2009

Cíle projektu  1. Implementaci kontejnerového formátu METS do Systému Kramerius  2. Zvýšení úspěšností rozpoznávání starších bohemikálních dokumentů pomocí OCR vytvořením a využitím znalostních bází pro češtinu z období let 1800 až 1989  3. vytvoření nástroje pro popis vnitřních částí digitalizovaných dokumentů a převod jejich interního informačního aparátu do textové podoby Archivy, knihovny a muzea v digitálním světě 2009

Formát METS charakteristika  METS (Metadata Encoding and Transmission Standard)   Kontejnerový formát určený pro ukládání a archivaci digitálních dokumentů v systémech digitálních knihoven a pro výměnu mezi nimi Archivy, knihovny a muzea v digitálním světě 2009

Formát METS části  Kontejnerový formát METS obsahuje celkem 6 datových sekcí: sekci hlavička HdrSec sekci popisných metadat dmdSec sekci administrativních metadat amdSec sekci souborů fileSec strukturální mapu structMap sekci strukturálních odkazů structLink Archivy, knihovny a muzea v digitálním světě 2009

Formát METS standardy  Deskriptivní metadata: MARC 21, Dublin Core  Technická a administrativní metadata: PREMIS a MIX  Dokumenty METS se vytváří ve formátu XML Archivy, knihovny a muzea v digitálním světě 2009

Zlepšení výsledků OCR  Digitalizují se dokumenty poškozené používáním a degradací papíru  Výsledky rozpoznávání jsou negativně ovlivněny kvalitou dokumentů  Nevyrovnaná úroveň úspěšnosti rozpoznávání OCR snižuje vytěžitelnost prostřednictvím vyhledávacích nástrojů  Další zlepšování kvality obrazových souborů již neposkytuje lepší výsledky OCR  Pro zlepšení byla zvolena metoda budování znalostních bází českého jazyka Archivy, knihovny a muzea v digitálním světě 2009

Časové a tematické rozvrstvení  Pro realizaci tohoto cíle bylo třeba rozdělit používaný jazyk na časová období a tematické skupiny:  Časová období: I. období: 1800–1850 II. období: 1850–1880 III. období: 1880–1918 IV. období: 1918­-1945 V. období: 1945–1989 Archivy, knihovny a muzea v digitálním světě 2009

Časové a tematické rozvrstvení Tematické skupiny:  1. Přírodní vědy (matematika, fyzika, chemie, astronomie, geologie, geografie, paleontologie, biologie – botanika, zoologie, antropologie; ostatní nevyčleněné přírodovědné obory)  2. Lékařství (zdravověda, farmakologie, veterinární léčba, léčitelství, bylinářství)  3. Zemědělství (zemědělské obory, zahrádkářství, chovatelství, lesnictví, myslivost)  4. Průmysl (technika, řemesla, doprava – železnice, automobilismus, letecká doprava; pošta)  5. Společenské vědy (psychologie, sociologie, jazykověda, literární věda, knihovnictví, archivnictví, statistika, demografie; ostatní nevyčleněné obory; slovníky)  6. Filozofie a náboženství (filozofické systémy, světová náboženství, teologie, sekty, astrologie, okultismus, magie, spirituální discipliny)  7. Politika a právo (politologie, diplomacie, státní správa, legislativa, kriminalistika, problematika terorismu v dobových kontextech)  8. Ekonomie (hospodářství, finančnictví, účetnictví, obchod, řízení, hospodářský zeměpis)  9. Dějiny (archeologie, genealogie, místopis, vlastivěda, národopis, etnologie; cestopisy; vojenství)  10. Vzdělávání (pedagogika, školství, výchova)  11. Umění (beletrie, poezie, dramatická tvorba, literatura faktu, výtvarné umění, fotografie, kinematografie, architektura, teatrologie, tanec, muzikologie a hudba)  12. Žurnalistika (celonárodní a regionální deníky, periodika pro děti a mládež; publicistika; kalendáře; zájmové činnosti - vaření, domácnost, móda, ruční práce, sběratelství; sport, turistika; všeobecnosti a ostatní) Archivy, knihovny a muzea v digitálním světě 2009

Nástroj BookSave  Nástroj slouží pro opravy rozpoznaných textů  Základem je běžná verze SW FineReader 7  Nástroj umožňuje následující operace: vytvořit novou dávku dokumentů nastavit parametry rozpoznávání a provést rozpoznání dokumentů provést kontrolu a opravu rozpoznaných textů uložit textové soubory uložit dávku Archivy, knihovny a muzea v digitálním světě 2009

Nástroj BookSave  Uložené dávky je třeba zpracovat pomocí následujících operací: spuštění aplikace BookSave vyplnění popisu knihy (identifikační údaje o knize, časová vrstva, tematická skupina) výběru textových souborů importu do slovní báze Archivy, knihovny a muzea v digitálním světě 2009

Báze WordBase  Báze WordBase slouží pro ukládání rozpoznaných a opravených slov  Uložená slova mají zachovanou vazbu na původní část dokumentu a informaci o časovém období a tematické skupině  V současné době je ve slovní bázi uloženo slovních tvarů Archivy, knihovny a muzea v digitálním světě 2009

Nástroj BookStore  Nástroj BookStore slouží k provádění operací nad bází WordBase (prohlížení, editace)  Jednoduché uživatelské rozhraní sestává ze tří částí: seznam monografií seznam stran ve vybrané monografii seznam slov na vybrané straně Archivy, knihovny a muzea v digitálním světě 2009

Plnění slovních bází  NK ČR zakoupila 3 notebooky vč. licencí na FR  NK ČR a KNAV provádí výběr dokumentů a jejich skenování  Pomocí externích pracovníků na DPČ se provádí rozpoznávání a opravy textů  Import opravených dokumentů do báze WordBase provádí firma EE, která pomocí dalších externistů provádí i „čištění“ báze Archivy, knihovny a muzea v digitálním světě 2009

Nástroj pro popis vnitřních částí  Nástroj by měl sloužit pro automatizovaný popis vnitřních částí dokumentů jako jsou názvy kapitol, článků, příp. obsahy, rejstříky apod.  Součástí nástroje je SW FineReader 8 (vývojová verze) který se využívá pro nalezení zón s textem, rozpoznání textu (vč. fraktury), uložení textu v různých formátech (TXT, PDF, DOC)  Firma EE připravuje i export do formátu ALTO XML (mimo rámec projektu) Archivy, knihovny a muzea v digitálním světě 2009

Nástroj pro popis vnitřních částí  Nástroj pro popis vnitřních částí (vytváření rozšířených metadat) má provizorní rozhraní  Uživatel označí vybranou složku v některém z formátů (JPG, TIFF, BMP)  Před rozpoznáním OCR je možné zadat některé volitelné parametry Invertovat barvy – bílý text na černém pozadí Exportovat XML – export struktury strany do formátu ALTO XML Získat český text – do XML se uloží text v českém jazyce ke každému požadovanému nadpisu (v multijazyčných monografiích) Neuronová síť – testování rozpoznávání objektů na straně pomocí umělé inteligence Archivy, knihovny a muzea v digitálním světě 2009

Nástroj pro popis vnitřních částí  Před rozpoznáním je třeba označit objekt a v dialogovém okně zadat typ zóny: Globální – označený text se vyhledává v celém kontextu strany Lokální – označený text se vyhledává vždy jen v uživatelem označené oblasti Obrázek – vyhledává obrázky v celém kontextu strany Číslo strany – vyhledává lokálně čísla stran v levé i pravé části Archivy, knihovny a muzea v digitálním světě 2009

Nástroj pro popis vnitřních částí  Po rozpoznání všech stran je možné získané texty nebo údaje opravovat nebo editovat  Uživatel po označení přepínače „Opravit“ vyvolá kliknutím na jakoukoliv textovou oblast dialogové okno „Atributy vybrané zóny“  V tomto okně je možné opravit nebo změnit vlastnosti označeného textu Archivy, knihovny a muzea v digitálním světě 2009

Projekt IMPACT  Projekt IMPACT je zaměřen na zlepšení přístupu k historickým textům a odstranění bariér masové digitalizace evropského kulturního dědictví  V rámci projektu se řeší také problematika zlepšení výsledků OCR pomocí jazykových bází.  NK ČR byla oslovena s nabídkou rozšíření projektu o český jazyk ve spolupráci s Ústavem českého národního korpusu  V rámci projektu by NK ČR měla digitalizovat české dokumenty, zajišťovat konverzi OCR a opravy textů Archivy, knihovny a muzea v digitálním světě 2009

Děkuji za pozornost Archivy, knihovny a muzea v digitálním světě 2009