Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea.

Podobné prezentace


Prezentace na téma: "Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea."— Transkript prezentace:

1 Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea v digitálním světě 2009

2 Obsah 1. Charakteristika projektu 2. Cíle projektu 3. METS – charakteristika 4. METS – základní části 5. METS - standardy 6. Zlepšení výsledků OCR 7. Časové a tematické rozvrstvení 8. Nástroj BookSave 9. Nástroj BookStore 10. Báze WordBase 11. ComponentsDescriptionGenerator 12. Projekt IMPACT Archivy, knihovny a muzea v digitálním světě 2009

3 Charakteristika projektu  Projekt se realizuje v rámci programu MK ČR DC - Zpřístupnění a ochrana kulturních, uměleckých a vědeckých zdrojů. 1. podprogram: Integrované interaktivní zpřístupnění kulturního dědictví  Termín: 2006 – 2010  Řešitel J. Polišenský NK ČR, spoluřešitel M. Lhoták KNAV  Náklady: 5 323 000 Kč  Spolupracující firmy: Qbizm, a.s., Elsyst Engineering Archivy, knihovny a muzea v digitálním světě 2009

4 Cíle projektu  1. Implementaci kontejnerového formátu METS do Systému Kramerius  2. Zvýšení úspěšností rozpoznávání starších bohemikálních dokumentů pomocí OCR vytvořením a využitím znalostních bází pro češtinu z období let 1800 až 1989  3. vytvoření nástroje pro popis vnitřních částí digitalizovaných dokumentů a převod jejich interního informačního aparátu do textové podoby Archivy, knihovny a muzea v digitálním světě 2009

5 Formát METS charakteristika  METS (Metadata Encoding and Transmission Standard)  http://www.loc.gov/standards/mets/  Kontejnerový formát určený pro ukládání a archivaci digitálních dokumentů v systémech digitálních knihoven a pro výměnu mezi nimi Archivy, knihovny a muzea v digitálním světě 2009

6 Formát METS části  Kontejnerový formát METS obsahuje celkem 6 datových sekcí: sekci hlavička HdrSec sekci popisných metadat dmdSec sekci administrativních metadat amdSec sekci souborů fileSec strukturální mapu structMap sekci strukturálních odkazů structLink Archivy, knihovny a muzea v digitálním světě 2009

7 Formát METS standardy  Deskriptivní metadata: MARC 21, Dublin Core  Technická a administrativní metadata: PREMIS a MIX  Dokumenty METS se vytváří ve formátu XML Archivy, knihovny a muzea v digitálním světě 2009

8

9

10 Zlepšení výsledků OCR  Digitalizují se dokumenty poškozené používáním a degradací papíru  Výsledky rozpoznávání jsou negativně ovlivněny kvalitou dokumentů  Nevyrovnaná úroveň úspěšnosti rozpoznávání OCR snižuje vytěžitelnost prostřednictvím vyhledávacích nástrojů  Další zlepšování kvality obrazových souborů již neposkytuje lepší výsledky OCR  Pro zlepšení byla zvolena metoda budování znalostních bází českého jazyka Archivy, knihovny a muzea v digitálním světě 2009

11 Časové a tematické rozvrstvení  Pro realizaci tohoto cíle bylo třeba rozdělit používaný jazyk na časová období a tematické skupiny:  Časová období: I. období: 1800–1850 II. období: 1850–1880 III. období: 1880–1918 IV. období: 1918­-1945 V. období: 1945–1989 Archivy, knihovny a muzea v digitálním světě 2009

12 Časové a tematické rozvrstvení Tematické skupiny:  1. Přírodní vědy (matematika, fyzika, chemie, astronomie, geologie, geografie, paleontologie, biologie – botanika, zoologie, antropologie; ostatní nevyčleněné přírodovědné obory)  2. Lékařství (zdravověda, farmakologie, veterinární léčba, léčitelství, bylinářství)  3. Zemědělství (zemědělské obory, zahrádkářství, chovatelství, lesnictví, myslivost)  4. Průmysl (technika, řemesla, doprava – železnice, automobilismus, letecká doprava; pošta)  5. Společenské vědy (psychologie, sociologie, jazykověda, literární věda, knihovnictví, archivnictví, statistika, demografie; ostatní nevyčleněné obory; slovníky)  6. Filozofie a náboženství (filozofické systémy, světová náboženství, teologie, sekty, astrologie, okultismus, magie, spirituální discipliny)  7. Politika a právo (politologie, diplomacie, státní správa, legislativa, kriminalistika, problematika terorismu v dobových kontextech)  8. Ekonomie (hospodářství, finančnictví, účetnictví, obchod, řízení, hospodářský zeměpis)  9. Dějiny (archeologie, genealogie, místopis, vlastivěda, národopis, etnologie; cestopisy; vojenství)  10. Vzdělávání (pedagogika, školství, výchova)  11. Umění (beletrie, poezie, dramatická tvorba, literatura faktu, výtvarné umění, fotografie, kinematografie, architektura, teatrologie, tanec, muzikologie a hudba)  12. Žurnalistika (celonárodní a regionální deníky, periodika pro děti a mládež; publicistika; kalendáře; zájmové činnosti - vaření, domácnost, móda, ruční práce, sběratelství; sport, turistika; všeobecnosti a ostatní) Archivy, knihovny a muzea v digitálním světě 2009

13 Nástroj BookSave  Nástroj slouží pro opravy rozpoznaných textů  Základem je běžná verze SW FineReader 7  Nástroj umožňuje následující operace: vytvořit novou dávku dokumentů nastavit parametry rozpoznávání a provést rozpoznání dokumentů provést kontrolu a opravu rozpoznaných textů uložit textové soubory uložit dávku Archivy, knihovny a muzea v digitálním světě 2009

14 Nástroj BookSave  Uložené dávky je třeba zpracovat pomocí následujících operací: spuštění aplikace BookSave vyplnění popisu knihy (identifikační údaje o knize, časová vrstva, tematická skupina) výběru textových souborů importu do slovní báze Archivy, knihovny a muzea v digitálním světě 2009

15

16 Báze WordBase  Báze WordBase slouží pro ukládání rozpoznaných a opravených slov  Uložená slova mají zachovanou vazbu na původní část dokumentu a informaci o časovém období a tematické skupině  V současné době je ve slovní bázi uloženo 1 891 695 slovních tvarů Archivy, knihovny a muzea v digitálním světě 2009

17

18 Nástroj BookStore  Nástroj BookStore slouží k provádění operací nad bází WordBase (prohlížení, editace)  Jednoduché uživatelské rozhraní sestává ze tří částí: seznam monografií seznam stran ve vybrané monografii seznam slov na vybrané straně Archivy, knihovny a muzea v digitálním světě 2009

19

20 Plnění slovních bází  NK ČR zakoupila 3 notebooky vč. licencí na FR  NK ČR a KNAV provádí výběr dokumentů a jejich skenování  Pomocí externích pracovníků na DPČ se provádí rozpoznávání a opravy textů  Import opravených dokumentů do báze WordBase provádí firma EE, která pomocí dalších externistů provádí i „čištění“ báze Archivy, knihovny a muzea v digitálním světě 2009

21 Nástroj pro popis vnitřních částí  Nástroj by měl sloužit pro automatizovaný popis vnitřních částí dokumentů jako jsou názvy kapitol, článků, příp. obsahy, rejstříky apod.  Součástí nástroje je SW FineReader 8 (vývojová verze) který se využívá pro nalezení zón s textem, rozpoznání textu (vč. fraktury), uložení textu v různých formátech (TXT, PDF, DOC)  Firma EE připravuje i export do formátu ALTO XML (mimo rámec projektu) Archivy, knihovny a muzea v digitálním světě 2009

22 Nástroj pro popis vnitřních částí  Nástroj pro popis vnitřních částí (vytváření rozšířených metadat) má provizorní rozhraní  Uživatel označí vybranou složku v některém z formátů (JPG, TIFF, BMP)  Před rozpoznáním OCR je možné zadat některé volitelné parametry Invertovat barvy – bílý text na černém pozadí Exportovat XML – export struktury strany do formátu ALTO XML Získat český text – do XML se uloží text v českém jazyce ke každému požadovanému nadpisu (v multijazyčných monografiích) Neuronová síť – testování rozpoznávání objektů na straně pomocí umělé inteligence Archivy, knihovny a muzea v digitálním světě 2009

23

24 Nástroj pro popis vnitřních částí  Před rozpoznáním je třeba označit objekt a v dialogovém okně zadat typ zóny: Globální – označený text se vyhledává v celém kontextu strany Lokální – označený text se vyhledává vždy jen v uživatelem označené oblasti Obrázek – vyhledává obrázky v celém kontextu strany Číslo strany – vyhledává lokálně čísla stran v levé i pravé části Archivy, knihovny a muzea v digitálním světě 2009

25

26 Nástroj pro popis vnitřních částí  Po rozpoznání všech stran je možné získané texty nebo údaje opravovat nebo editovat  Uživatel po označení přepínače „Opravit“ vyvolá kliknutím na jakoukoliv textovou oblast dialogové okno „Atributy vybrané zóny“  V tomto okně je možné opravit nebo změnit vlastnosti označeného textu Archivy, knihovny a muzea v digitálním světě 2009

27

28 Projekt IMPACT  Projekt IMPACT je zaměřen na zlepšení přístupu k historickým textům a odstranění bariér masové digitalizace evropského kulturního dědictví  V rámci projektu se řeší také problematika zlepšení výsledků OCR pomocí jazykových bází.  NK ČR byla oslovena s nabídkou rozšíření projektu o český jazyk ve spolupráci s Ústavem českého národního korpusu  V rámci projektu by NK ČR měla digitalizovat české dokumenty, zajišťovat konverzi OCR a opravy textů Archivy, knihovny a muzea v digitálním světě 2009

29 Děkuji za pozornost Jiri.Polisensky@nkp.cz Archivy, knihovny a muzea v digitálním světě 2009


Stáhnout ppt "Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea."

Podobné prezentace


Reklamy Google