Část 4 Mark-up Adolf Knoll Národní knihovna České republiky

Slides:



Advertisements
Podobné prezentace
Praha, Brno Nové komunikační možnosti systému Kramerius © Qbizm technologies, a.s. René Michálek
Advertisements

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Martin Dlouhý. Vytvořeno dne Nový začátek (New start) CZ.1.07/1.4.00/
Martin Vojnar Vědecká knihovna v Olomouci
Štěpán Šípal Gymnázium Čakovice. Dnešní témata  Vznik XHTML a předchůdci  Základní prvky XHTML dokumentu  Tagy a atributy  Elementy a jejich druhy.
Tvorba webových stránek
Tvorba WWW stránek ÚVOD
ZÁKLADY HTML Číslo DUM: VY_32_INOVACE_04_11 Autor: Mgr. Ivana Matyášková Datum vytvoření: duben 2013 Ročník: tercie Vzdělávací obor: informační technologie.
Základy HTML.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Tvorba stránek  komu jsou stránky určeny  grafická úprava stránek  obsah  motivy vzhledu stránky
Jazyk HTML Název školyZákladní škola a Mateřská škola Tatenice Číslo projektuCZ Název šablony klíčové aktivity Inovace a zkvalitnění výuky pomocí.
David Pejčoch XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená.
Jak na web První krůčky Lukáš Reindl. Co je potřeba Budeme potřebovat počítač, na kterém běží alespoň nějaký jednoduchý textový editor (ve Windows Notepad.
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
MP- LEKCE 2 – STYLY V MS WORD. Styly a důvody použití stylu Nadefinujeme si „šablonu“ pro určitý typ písma, kterou budeme chtít používat i v další části.
TVORBA WEBOVÝCH STRÁNEK
XML, RDF a Dublin Core Petr Žabička
XHTML Tvorba webových stránek. Vývoj značkovacích jazyků HTML – HyperText Markup Language  Značkovací jazyk pro vytváření www stránek. Pomocí značek.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Adobe Dreamweaver CS4 Ing. Martin Dosedla.
Microsoft Office PowerPoint
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
Kaskádové styly Cascading Style Sheets. Využití CSS jde o jazyk pro popis způsobu zobrazení stránek napsaných v jazycích HTML, XHTML nebo XML umožňuje.
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Tvorba WWW stránek HTML - XHTML Každá Internetová stránka (WWW stránka) je vytvořena pomocí programovacího jazyka HTML (Hypertext Markup Language). Každá.
Relační databáze.
VY_32_INOVACE_4.3.IVT1.12/Oc Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jaroslav Ochodek CZ.1.07/1.5.00/ Tvorba webových.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Maturitní okruh 22: Úvod do HTML. Značkovací a klasické jazyky Klasické: převládá strukturovaný text (programovací kód), skripty jsou prováděny na straně.
Návrh a tvorba WWW Cvičení 4
CSS styly Kaskádové styly (CSS – Cascading Style Sheets) jsou prostředkem, který zajišťuje jednotný vzhled publikovaných stránek. Technologii CSS podporují.
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Anotace Žák dokáže formátovat text v aplikaci MS Word Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže naformátovat text a nastavit různé formáty.
KASKÁDOVÉ STYLY 1. 2 PRVNÍ STANDARD (CSS1) BYL PŘEDSTAVEN V ROCE 1996, PROTO STARŠÍ PROHLÍŽEČE ("ČTYŘKOVÉ" VERZE) IE A NN KASKÁDOVÉ STYLY NEPODPORUJÍ.
DTD DTD (Document Type Definition) je jinými slovy návod pro prohlížeč zpracovávající dokument. DTD (Document Type Definition) je jinými slovy návod pro.
Jazyk XML Jazyk pro tvorbu strukturovaných dokumentů Syntaxí velmi podobný HTML Hlavní cíle návrhu: Snadná editace - jazyk je textový Snadné strojové zpracování.
Copyright (C) 2000 Vema, a. s.1 V3 klient Michal Máčel Provozní integrace G2, HR/Win a internetu.
XML na papír Dušan Fencl
Databázové modelování
PLÁN DLOUHODOBÉ OCHRANY DIGITÁLNÍCH DOKUMENTŮ V PRAXI Mgr. Andrea Fojtu, Mgr. Eliška Pavlásková ÚVT UK, ÚISK UK
XML a metainformační systémy (pro geoinformace) Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Tvorba efektních www stránek pro každého Od historie až po současnost… Úvod Porovnání Validace Prohlížeče Závěr.
Vít Profant Obhajoba bakalářské práce
Nové standardy v českém archivnictví
XML eXtensible Markup Language Adolf Knoll Národní knihovna ČR
Jazyk XML v geoinformatice
Kaskádové styly Cascading Style Sheets. Využití CSS jde o jazyk pro popis způsobu zobrazení stránek napsaných v jazycích HTML, XHTML nebo XML umožňuje.
PHP Programy pro tvorbu WWW stránek - 01
Petr Šmíd Obsah prezentace Co je to XML ?
Úvod do XML S využitím materiálů z Zdeněk Žabokrtský.
Digitální zpřístupnění knihovních sbírek Adolf Knoll Národní knihovna České republiky
Verze 22 systému Aleph školení klienta 1. Struktura systému Typy bází: Bibliografická – obsahuje bibliografické záznamy – KNA01 ostrá báze Administrativní.
Tento projekt je financován z Operačního programu Vzdělávání pro konkurenceschopnost prostřednictvím Evropského sociálního fondu a státního rozpočtu ČR.
Úvod do databází zkrácená verze.
Základy XML – struktura dokumentu (včetně testových otázek) Otakar Čerba Oddělení geomatiky Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita.
Inf Webová stránka, princip HTML a CSS. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
1 Kurz XHTML a CSS Část 1: Náš první XTHML dokument a jeho publikace na internetu.
Základní škola T. G. Masaryka a Mateřská škola Poříčany, okr. Kolín VY_32_INOVACE_ICT_04 ORGANIZACE DAT V PC Zpracovala: Mgr. Květoslava Štikovcová Číslo.
Metadatová popisná schémata a rozvoj nových formátů Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Tvorba tohoto kurzu byla financována.
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.4.00/ AUTOR: Mgr. Vladimír.
Zpracování textů efektivně
XML Validace.
Vlastnosti souborů Jaroslava Černá.
Značkovací jazyk HTML Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jitka Vlčková. Dostupné z Metodického portálu ISSN.
Vstup a zpracování speciálních znaků v UIS
Transkript prezentace:

Část 4 Mark-up Adolf Knoll Národní knihovna České republiky

Cíle Po absolvování této lekce budeme s to:  Pochopit, co je třeba dělat s výstupními daty digitalizace pro jejich další použití  Pochopit základy značkovacích jazyků, zejména XML  Orientovat se základně v jejich aplikaci, abychom mohli činit správná rozhodnutí pro zpracování a realizaci projektu digitalizace

Výroba digitálního dokumentu Digitální dokument Originální dokument Digitalizace Popis Data Metadata

Co vyrábíme? Data  Přímý produkt digitalizace: digitální obrazy, plný text, video a audio soubory  Obvykle sada souborů, která reprezentuje originální dokument Metadata  Přidaná hodnota formou textových informací  vyjadřují:  Identifikaci s originálem  Strukturu a odkazy na datové soubory  Technické informace o datech  Dostupnost  Administrativní údaje  atd.

Mark-up Byl vytvořen z potřeby uchovat přidané (skryté) informace v textu za účelem:  Lepšího formátování pro zobrazení a/nebo tisk = preskriptivní mark-up  Klasifikace částí jako objektů relevantních z pohledu různých pravidel popisu, jako jsou např. katalogizační pravidla, pravidla pro popis technických parametrů, různé zavedené praktiky (good practices), pravidla asociace objektů s jejich vizuální reprezentací, atd. = dekriptivní mark-up

Mark-up  Například v MS Word je odstavec označen jako ¶  V kódu HTML je odstavec označen jako odstavec  V kódu HTML je odstavec označen jako odstavec  V HTML jsou tučný (bold) text nebo zalomení (break) řádku označeny takto: Toto je HTML dokument, který se skládá z elementů.  Toto vše je procedurální (preskriptivní) mark-up. Všimněte si použití <> závorek na začátku a konci označeného elementu. Odstavec je označen symbolem ¶ Odstavec¶

Objekty  Markup značkuje:  OBJEKTY  Jaké objekty?  TY, KTERÉ JSME JAKO OBJEKTY DEFINOVALI  Na jakém základě je definujeme?  Na základě URČITÝCH PRAVIDEL  Jak jsou tato pravidla stanovena?  Na základě dohody; obvykle jde o psaný (nezřídka publikovaný) dokument, který specifikuje ty objekty, které mají být sledovány a popisovány. Například: AACR2 Katalogizační pravidla pro knihovny, ISBD, CDWA nebo AMICO popisná pravidla pro sbírkové předměty, Data Dictionary for Still Digital Images, atp.  Popisná pravidla nedefinují, jak jsou tyto objekty značkovány – to je úkol tzv. mark-up (značkovacích) formálních jazyků  Nejdůmyslnější značkovací přístup je reprezentován v SGML

Obecný značkovací jazyk SGML  Standard Generalized Markup Language (ISO standard z r. 1986) je základem pro další odvozené přístupy, které je možné nazývat značkovacími jazyky 2. generace:  HTML (preskriptivní)  TEI  …  XML (deskriptivní) Značkovací jazyk označuje objekt, aniž by mu přiřazoval jakékoli chování. Jeho chování je předepsáno nezávislým pravidlem.

Jak to funguje?  Hlavním konstrukční jednotka značkování na základě SGML se nazývá ELEMENT  každý element musí být definován externím pravidlem popisu obsahu; např. katalogizační pravidla (AACR2 nebo jiná) definují element Title/Název; mohou také definovat podelementy jako Main Title / Hlavní název, Parallel Title / Souběžný název, nebo Sub-Title / Podnázev atp.  Tzn., že může jít o hierarchické vztahy mezi elementy (rodiče s dětmi)

Jak definovat metadatový standard?  Potřebujeme formální pravidla, abychom dokázali vyjádřit standardy, popisující obsah  V SGML prostředí jsou stanovena v Document Type Definition (DTD / Definice Typu Dokumentu)  DTD může mj. zabezpečit toto:  Uvést seznam všech elementů a nastavit jejich vlastnosti (povinný, nepovinný, opakovatelný atd.)  Definovat vztahy mezi elementy  Zjemnit jejich vlastnosti např. vyjmenováním povolených hodnot  Odkázat od nich vnější entity, tj. další definice nebo binární data, např. digitální obrazy

Jestliže například budeme chtít definovat popisný element author, pak: Formální pravidlo pro zobrazení elementu author Formální definice elementu author Obsahová definice elementu author popisnými pravidly / např., AACR2 pravidly, jimiž se řídí formální definice / např. DTD Pravidly transformace elementu pro zobrazení / e.g., XSLT for XML je dána je dáno Takto pracujeme v XML

XML eXtensible Markup Language XML file *.xml Obsahuje odkaz na DTD, které jej řídí Obsahuje odkaz na transfromační pravidlo, které zajišťuje zobrazení, např. XSLT soubor DTD *.dtd DTD pro XML je ještě psáno pomocí syntaxe SGML; proto bylo zavedeno W3C Schema, aby jej nahradilo, takže xml dokument může být řízen DTD (*.dtd) nebo Schématem (*.xsd). *.xslt

DTD = Document Type Definition  Základní stavební částí je ELEMENT  ELEMENT může mít obsah nebo může být EMPTY (= prázdný)  ELEMENTy se mohou skládat z dalších elementů

Zde se element Title skládá ze skupiny tří elementů (MainTitle, SubTitle a ParallelTitle); z nich je pouze MainTitle povinný, kdežto SubTitle a ParallelTitle nejsou povinné, ale ParallelTitle se může opakovat. V DTD je to napsáno takto:

Element PageRepresentation umožňuje spojit konkrétní stranu s obrazem nebo plným textem, jež ji reprezentují. <!ATTLIST MonographPage Type (Advertisement | BackCover | BackEndSheet | Blank | FlyLeaf | FrontCover | FrontEndSheet | Index | ListOfIllustrations | ListOfMaps | ListOfTables | NormalPage | Spine | Table | TableOfContents | TitlePage) "NormalPage" > <!ATTLIST PageImage href CDATA #REQUIRED > <!ATTLIST PageText href CDATA #REQUIRED > Zpamatujme si: můžeme také sepsat seznam vlastností (attributes); zde to jsou Type elementu MonographPage nebo href, tj. odkaz na entitu vnějších (externích) dat.

<!ATTLIST MonographPage Type (Advertisement | BackCover | BackEndSheet | Blank | FlyLeaf | FrontCover | FrontEndSheet | Index | ListOfIllustrations | ListOfMaps | ListOfTables | NormalPage | Spine | Table | TableOfContents | TitlePage) "NormalPage" > Nahoře uvedená část DTD znamená toto: Element MonographPage se skládá z elementů PageNumber, Notes a PageRepresentation. Element MonographPage je v závilosti na svém informačním obsahu klasifikován různými typy (Types), jako jsou Advertisement (inzerce), BackCover (zadní desky), …, TableOfContents (soupis obsahu) a TitlePage (titulní strana). Jako výchozí Hodnota je nastavena NormalPage (normální strana), protože očekáváme, že to bude nejčastější volba. Význam kvalifikátorů je tento: Element - absence znaku = element je povinný a realizuje se pouze jednou Element+ - znak + = element je povinný a realizuje se nejméně jednou Element? - znak ? = element je nepovinný a realizuje se pouze jednou Element* - znak * = element je nepovinný a realizuje se nejméně jednou

<!ATTLIST PageImage href CDATA #REQUIRED > <!ATTLIST PageText href CDATA #REQUIRED > Každý element, jenž se neskládá z dalších elementů, musí být definován. Hodnota (#PCDATA) znamená, že v XML souborech vytvořených na základě tohoto DTD je očekáván v daném elementu analyzovatelný řetězec metadat; zde například je to číslo strany 221 Znak | v (PageImage | PageText) znamená, že pouze jeden z obou elementů bude použit pro konkrétní reprezentaci strany PageRepresentation. Pojetí tohoto DTD ukazuje, že v případě reprezentování strany jak obrazem, tak i textem, bude každý z nich připojen ke svému výskytu elementu PageRepresentation. ATTLIST (seznam vlastností/atributů) nastavuje atribut href jako navigační odkaz na neanalyzovatelná externí data (CDATA). Elementy PageImage a PageText jsou prázdné, neboť slouží pouze ke spojení strany s jejím obrazem nebo plným textem.

2 List of publications of U. Eco at Bompiani Toto je konkrétní sekce z XML souboru, v níž můžeme vidět, že odkaz (reference) je veden na GIF soubor, uložený v podadresáři Data. Můžeme si také všimnout, že je to strana č. 2 typu (Type) předsádka (Flyleaf). Pro lepší pochopení nyní zpracujeme malý projekt, jehož cílem je napsat DTD dokumentu, který bychom mohli potřebovat v projektu digitalizace starých pohlednic. Práce se bude skládat z těchto kroků: analýza dokumentu, stanovení nezbytných elementů a jejich vztahů, nastavení elementu odkazujícího na digitální obrazy, napsání DTD, napsání XML souboru založeného na tomto DTD a jeho zobrazení. Cílem je ukázat, jak se to dělá, nikoli naučit všemu; to by si vyžádalo hlubší školení XML.

Jak napsat jednoduché DTD? 1. Analyzovat dobře objekt, který chceme popsat a zobrazit 2. Pokusit se vyčíslit všechny elementy pro popis a jejich základní vlastnosti (povinný ano/ne, opakovatelný ano/ne, …) 3. Pokusit se definovat, nakolik budou tyto elementy sestávat z dalších elementů 4. Stanovit, z kterých elementů povedou cesty k vizuální (datové) reprezentaci

Digitalizovaná pohlednice  Kořenový element: PostcardDescription  Elementy druhé vrstvy:  author (autor; skládá se z elementů surname /příjmení/ a name /jméno/)  title (název)  theme (téma)  publisher (vydavatel; skládá se z PlaceOfPublication /místo vydání/, NameOfPublisher /název vydavatele/, DateOfPublication /datum vydání/)  PhysicalDescription (fyzický popis; skládá se z Size /rozměry/ a Technique /technika zhotovení/)  TypeOfDocument (typ dokumentu)  VisualRepresentation (vizuální reprezentace; skládá se z ImageOfRectoPart /obraz přední části/ a ImageOfVersoPart /obraz zadní části/)  language (jazyk)  annotation (anotace) Nezbytné elementy a hierarchické vztahy pro DTD digitalizované poheldnice.

Mohou být takto graficky znázorněny

<!ATTLIST ImageOfRectoPart (preview | normal | excellent) #REQUIRED CDATA #REQUIRED > <!ATTLIST ImageOfVersoPart (preview | normal | excellent) #REQUIRED CDATA #REQUIRED > Postcard.dtd

Lyer Antonín Hronov views of streets Nádražní ulice Dvorská ulice Jiráskova ulice Náměstí Hronov Karel Šefelín [1910] 9x13 cm colour printing postcard cz The postcard was sent by my great grand-mother to her husband, who was in military service in first years of the World War I. Postcard.xml Odkaz na formátovací předpis Odkaz na obrazové soubory

Jak to funguje ve webovém prohlížeči?  Když klikneme na xml soubor:  Prohlížeč bude hledat formátovací předpis/soubor (stylesheet – *.xslt file) a zavolá jej  Zobrazí xml soubor dle předepsaných pravidel  Můžeme kliknout na odkazy vedoucí k obrazům, které reprezentují pohlednici vizuálně a budeme k nik navigováni  Tak to vyzkoušejme a klikněme na Postcard.xml Postcard.xmlPostcard.xml

XML - závěry  XML jazyk umožňuje definovat a řídit/kontrolovat jakýkoli typ popisů  Může je spojit s vnějšími daty  Určuje strukturu digitalizovaných dokumentů a umožňuje jejich dlouhodobou čitelnost  Zajišťuje, že výstup naší práce (výroba XML souborů a digitalizovaných dokumentů) odpovídá tomu, co jsme si stanovili, že chceme dělat  To znamená, že například naše Digitální knihovna může být plněna správnými (validními) a standardizovanými dokumenty, což mj. vytváří dobré předpoklady i pro jejich dlouhodobou digitální ochranu

Work with XML  From the user perspective a good digitization project develops XML editors that:  make the work easy (filling forms)  check the validity against the applied DTD  output only correct XML structures  If you wish to check your forces, dowload the free M-TOOL from the Manuscriptorium Digital Library free tools at and try to work with it

Kde můžeme najít víc? Obecně  (XML Home)  (Technical Introduction to XML)  (XMLSpy editor) Aplikace  (několik DTD, jež byla implementována ve fungujících digitálních knihovnách)  (METS formát pro kontejnerizaci digitálních dokumentů založených na XML)  (TEI – Text Encoding Initiative)