Metadata a identifikátory ( se zaměřením na WWW zdroje) Mgr. Filip Vojtášek

Slides:



Advertisements
Podobné prezentace
DOI Digital Object Identifier
Advertisements

Praha, Brno Nové komunikační možnosti systému Kramerius © Qbizm technologies, a.s. René Michálek
OPEN REPOSITORIES 2010 MADRID, 6. – MGR. LENKA NĚMEČKOVÁ ÚSTŘEDNÍ KNIHOVNA ČVUT.
Iva Horová: Zpřístupňování eVŠKP Olomouc, SDRUK, IT Zpřístupňování eVŠKP současný stav a záměry.
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
IISPP ■ pojem definován v letech v rámci přípravy výzkumných záměrů NPÚ na roky ■ dlouhodobý projekt na vybudování nového komplexního.
Projekt „Příprava národního registru vysokoškolských kvalifikačních prací“ Persistentní identifikátory v databázích eVŠKP Stručné shrnutí Petr Novák, Státní.
Bc. Vladimíra Kováříková Ústřední knihovna VŠB-TU Ostrava 1. setkání českých uživatelů systému 24. dubna 2008 DSpace na VŠB-TU Ostrava.
XML, RDF a Dublin Core Petr Žabička
Databáze Jiří Kalousek.
Eva Filípková Informační zdroje = zdroje, který přináší uživatelům informace, = zdroje, který přináší uživatelům informace, poznatky.
1IT T ŘI PILÍŘE WEBU Ing. Jiří Šilhán. T ŘI PILÍŘE WWW WWW využívá počítačovou architekturu Klient/server, uživatel musí mít nainstalován prohlížeč, který.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Portál autorit
Adresářová služba Active directory
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
13. února 2007Systém Kramerius, Martin Lhoták, KNAV1 Systém Kramerius aktuální stav a vývoj v roce 2007 Martin Lhoták, Knihovna AV ČR, v.v.i. SDRUK – IT,
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Zpřístupnění plných textů vědeckých publikací v prostředí systému Medvik Helena Bouzková, Filip Kříž, Lenka Maixnerová, Eva Lesenková, Ondřej Horsák, Adéla.
Internet, WWW, HTML a spol.. Hlavní zásady inženýrství reprodukovatelnost měřitelnost a parametrizovatelnost přenositelnost typizace a standardizace dokumentace.
Návrh a tvorba WWW Přednáška 1
Relační databáze.
Seznamy digitálních knihoven
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Manažerské informační systémy Ing. Dagmar Řešetková
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Informatika pro ekonomy II přednáška 10
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
RDA - R ESOURCE D ESCRIPTION AND A CCESS Trocha teorie.
Návrh a tvorba WWW Cvičení 4
Dokumentace objektů a zveřejnění funkcí
Identifikátory v digitálních knihovnách Martin Vojnar Vědecká knihovna v Olomouci.
Metadata a metainformační systémy (seminář)
Šedá literatura Zuzana Janušová.
Internet.  Celosvětový systém propojených počítačů  Funkce  Sdílení dat  Elektronická pošta.
Generátor DC a URN Petr Žabička
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Srovnání standardů CEN, FGDC a ISO pro metadata Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
Databázové modelování
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
PLÁN DLOUHODOBÉ OCHRANY DIGITÁLNÍCH DOKUMENTŮ V PRAXI Mgr. Andrea Fojtu, Mgr. Eliška Pavlásková ÚVT UK, ÚISK UK
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: leden.
Hradec Králové, 2003CCCC-CrossRef živé citace „Živé“ citace v časopise Collection Bohumír Valter Collection of Czechoslovak Chemical Communications
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
Vývoj RDA Jarmila Přibylová NK ČR. Page  2 RDA  : práce na AACR3  : práce na RDA 2007 – nová struktura pravidel (přizpůsobení modelům.
Jazyk XML v geoinformatice
PHP Programy pro tvorbu WWW stránek - 01
3. Odborná literatura, její zdroje na Internetu a PřFUK
Katalogy a databáze I. Mgr. Anna Vitásková. Knihovny Národní knihovna Praha – Vědecká knihovna v Olomouci –
Petr Šmíd Obsah prezentace Co je to XML ?
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Internet (služby Internetu, WWW) Služby Internetu WWW (World Wide Web) – dnes nejrozšířenější služba; spoustě lidí splývá s Internetem jako takovým WWW.
Číslo projektu CZ.1.07/1.5.00/ Kódování materiálu vy_32_INOVACE_inf3_web01 Označení materiálu web01_uvod.pptx Název školy Gymnázium Kladno Autor.
Centrální systémy v českém knihovnictví PhDr. Radka Římanová UISK FF UK
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Knihovna UTB ve Zlíně a její (nejen) elektronické služby PhDr
Internet – pojmy, služby
Značkovací jazyky Začínáme.
Dobývání znalostí z databází znalosti
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Informační analýza a identifikace dokumentů
Citační a bibliografické databáze:
Informatika pro ekonomy přednáška 8
Elektronické informační zdroje (VIKBA25)
Číslo projektu OP VK Název projektu Moderní škola Název školy
Transkript prezentace:

Metadata a identifikátory ( se zaměřením na WWW zdroje) Mgr. Filip Vojtášek

Podstata metadat = data o datech = strukturovaná data, která umožňují interpretovat jiná data (primární data) = „…pro počítač srozumitelné informace o webových zdrojích a jiných objektech.” ( T. Berners-Lee) = data o samotném zdroji či nad jeho rámec Přidaná hodnota k primárním datům určená pro počítače (HTTP) nebo pro člověka (digitální kopie) Metadata a primární data: různý charakter a funkce, ale tvoří logickou jednotku

Typy (a funkce) metadat Popisná  indexace a vyhledávání  formální a obsahové znaky zdroje Administrativní  autorská práva, e-business, e-podpis aj. Technická  hlavičky HTTP, konfigurace snímacího zařízení, atributy grafických souborů, specifikace hardwarové platformy pro emulaci aj.

Metadata a katalogizace Metadata svou podstatou analogií katalogizačních/bibliografických záznamů ALE:  Zpracování provádějí často autoři/vydavatelé  Předmětem výhradně elektronické zdroje  Jednotlivé objekty  Přístup pomocí vyhledávacích systémů (search engines, IQ agenti)  Žádná standardizace (resp. nelze uplatnit katalogizační pravidla – např. prameny popisu)  Volně tvořená klíčová slova x řízené slovníky  Přímá vazba metadata  zdroj/objekt

Značkovací systémy Procedurální  příkazový charakter  interní formátovací nástroj (textové procesory, postskriptové jazyky, HTML + CSS1/2)  vizuálně odlišná prezentace digitálních objektů (nadpis, odstavec, tabulka aj.)  HTML XML  XHTML 1.0 Deskriptivní  vyjádření obsahově významných objektů pomocí specifické kategorie a přidělené hodnoty ( Petr Novák ) Ideální stav: oddělení obou systémů (týž obsah, různá forma podle potřeby) GML  SGML  XML

Syntax a sémantika metadat Syntax = pravidla správného utváření metadatové struktury (deklarace elementů, atributů atd.)  DTD (Document Type Definition)  HTML vs. XML  XML 1.0 (1998, rev. 2000) Sémantika = pravidla zápisu metadat z obsahového hlediska  metadatová schémata (objekty  elementy)  XML  RDF (Resource Description Framework)  RDF syntax (1999)  RDF sémantika (2000)

Uložení metadat Metadata součástí zdroje  HTML 2.0/3.2: tag vizviz  podpora vyhledávacími službami (AltaVista x Excite)  HTML + Dublin Core Element Set vizviz  XML (RDF) Metadata v relační databázi (SQL)  redakční publikační systém vizviz Objektově orientovaný přístup (složený digitální dokument – metadata a primární data součástí hierarchického a hypertextového systému organizovaného pomocí SGML „mapového” souboru)  DOBM (variabilní metadatové schéma) vizviz

Metadata a identifikátory (se zaměřením na WWW zdroje) …

Ikaros c. 8/2000: Virtuální fond rozptýlených vzácných dokumentů: Bachovy autografy zpřístupněny na Internetu …

článkyautoři rubriky M:N N:1 ohlasy N:1

Metadata a archivace elektronických zdrojů Prostředek k zajištění integrity a autenticity zdroje  dlouhodobé uchování a zpřístupnění (kontext zdroje) Podmínka: Co nejmenší svázanost s konkrétním digitálním prostředím (uložení metadat v prostém textu) Dosavadní řešení:  SGML (  nutný speciální prohlížeč nebo dynamická konverze do HTML)  Obohacení HTML o prvky pro obsahově významné objekty (DOBM) Open Archival Information System: funkční model datového toku v digitálním archivu  Aplikace: projekty NEDLIB (EU) a Cedars (UK)

Archival Information Package Content Information Preservation Description Information ReferenceContext ProvenanceFixity Open Archival Information System

Identifikátory Tradiční publikování: zavedené identifikační systémy ISSN a ISBN (důležité komunikační prostředky na knižním trhu – nakladatelé, knihovny, bibliografické agentury) Elektronické publikování: spíše světlo na konci tunelu než řešení na dosah ruky Proměnlivost WWW: průměrná životnost těchto zdrojů je 45 dní Proměnlivost WWW Unikátní a v čase stabilní sekvence znaků (ve standardizované a mezinárodně podporované podobě), nesvázaný s konkrétním aplikačním SW, vztahující se k danému zdroji (či jeho instanci) Přidělení identifikátoru: úkon technické, nikoliv administrativní povahy! Primární popisný údaj WWW zdrojů (?) Další funkce: hypertextové odkazy, citace na dílčí digitální objekty

URL (Uniform Resource Locator) Nejrozšířenější „identifikátor ” WWW zdrojů Jednoduchý, flexibilní a srozumitelný (často odrážející obsah zdroje) Marketingový nástroj (doména II. řádu) Zachycuje aktuální místo uložení zdroje (resp. instrukci pro přístup k němu), nikoliv trvale platné označení! Příčinou nejsou technologické nedostatky, ale „lidský faktor ” :  Vydavatel (fyzická/právnická osoba) ukončí svou činnost  Vydavatel zdroj přesune  Vydavatel zdroj zcela odstraní  Nové za staré  Změna struktury serveru (jiná doména)  Zdroj může „fyzicky ” existovat, ale de facto není k dispozici!

PURL (Persistent URL) * 1995 (OCLC) Dočasné řešení (než se prosadí identifikace pomocí URN) PURL se přiřazuje danému URL na základě uživatelem vybraného jména Nepřímá komunikace klient-server (přesměrování): K zadanému PURL vyhledá server, který spravuje databázi PURL (resolver), právě odpovídající URL, které vrátí zpět klientovi, aby dokončil transakci. Klient resolver Web server PURL URL zdroj

PURL (Persistent URL) Nutná aktualizace databáze při změně URL Podpora prohlížeči (stejný mechanismus protokolu HTTP jako u URL) Centrální resolver (purl.oclc.org): obsahuje PURL (z toho 4 v doméně.cz)purl.oclc.org Národní a institucionální resolvery  National Library of Australia purl.nla.gov.aupurl.nla.gov.au  Dansk BiblioteksCenter  US Government Printing Office purl.access.gpo.gov purl.access.gpo.gov

URN (Uniform Resource Name) Vývoj: pracovní skupina IETF Perspektivní náhrada URL: jednoznačná identifikace zdroje nezávislá na jeho uložení Princip resolvingu Aplikace bibliografických identifikátorů jako tzv. jmenných prostorů (ISSN, ISBN, SICI, NBN) urn: ":" Syntax: RFC 2141 (1997) Plug-in URN:ISSN (0.3beta) vizviz urn.issn.org

DOI (Digital Object Identifier) * 1997 (Association of American Publishers a Corporation for National Research Initiatives) Od 1998 spravuje International DOI Federation Cíl: efektivnější ochrana majetkových autorských práv Přesměrování na server vlastníka, který rozhoduje co a za jakých podmínek zpřístupněno (bibliografický záznam, abstrakt, plný text) Využití: komerční poskytování informačních služeb - elektronické verze odborných časopisů (Academic Press, Blackwell Science, Elsevier Science, Institute for Scientific Information, John Wiley & Sons, Springer Verlag aj.) a elektronické knihy Agregátor CrossRef (71 nakladatelů, 3800 titulů, 3 milióny článků)

SICI (Serial Item and Contribution Identifier) Norma ANSI/NISO Z39.56 (1991, revize 1996) Určen pro tištěné a elektronické seriály (úroveň: titul – číslo – článek – část článku) Viz Wiley InterScience Integrace s existujícími standardy pro účely analytického zpracování:  Extenze ISSN  Sufix DOI  Jmenný prostor URN Další využití: citace, automatizovaná akvizice (transakční systém EDI) SICI generátor