Webový archívny formát WARC

Slides:



Advertisements
Podobné prezentace
SEMINÁŘ OZO Ladislav Hejný
Advertisements

MIKROPROCESOROVÁ TECHNIKA
Integrovaná střední škola Vysoké nad Jizerou
TM40 Dotyková klávesnica
Prehľad projektu Oblasti vzdelávania Technická výchova Veková skupina
ODBYT registračné pokladnice: kontrola stavu hotovosti
Sleduj informácie na obale potravín
Prehľad projektu Oblasti vzdelávania Fyzika Veková skupina
Hotelové rezervačné systémy
Počítač s príslušenstvom INF V. ročník
ROČNÍKOVÁ PRÁCA 1.
ROČNÍKOVÁ PRÁCA 1.
STAVEBNÝ DENNÍK V zmysle Stavebného zákona č. 50/1976 Zb. v znení neskorších predpisov - §46d.
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Harmonizácia osobných autorít s NKP
L1 cache Pamäť cache.
Prečo potrebujeme dôveryhodnú archiváciu Legislatívne a iné požiadavky
SME MEDZINÁRODNE CERTIFIKOVANÁ ŠKOLA.
Práca s internetom (Ľ. Jašková, Ľ. Šnajder, R. Baranovič)
Kreslenie v textovom dokumente 1.časť
Tematický zošit Práca s textom
Plánovanie a príprava hodiny
Školiace Centrum Infoveku
MATURITA Miroslava Drahošová
Ako príklad inštalácie uvádzame Bullzip Free PDF Printer.
Rozpoznávanie slovných druhov alebo vetnej skladby
Úprava tabuliek Kód ITMS projektu „Učíme inovatívne, kreatívne a hravo – učíme pre život a prax“ „Moderné vzdelávanie pre vedomostnú spoločnosť.
Časti počítača von Neumannovského typu
Prezentácia z informatiky
Využitie pracovných listov na hodinách informatiky
Miroslav Sajko Martin Petruňa
Aktualizačné vzdelávanie učiteľov cvičných firiem
Mapy povodňového ohrozenia Mapy povodňového rizika
5 tipov na zjednodušenie práce
Kľúč na určovanie rastlín
Projekt z chémie 7. ročník
Elektronická výplatná páska
Stručná referenčná príručka pre
Ochrana potravín Tréningový kurz Co-financiado.
Hypertextové prepojenia
Leona Pavlíková,Lenka Kulifajová 9.A
Použitie počítačov v geografii (2)
Stredná odborná škola automobilová Moldavská cesta 2, Košice
Rastrova a Vektorov grafika
Čo je IM História Prehľad klientov, ICQ
Elektronická identifikačná karta Elektronické služby národnej evidencie vozidiel Elektronické služby národnej evidencie vozidiel, časť 2 Záverečná konferencia.
Základné rozdelenie podľa oblasti použitia
Geografické informačné systémy
Riziká informačných technológií
Nové formy komunikácie
Výskumný súbor.
Modelovanie DBS Vypracoval: Ing. Michal COPKO.
Hardware Pamäťové média.
Médiá v našom živote.
STN EN Bezpečnosť elektrických spotrebičov pre domácnosť a na podobné účely. Časť 1: Všeobecné požiadavky EVPÚ a. s., SKTC 101 Nová Dubnica Ján.
MS POWERPOINT ZŠ, Z. Nejedlého 2 Spišská Nová Ves
Stredná odborná škola automobilová Moldavská cesta 2, Košice
História internetu meno.
Digitalizácia informácií
Informačné systémy Simona Franková Mária Babčáková 3.Ag
Smerovanie Ing. Branislav Müller.
Elektronické verejné obstarávanie
EQM-PD Európsky manažment kvality pre profesionálov pracujúcich so zdravotne postihnutými osobami Eqm-pd.com Projekt „EQM-PD“ bude financovaný s podporou.
MEDLINE Complete ~ Vyhľadávanie
Tutoriál ~ eKnihy Sťahovanie
Tvorba prezentácií Miriam Rajčanová Hotelová akadémia Ľ. Wintera
Pracovné zošity Práca s grafikou (2000) Algoritmy s Pascalom (2002) Práca s multimédiami (2005)
Stredná odborná škola automobilová Moldavská cesta 2, Košice
Badminton zajímavé ukázky
Střední škola obchodně technická s. r. o.
Transkript prezentace:

Webový archívny formát WARC TVORÍME VEDOMOSTNÚ SPOLOČNOSŤ Webový archívny formát WARC Túto šablónu môžete použiť ako štartovací súbor na prezentáciu školiacich materiálov v skupinovom nastavení. Sekcie Ak chcete pridať sekcie, kliknite pravým tlačidlom myši na snímku. Sekcie vám môžu pomôcť pri organizovaní snímok alebo pri uľahčení spolupráce viacerých autorov. Poznámky Sekciu pre poznámky môžete použiť na prezentačné poznámky alebo na poskytnutie ďalších informácií pre publikum. Tieto poznámky môžu byť počas prezentácie zobrazené v prezentačnom zobrazení. Pozorne vyberajte veľkosť písma (je to dôležité pre zjednodušenie ovládania, viditeľnosť, nahrávanie videa a produkciu v režime online) Jednotné farby Mimoriadnu pozornosť je potrebné venovať grafom a blokom textu. Je potrebné zohľadniť fakt, že prítomní budú dokumenty tlačiť čiernobielo alebo odtiene sivej. Spustite skúšobnú tlač, aby ste sa uistili, že farby pracujú v čiernobielom režime správne a odtiene sivej. Grafické prvky, tabuľky a grafy. Nekomplikujte to: ak je to možné, použite konzistentné, nerušivé štýly a farby. Označte všetky grafy a tabuľky. 10 november 2016 Bc. Andrej Bizík andrej.bizik@ulib.sk

Obsah História Typy WARC súborov Slovenský webový archív Depozit Digitálnych Prameňov - DDP Skladba objektov v Celoplošnom zbere DDP Dlhodobé uchovávanie WARC Budúcnosť Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

WARC Uchovávanie webového obsahu Rôzne nástroje a formáty Podpora ľubovoľného typu dát na webe Záznam postupností obsahu Čo dokáže vaše publikum zvládnuť po ukončení tohto školenia? Stručne popíšte všetky ciele a uveďte výhody, ktoré publikum získa z vašej prezentácie.

História 1996 - ARC (Arc File Format) Internet Archive 2009 - WARC 1.0 Medzinárodný štandard ISO 28500 2016 - WARC 1.1 ? ... 14:00 – Jaroslav Kvasnica WARC ISO 28500 File

Typy WARC súborov Záznam WARC obsahuje : - Info o formáte - Info o verzii - Info o type Warc-Type warcinfo response resource request metadata revisit conversion continuation Toto je ďalšia možnosť. pre snímku prehľadu.

warcinfo Základné informácie - dátum - názov a ID WARC - softvér pre zber, jeho IP a meno - autor - inštitúcia - popis - email Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

response Odpoveď HTTP zo stránky Zachovanie informácie HTTP pre reprodukciu obsahu Informácie podľa typu záznamu a schémy URI HTTP/1.1 status 200 ok IP a doménové meno Dátum Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

resource Zdroj súboru Target-URI - archívny - sieťový Typ obsahu Content-Type - image - text Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

request Požiadavka HTTP v zmysle § 5 HTTP / 1.1 Informácia o sieťovom protokole IP sieťovej adresy Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

metadata Popis zozbieraného obsahu, transformácií, ... Via – zdroj archivácie FetchTimeMs – čas zberu (milisekundy) Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

revisit Porovnávanie obsahu Šetrenie pamäte Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

conversion Konvertovanie súborov - Pôvodný súbor sa zachováva WARC-Refers-To – pôvodné ID objektu Target-URI – Nová URI s novou príponou Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

continuation Prepojenie záznamov Rozdelenie do segmentov - Prvý segment typ response - Ďaľšie typ continuation Segment-Total-Length - posledný segment Origin-ID = pôvodné ID Segment number = poradie Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

Súhrn Rôzne poradie Kódovanie UTF-8 WARC 1.0 ISO 28500 File warcinfo response resource request metadata revisit conversion continuation Zhrňte obsah prezentácie zopakovaním dôležitých bodov lekcie. Čo si má vaše publikum zapamätať po skončení prezentácie? Jednoduchá distribúcia prezentácie uloženej ako video (Ak chcete vytvoriť video, kliknite na kartu Súbor a potom na položku Zdieľať. V časti Typy súborov kliknite na položku Vytvoriť video.) Rôzne poradie Kódovanie UTF-8 Dôležitosť pre ďalšie použitie (čítanie)

Slovenský webový archív Webdepozit 800 TB úložisko SW intra app DDP Zber Heritrix (240 workers) Výstup WARC - veľkostný limit 2 GB - viac GB, viac WARC - každá URL má vlastný WARC - časový limit 24 h - viac hodín, viac WARC Vyhľadávací portál DDP Zobrazenie OpenWayback Vstup katalóg domén Html, css, pdf, img,... Rešpektovanie robots Výstup ZIP = warc.gz Deduplikácia obsahu Toto je ďalšia možnosť snímok prehľadu použitím prechodov.

Skladba objektov vo WARC DIP – Celoplošný zber 2016 (tis.) - 278642 Domén - 278663 WARC - 10,5 TB / 6,8 TB komprimovaný

Dlhodobé úložisko Balík SIP -balík dát a metadát -akceptovateľný pre LTP Zabalenie WARC do SIP Archivácia v CDA Centrálny dátový archív CDA - certifikované úložisko - cda.kultury.sk

Budúcnosť DDP Identifikácia objektov Extrakcia OG objektov z WARC Mapovanie OG na Metadáta Katalóg Metadát - pravidlá RDA - formát MARC 21 - priradenie k WARC Diplomová práca 2017

Microsoft Inžinierska výnimočnosť Ďakujem za pozornosť Bc. Andrej Bizík andrej.bizik@ulib.sk www.webdepozit.sk Použitá literatúra ISO 28500: 2009 Information and documentation WARC file format Github: IIPC WARC specifications [online], [cit. 2016-09-26]. https://github.com/iipc/warc-specifications/ Dôverné informácie spoločnosti Microsoft