Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Webový archívny formát WARC

Podobné prezentace


Prezentace na téma: "Webový archívny formát WARC"— Transkript prezentace:

1 Webový archívny formát WARC
TVORÍME VEDOMOSTNÚ SPOLOČNOSŤ Webový archívny formát WARC Túto šablónu môžete použiť ako štartovací súbor na prezentáciu školiacich materiálov v skupinovom nastavení. Sekcie Ak chcete pridať sekcie, kliknite pravým tlačidlom myši na snímku. Sekcie vám môžu pomôcť pri organizovaní snímok alebo pri uľahčení spolupráce viacerých autorov. Poznámky Sekciu pre poznámky môžete použiť na prezentačné poznámky alebo na poskytnutie ďalších informácií pre publikum. Tieto poznámky môžu byť počas prezentácie zobrazené v prezentačnom zobrazení. Pozorne vyberajte veľkosť písma (je to dôležité pre zjednodušenie ovládania, viditeľnosť, nahrávanie videa a produkciu v režime online) Jednotné farby Mimoriadnu pozornosť je potrebné venovať grafom a blokom textu. Je potrebné zohľadniť fakt, že prítomní budú dokumenty tlačiť čiernobielo alebo odtiene sivej. Spustite skúšobnú tlač, aby ste sa uistili, že farby pracujú v čiernobielom režime správne a odtiene sivej. Grafické prvky, tabuľky a grafy. Nekomplikujte to: ak je to možné, použite konzistentné, nerušivé štýly a farby. Označte všetky grafy a tabuľky. 10 november 2016 Bc. Andrej Bizík

2 Obsah História Typy WARC súborov
Slovenský webový archív Depozit Digitálnych Prameňov - DDP Skladba objektov v Celoplošnom zbere DDP Dlhodobé uchovávanie WARC Budúcnosť Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

3 WARC Uchovávanie webového obsahu Rôzne nástroje a formáty
Podpora ľubovoľného typu dát na webe Záznam postupností obsahu Čo dokáže vaše publikum zvládnuť po ukončení tohto školenia? Stručne popíšte všetky ciele a uveďte výhody, ktoré publikum získa z vašej prezentácie.

4 História 1996 - ARC (Arc File Format) Internet Archive
WARC 1.0 Medzinárodný štandard ISO 28500 WARC 1.1 ? :00 – Jaroslav Kvasnica WARC ISO File

5 Typy WARC súborov Záznam WARC obsahuje : - Info o formáte - Info o verzii - Info o type Warc-Type warcinfo response resource request metadata revisit conversion continuation Toto je ďalšia možnosť. pre snímku prehľadu.

6 warcinfo Základné informácie - dátum - názov a ID WARC - softvér pre zber, jeho IP a meno - autor - inštitúcia - popis - Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

7 response Odpoveď HTTP zo stránky
Zachovanie informácie HTTP pre reprodukciu obsahu Informácie podľa typu záznamu a schémy URI HTTP/1.1 status 200 ok IP a doménové meno Dátum Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

8 resource Zdroj súboru Target-URI - archívny - sieťový
Typ obsahu Content-Type - image - text Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

9 request Požiadavka HTTP v zmysle § 5 HTTP / 1.1
Informácia o sieťovom protokole IP sieťovej adresy Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

10 metadata Popis zozbieraného obsahu, transformácií, ...
Via – zdroj archivácie FetchTimeMs – čas zberu (milisekundy) Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

11 revisit Porovnávanie obsahu Šetrenie pamäte
Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

12 conversion Konvertovanie súborov - Pôvodný súbor sa zachováva
WARC-Refers-To – pôvodné ID objektu Target-URI – Nová URI s novou príponou Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

13 continuation Prepojenie záznamov
Rozdelenie do segmentov - Prvý segment typ response - Ďaľšie typ continuation Segment-Total-Length - posledný segment Origin-ID = pôvodné ID Segment number = poradie Poskytnite stručný súhrn prezentácie. PPopíšte hlavné zameranie prezentácie a jej význam. Predstavte všetky hlavné témy. Ak chcete publiku poskytnúť súhrn tém, môžete opakovať túto snímku s prehľadom počas celej prezentácie, pričom zvýrazníte témy určené na ďalšiu diskusiu.

14 Súhrn Rôzne poradie Kódovanie UTF-8
WARC 1.0 ISO File warcinfo response resource request metadata revisit conversion continuation Zhrňte obsah prezentácie zopakovaním dôležitých bodov lekcie. Čo si má vaše publikum zapamätať po skončení prezentácie? Jednoduchá distribúcia prezentácie uloženej ako video (Ak chcete vytvoriť video, kliknite na kartu Súbor a potom na položku Zdieľať. V časti Typy súborov kliknite na položku Vytvoriť video.) Rôzne poradie Kódovanie UTF-8 Dôležitosť pre ďalšie použitie (čítanie)

15 Slovenský webový archív Webdepozit
800 TB úložisko SW intra app DDP Zber Heritrix (240 workers) Výstup WARC - veľkostný limit 2 GB - viac GB, viac WARC - každá URL má vlastný WARC - časový limit 24 h - viac hodín, viac WARC Vyhľadávací portál DDP Zobrazenie OpenWayback Vstup katalóg domén Html, css, pdf, img,... Rešpektovanie robots Výstup ZIP = warc.gz Deduplikácia obsahu Toto je ďalšia možnosť snímok prehľadu použitím prechodov.

16 Skladba objektov vo WARC
DIP – Celoplošný zber 2016 (tis.) Domén WARC - 10,5 TB / 6,8 TB komprimovaný

17 Dlhodobé úložisko Balík SIP -balík dát a metadát -akceptovateľný pre LTP Zabalenie WARC do SIP Archivácia v CDA Centrálny dátový archív CDA - certifikované úložisko - cda.kultury.sk

18 Budúcnosť DDP Identifikácia objektov Extrakcia OG objektov z WARC
Mapovanie OG na Metadáta Katalóg Metadát - pravidlá RDA - formát MARC 21 - priradenie k WARC Diplomová práca 2017

19 Microsoft Inžinierska výnimočnosť
Ďakujem za pozornosť Bc. Andrej Bizík Použitá literatúra ISO 28500: 2009 Information and documentation WARC file format Github: IIPC WARC specifications [online], [cit ]. Dôverné informácie spoločnosti Microsoft


Stáhnout ppt "Webový archívny formát WARC"

Podobné prezentace


Reklamy Google