SDRUK-IT 14.2.2007 Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Web Michal Žůrek Jak se na něj dívám já..
Zoner Foto Studio Bohumil Bareš.
Systém Drupal a nejen školní weby
Webové rozhraní pro datové úložiště
Datové a webové služby katastru nemovitostí uživatelům GIS
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Knihovny současnosti 2011, České Budějovice 13. – 15. září 2011
Tvorba webových stránek
CSS a HTML 5. HTML 5 HTML5 je nová verze specifikace značkovacího jazyka HTML, která přináší podstatné změny v technologiích webových stránek. HTML5 umožňuje.
PHP – vkládání souborů a html 5
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Moravská zemská knihovna a zpřístupňování starých map.
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Bohdana Stoklasová Národní knihovna ČR
Týmová spolupráce s využitím Google Code
Apache, PHP, MySQL Lukáš Masopust Web server Apache Aplikace schopná zpracovat HTTP požadavek Nejpoužívanější Web server Vytváří ho The Apache.
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
13. února 2007Systém Kramerius, Martin Lhoták, KNAV1 Systém Kramerius aktuální stav a vývoj v roce 2007 Martin Lhoták, Knihovna AV ČR, v.v.i. SDRUK – IT,
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
ESTUP – Elektronické STUdentské Práce, Martin Pešava 2006, Brno Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby... Systém pro eVŠKP.
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_257 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Ing. Roman Bartoš Předmět Informatika.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Jan Majer, Tomáš Pytlík, Tomáš Vondráček IKE D o k u m e n t o g r a f i c k é i n f o r m a č n í s y s t é m y.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
Walter Schorge Archa – Open Source archivní informační systém v NTM Archivy, knihovny a muzea v digitálním světě
Internetový prohlížeč
Internet.  Celosvětový systém propojených počítačů  Funkce  Sdílení dat  Elektronická pošta.
MAPGUIDE OPEN SOURCE - MAPOVÝ SERVER Student: Bc. Martin Soukup Předmět: GEIS Přednášející : R NDr. Tomáš Vaníček, P hD. Datum: Web:
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
AJAX nejmodernější webová technologie… seminář pro učitele ZŠ a SŠ Mgr. Marek Osuchowski Ostravská univerzita © 2011.
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Informační zdroje v jednotném prostředí: SEN VŠECH KNIHOVNÍKŮ Jan Pokorný, Ústav výpočetní techniky UK.
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
WebArchiv – Archiv českého webu Adam Brokeš
1 Martin Vojnar Elektronické informační zdroje a centrální indexy SUAleph, VUT, 6. listopadu 2012.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: leden.
Kamasová Silvie 9.C. Mozilla firefox Rychlejší prohlížení webu Blokování vyskakovacích oken Prohlížení stránek v panelech Snadná změna vzhledu Intuitivní.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
WebCastle VŠB Vedoucí bakalářské práce:Ing. Jan Ružička Ph.D. Vypracoval:Martin Prager VŠB – TU Ostrava Institut Geoinformatiky Studijní skupina :G362.
Projekt Perfull Personifikovaný fulltextový vyhledavač Vedoucí: RNDr. Leo Galamboš, Ph.D. Řešitelé: Ondrej Bechera Vojtěch Kulvait Eva Kustrová Ondřej.
Macron Software, spol. s r.o. Nad Petruskou 1, Praha 2, Czech Republic,
Kramerius 4 – nová generace systému pro digitální knihovnu Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě ,
INTERNET.
Základy práce s informačními zdroji pro bc. studenty SPSP Mgr. Dana Mazancová, DiS. Brno, 11. dubna 2013 Masarykova univerzita Fakulta sociálních studií.
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
PHP Programy pro tvorbu WWW stránek - 01
Studijní informační zdroje (a jak se k nim dostat) Osnova Prezentace.
OBÁLKY KNIH.cz Jiří Nechvátal Jihočeská vědecká knihovna v Českých Budějovicích
Prezentace diplomové práce
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
Rezervační systém v prostředí XUL Zdeněk Novák, Petr Ondrejka.
INTERNET Mgr. Petra Toboříková. Internet = celosvětový systém navzájem propojených počítačových sítí –WWW (text, grafika a multimédia - hypertextové odkazy)
Jak fungují webové stránky Úvod do HTML (1). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická.
ORSOFT RADNICE OPEN – ÚVODNÍ SEZNÁMENÍ Petra Hoffmanová.
EU peníze školám Registrační číslo projektu CZ.1.07/1.4.00/ Název projektu Inovace školství Šablona - název Inovace a zkvalitnění výuky prostřednictvím.
Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Jihlava Šablona 32 VY_32_INOVACE_033.ICT.34 Tvorba webových stránek – MS Visual Studio.
Workshop, Knihovna AV ČR, 4. října 2010 Mgr. Tomáš Foltýn Kramerius 4 Uživatelské rozhraní Do verze
Zahradnická fakulta v Lednici S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 S 4 U – Seminář o Univerzitním informačním systému.
Anotace Materiál je určen pro 1. ročník studijního oboru M/01 PROVOZ A EKONOMIKA DOPRAVY, předmětu Informační a komunikační technologie, inovuje.
Bohumil Havel MoodleMoot.cz 2016
as4u advanced system for you
Evidence aplikací a jejich dokumentace
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Vytvoření IS pro správu místností v prostředí WWW
Transkript prezentace:

SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK

SDRUK-IT Registrované domény v.cz

SDRUK-IT Počet dokumentů sklizených za den

SDRUK-IT Počet souborů a objem dat

SDRUK-IT Fakta  Počet sklizených souborů ke dni je 134,5 miliónů  Objem sklizených dat je GB  První dokument byl archivován

SDRUK-IT Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů

SDRUK-IT Akvizice - Heritrix  modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze )  zkvalitňování systému  zvýšení bezpečnosti  platformě nezávislý (java aplikace)  kvalitní a rychlá podpora vývojářů z Internet Archive  open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji  v nejnovější verzi vylepšena ochrana před pádem do pastí  nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně  HDFS Writer Processor – zápis do Hadoop filesystému

SDRUK-IT Akvizice - DeDuplicator  Modul pro Heritrix  Snaží se detekovat duplikáty ještě před jejich stažením  Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).  formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

SDRUK-IT Akvizice – WEB CURATOR TOOL  nástroj pro správu sklízení  první verze uvolněna v září 2006  vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu.  umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní  výborná podpora uživatelských oprávnění  nepodporuje inkrementální sklízení  multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).  nekonzistentní konfigurace, částečně odlišný workflow

SDRUK-IT

SDRUK-IT Akvizice – deep web - DeepArc

SDRUK-IT Indexace – Nutch, NutchWAX Nutch vyhledávací engine, podpora A9 search  volně dostupný modulární vyhledávací engine, podpora A9 search  umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX  nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko  Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)

SDRUK-IT WERA - WEb aRchive Access  spolupráce konsorcia IIPC, Internet Archive a NWA  využívá hlavní části NWA Toolset  velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu)  výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL  zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy  archivované dokumenty a WERA propojeny skrz index NutchWAXe  Problémy s javascriptem v některých stránkách  Vývoj ukončen, přechod na Wayback

SDRUK-IT WAYBACK  Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu  Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci  Režimy zpřístupnění:  Archival URL = úprava odkazů na stránce (link zpět do archivu)  Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox)  Timeline = časová osa, zatím experimentální  Připravuje se podpora fulltextového vyhledávání a lokalizace

SDRUK-IT WAXToolbar Plugin pro firefox (do verze 1.9) Spolupracuje s Wayback v proxy režimu

SDRUK-IT XInq XML INQuiry Search and browse tool for accessing an XML database

SDRUK-IT Děkuji za pozornost!