Pořádání a vyhledávání informací Helena Kučerová kucerova@sks.cz Obsah kurzu: teoretické principy procesy metody, techniky, pravidla standardy systémy PVI UISK – PVI 01
Proč pořádat informace a znalosti? Více než 20 % pracovní doby znalostních pracovníků je věnováno vyhledávání informací. 62 % z nich je nespokojeno s výsledky vyhledávání. Zdroj: Studie Delphi Group, 2004 Podstatnou část práce „znalostních“ profesí představuje vyhledávání informací UISK – PVI 01
Pořádání a vyhledávání informací a znalostí aneb… Organizace informací / znalostí (knowledge organization) Reprezentace znalostí (knowledge representation) Konceptuální (pojmové) modely Indexování, klasifikace, taxonomie Systémy organizace informací / znalostí (knowledge organization systems – KOS) Selekční jazyky Informační architektura Ontologie Search – retrieval Organizace znalostí = preferovaný termín pro tento kurz Paradox: Terminologie organizace znalostí je málo „organizovaná“ UISK – PVI 01
Pořádání znalostí a 3 světy K. R. Poppera širší (sociální) pojetí ČNB1 ČNB2 Wikipedie svět 1 svět 2 svět 3 užší pojetí (dokumenty) identifikační popis věcné pořádání UISK – PVI 01
Jsou „knihovnické“ znalosti v éře Googlu relevantní? folksonomie UISK – PVI 01
UISK – PVI 01
UISK – PVI 01
Rekapitulace Základní principy organizace Organizace = pořádek místo chaosu (entropie) Princip pořádku = ekvivalence Organizace = analyticko–syntetický proces: oddělení rozdílného, spojení stejného (kategorizace, klasifikace) Podobnost se systémovým přístupem UISK – PVI 01
Důležité pojmy kategorie kritérium členění ekvivalence UISK – PVI 01
Základní princip organizace - ekvivalence podobné (stejné, ekvivalentní) věci se seskupují, rozdílné věci se oddělují Ekvivalence? ekvivalence identita Ne úplná totožnost (na světě nejsou dvě zcela identické věci), ale totožnost vybraných aspektů. UISK – PVI 01
Které věci jsou ekvivalentní? objektivní ty, které jsou složeny ze stejných částí ty, které mají stejnou sadu atributů ty, jejichž atributy mají stejné hodnoty ty, mezi jejichž atributy panují stejné vztahy ale i ty, které se stejně jmenují ty, které za ekvivalentní považujeme obsah Ty, které jsou složeny ze stejných částí: pneumatiky – motor – karosérie: traktor, motocykl, osobní automobil, autobus… Ty, které mají stejnou sadu atributů: hmotnost – cena – trvanlivost: zboží v prodejně Ty, jejichž atributy mají stejné hodnoty: všechny žluté košile za 750 Kč k dodání do 1 týdne (barva – cena – dodací podmínky) „Ty, které se stejně jmenují“ – formální určení ekvivalence „Ty, které za ekvivalentní považujeme“ – subjektivní, arbitrární určení ekvivalence forma subjektivní UISK – PVI 01
Kategorie též: třída, typ, taxon, pojem, entita, množina, klastr, topik (námět, topic), klasifikátor (classifier) skupina materiálních nebo abstraktních objektů, procesů či událostí, jež považujeme z určitého pohledu nebo pro daný účel za ekvivalentní kognitivní a lingvistický model umožňující využít existující znalosti v nových situacích a rozpoznat instance nebo události UISK – PVI 01
Kategorizace (třídění, klasifikace) jedna z forem analýzy rozdělení předmětů a jevů do skupin a podskupin podle jejich vzájemné shody a odlišnosti kritérium členění (principium divisionis, order principle, filing criterion / principle, criterion of distinction) atribut, na základě jehož hodnot se třídí UISK – PVI 01
Typy kategorizace (určování ekvivalence) 1) „zevnitř“, objektivně, analýzou obsahu, (vnitřní) struktury (co jsme zjistili) atributy a jejich hodnoty náročné na inteligenci 2) „zvenčí“, subjektivně, podle „povrchu“, formy (co vidíme) názvy, metadata lze automatizovat (svěřit počítači) UISK – PVI 01
Jak označit kategorie? Název Symbol (např. obrázek, zvukový signál) Definice Název / symbol , který „zastřešuje“ obsažené prvky Název / symbol typického reprezentanta obsažených prvků Účel obsažených prvků (úloha, kterou mají pomoci řešit / otázka, na kterou mají dát odpověď) Pojmenování typického uživatele obsažených prvků Souvislost s teorií kategorizace – Lakoff, Rosch, Wittgenstein UISK – PVI 01
Organizace je… Činnost (proces) Produkt (struktura + metadata) Příklad metadat: Výsledky Sčítání lidu, domů a bytů 2011 UISK – PVI 01
Základní principy organizace informací Organizace = (nepovinný) zpracovatelský proces Cíl: přizpůsobit informaci uživateli Výstup: transformovaná (změněná) informace Zpracování informací přináší následující efekty „ospravedlňující“ náklady na zpracovatelský proces: zvýšení hodnoty umožnění komunikace (v čase, v prostoru) usnadnění přístupu k nim UISK – PVI 01
Základní principy organizace informací Usnadnění přístupu = nalezitelnost, srozumitelnost, využitelnost Nalezitelnost (findability) = klíčový důvod pro organizaci informací UISK – PVI 01
Organizované a neorganizované informace Přínos organizace informací: srozumitelnost nalezitelnost UISK – PVI 01
Procesy přístupu k informaci UISK – PVI 01
Procesy přístupu k informaci UISK – PVI 01
Procesy přístupu k informaci Čím více úsilí věnujeme organizaci informací, tím méně ho budeme muset vynaložit při jejich vyhledávání – a naopak. UISK – PVI 01
Procesy přístupu k informaci – sociální a citační sítě UISK – PVI 01
Vyhledávání – od hledání známého po objevování neznámého: search browse discover UISK – PVI 01
Způsoby vyhledávání podle Morvilla a Rosenfelda The right thing, or known item seeking (search) Exploratory search (browse) Exhaustive research (search and browse) I’ve seen you before, or re-finding Once upon a time, some or all of these activities would have been carried out by the information specialist who knew their way around the thesaurus or other specialist finding aid. Now it’s all of us, and so we need tools to help us get to the information we need. Zdroj: MORVILLE, Peter a ROSENFELD, Louis. Information architecture for the World Wide Web: designing large-scale web sites. 3. ed. Sebastopol: O'Reilly, 2006, s. 35. UISK – PVI 01
UISK – PVI 01
Podstata organizace informací UISK – PVI 01
Podstata organizace informací UISK – PVI 01
Podstata organizace informací UISK – PVI 01
Tvůrci metadat autoři dokumentů (autorské resumé, META tag, TEI header...) jiné subjekty (zprostředkovatelé) správci souborů (katalogizátoři) ostatní (specializované instituce) čtenáři, (koncoví) uživatelé počítačové programy UISK – PVI 01 30
tvůrci metadat výhody nevýhody lidé autoři informací rychlost nezvyšují se náklady subjektivita nejednotnost koncoví uživatelé /čtenáři časový odstup od publikování zprostředkovatelé / agenti objektivita jednotnost vyšší náklady počítačové programy obtížnost algoritmizace tvorby metadat UISK – PVI 01
Uživatelé metadat koncový uživatel zprostředkovatel (agent) člověk počítačový program UISK – PVI 01
Systémy organizace informací UISK – PVI 01
Systémy organizace informací Zdroj: SOUZA, Renato Rocha, TUDHOPE, Douglas a ALMEIDA, Maurício Barcellos. Towards a taxonomy of KOS: dimensions for classifying knowledge organization systems. Knowledge organization. 2012, vol. 39, no. 3, s. 181. ISSN 0943–7444 UISK – PVI 01
Ekvivalenci vyjádříme: umístěním označením (pojmenováním) UISK – PVI 01
Ekvivalence (1) umístěním a (2) označením 1984 ORWELL, George. 1984. 1. vyd. Praha: Naše vojsko, 1991. 268 s. ISBN 80-206-0256-9 (1) (2) Co znamená (do jaké kategorie zařadíme) „1984“? Název Rok vydání Cena Počet stran UISK – PVI 01
UISK – PVI 01
UISK – PVI 01
Organizace informací a znalostí v životním cyklu informace UISK – PVI 01
Archivy, knihovny a muzea UISK – PVI 01
UISK – PVI 01
UISK – PVI 01
UISK – PVI 01
UISK – PVI 01
Ekvivalence obsahu prvky mají stejný význam synonymie formy prvky mají stejný vzhled nebo stejnou strukturu homonymie UISK – PVI 01 45
Jaká ekvivalence? 3 4 5 Příklad: srovnávání cen zboží v e-shopech 6 7 Otázka: Jak pozná počítačový program, které objekty jsou ekvivalentní? 8 9 UISK – PVI 01 46
Typologie atributů vnitřní (vlastní, přirozený, intrinsic) vnější (zevní, cizí, přidělený, extrinsic) statický (neměnný v čase) dynamický (proměnlivý v čase) popisný (forma) obsahový kontextový (vztah) podstatný nepodstatný UISK – PVI 01 47
Rekapitulace Pořádání znalostí a 3 světy K. R. Poppera širší (sociální) pojetí svět 1 svět 2 svět 3 užší pojetí (dokumenty) identifikační popis věcné pořádání
Jsou „knihovnické“ znalosti v éře Googlu relevantní? folksonomie UISK – PVI 02
Organizace je… Činnost (proces) Produkt (struktura + metadata) Příklad metadat: Výsledky Sčítání lidu, domů a bytů 2011 UISK – PVI 02
Základní principy organizace informací Organizace = (nepovinný) zpracovatelský proces Cíl: přizpůsobit informaci uživateli Výstup: transformovaná (změněná) informace Zpracování informací přináší následující efekty „ospravedlňující“ náklady na zpracovatelský proces: zvýšení hodnoty umožnění komunikace (v čase, v prostoru) usnadnění přístupu k nim UISK – PVI 02
Základní principy organizace informací Usnadnění přístupu = nalezitelnost, srozumitelnost, využitelnost Nalezitelnost (findability) = klíčový důvod pro organizaci informací UISK – PVI 02
Organizované a neorganizované informace Přínos organizace informací: srozumitelnost nalezitelnost UISK – PVI 02
Procesy přístupu k informaci UISK – PVI 02
Procesy přístupu k informaci UISK – PVI 02
Procesy přístupu k informaci Čím více úsilí věnujeme organizaci informací, tím méně ho budeme muset vynaložit při jejich vyhledávání – a naopak. UISK – PVI 02
Procesy přístupu k informaci – sociální a citační sítě UISK – PVI 02
Vyhledávání – od hledání známého po objevování neznámého: search browse discover UISK – PVI 02
Způsoby vyhledávání podle Morvilla a Rosenfelda The right thing, or known item seeking (search) Exploratory search (browse) Exhaustive research (search and browse) I’ve seen you before, or re-finding Once upon a time, some or all of these activities would have been carried out by the information specialist who knew their way around the thesaurus or other specialist finding aid. Now it’s all of us, and so we need tools to help us get to the information we need. Zdroj: MORVILLE, Peter a ROSENFELD, Louis. Information architecture for the World Wide Web: designing large-scale web sites. 3. ed. Sebastopol: O'Reilly, 2006, s. 35. UISK – PVI 02
UISK – PVI 02
Podstata organizace informací UISK – PVI 02
Podstata organizace informací UISK – PVI 02
Podstata organizace informací UISK – PVI 02
Tvůrci metadat autoři dokumentů (autorské resumé, META tag, TEI header...) čtenáři, (koncoví) uživatelé jiné subjekty (zprostředkovatelé) správci souborů (katalogizátoři) ostatní (specializované instituce) počítačové programy UISK – PVI 02 64
tvůrci metadat výhody nevýhody lidé autoři informací rychlost nezvyšují se náklady subjektivita nejednotnost koncoví uživatelé /čtenáři časový odstup od publikování zprostředkovatelé / agenti objektivita jednotnost vyšší náklady počítačové programy obtížnost algoritmizace tvorby metadat UISK – PVI 02
Uživatelé metadat koncový uživatel zprostředkovatel (agent) člověk počítačový program UISK – PVI 02
Systémy organizace informací UISK – PVI 02
Systémy organizace informací Zdroj: SOUZA, Renato Rocha, TUDHOPE, Douglas a ALMEIDA, Maurício Barcellos. Towards a taxonomy of KOS: dimensions for classifying knowledge organization systems. Knowledge organization. 2012, vol. 39, no. 3, s. 181. ISSN 0943–7444 UISK – PVI 02
Ekvivalenci vyjádříme: umístěním označením (pojmenováním) UISK – PVI 02
Ekvivalence (1) umístěním a (2) označením 1984 ORWELL, George. 1984. 1. vyd. Praha: Naše vojsko, 1991. 268 s. ISBN 80-206-0256-9 (1) (2) Co znamená (do jaké kategorie zařadíme) „1984“? Název Rok vydání Cena Počet stran UISK – PVI 02
UISK – PVI 02
UISK – PVI 02
Organizace informací a znalostí v životním cyklu informace UISK – PVI 02
Archivy, knihovny a muzea UISK – PVI 02
UISK – PVI 02
UISK – PVI 02
UISK – PVI 02
UISK – PVI 02
Paradigmata organizace znalostí 19.–20. století 21. století 1 industriální ekonomika znalostní ekonomika idea národního státu globalizace, multikulturalismus 2 lineární komunikace v informačním systému síťový model komunikace v datových, dokumentových a sociálních sítích tištěné dokumenty elektronické dokumenty statické dokumenty / záznamy jednotlivá fakta (linked data) 3 uchování, ochrana dokumentů přístup k dokumentům /informacím (dostupnost) výběr kvality (filtrování) informační zahlcení, problém důvěryhodnosti technologický přístup (know-how) vědecký přístup (know-why) hledání jednoho „dokonalého“ systému organizace propojení (interoperabilita) stávajících systémů 4 paměťové instituce (knihovny, archivy, muzea) všechny typy institucí, orientace na nejširší veřejnost (laicizace, crowdsourcing, folksonomie) UISK – PVI 02 79
Ekvivalence obsahu prvky mají stejný význam synonymie formy prvky mají stejný vzhled nebo stejnou strukturu homonymie UISK – PVI 02 80
Jaká ekvivalence? 3 4 5 Příklad: srovnávání cen zboží v e-shopech 6 7 Otázka: Jak pozná počítačový program, které objekty jsou ekvivalentní? 8 9 UISK – PVI 02 81
Typologie atributů vnitřní (vlastní, přirozený, intrinsic) vnější (zevní, cizí, přidělený, extrinsic) statický (neměnný v čase) dynamický (proměnlivý v čase) popisný (forma) obsahový kontextový (vztah) podstatný nepodstatný UISK – PVI 02 82
Co se organizuje? Věci Informace analogové digitální o informaci o věci Rekapitulace z UIM analogové digitální UISK – VPIZ 03
Jednotka organizace informací / znalostí UISK – VPIZ 03
Úrovně organizace informací a znalostí makroúroveň = granularita mikroúroveň UISK – VPIZ 03
Přístupy k organizaci znalostí top–down klasifikace hierarchické Aristoteles Jan Amos Komenský Carl von Linné Francouzští encyklopedisté Dimitrij Ivanovič Mendělejev Melvil Dewey Mezinárodní desetinné třídění bottom–up kategorizace síťové Wikipedia Open Directory Project (dmoz) folksonomie YouTube Flicker.com del.icio.us Facebook sémantický web Bottom-up: od instance ke kategorii Top-down: od kategorie k instanci Doplnit: middle-out – od nejdůležitějších pojmů „vzhůru“ ke kategoriím a „dolů“ k instancím
Principy organizace Závislost času a prostoru: uspořádáním věcí v prostoru určujeme čas, potřebný k přístupu k nim. Reciproční vztah organizace / vyhledávání Nalezitelnost věcí podporují metadata. Ekvivalenci věcí lze vyjádřit kolokací nebo označením (pojmenováním). Jeden soubor (množinu) věcí lze uspořádat různými způsoby: podle různých kritérií členění s uplatněním různé míry granularity (podrobnosti členění). + ekvivalence? UISK – VPIZ 03
Metafory uspořádání věcí v prostoru: seznam, kartotéka, index UISK – VPIZ 03
Metafory uspořádání věcí v prostoru: seznam, kartotéka, index UISK – VPIZ 03
Index UISK – VPIZ 03
Neorganizovaná data 1. Co má půjčené který čtenář? 2. Které knihy jsou půjčené a komu? 3. Které výpůjčky byly realizovány v určitém dni? UISK – VPIZ 03
Kartotéky evidence výpůjček v knihovně Řešení vícehlediskového přístupu duplikací celých souborů 1. 2. 3. Co má půjčené který čtenář? Které knihy jsou půjčené a komu? Které výpůjčky byly realizovány v určitém dni? UISK – VPIZ 03
Kartotéky a indexy výpůjček v knihovně Řešení vícehlediskového přístupu pomocí indexů 1. 2. 3. UISK – VPIZ 03
Problémy spojené s organizací informací a znalostí 1) Obtížné určování efektivnosti 2) Subjektivnost v chápání obsahu/potřeby informace 3) Proměnlivost obsahu/potřeby informace v čase 4) Závislost na (přirozeném) jazyce 5) Závislost na kulturním kontextu 6) Pragmatický aspekt organizace versus teoretické principy 7) Znalostní ekonomika 8) Přechod od „papírových“ dokumentů k elektronickým 9) Informační zahlcení 10) Důvěryhodnost UISK – VPIZ 03
Problémy kolokace a označování / pojmenování Fyzické omezení prostoru: 1) Stejné věci („jedna věc“) jsou na jednom místě. 2) Na jednom místě může být v jednom časovém okamžiku vždy jen jedna věc. Sémantické problémy označování: 1) Pro jednu věc může být více označení 2) Jedno označení může být použito pro více věcí + ekvivalence? UISK – VPIZ 03
Reprezentace informací v počítači Znak (character) jakýkoli symbol reprezentující písmeno abecedy, číslici nebo jiný znak, včetně interpunkce, mezer a diakritických znamének LATINSKÉ MALÉ PÍSMENO C S HÁČKEM (LATIN SMALL LETTER C WITH CARON) – 14/08 – U+010D – E8 glyf, font vizuální reprezentace grafického znaku Název: LATINSKÉ MALÉ PÍSMENO C S HÁČKEM (LATIN SMALL LETTER C WITH CARON) bitová kombinace: 14/08 identifikátor: U+010D Hex: E8 ch – 1 znak (čeština), 2 znaky (angličtina) ch UISK – VPIZ 03
Fasetová kategorizace / klasifikace = multikriteriální přístup faseta (facet): jedno konkrétní použité kritérium členění Z lat. facies = tvář UISK – VPIZ 03
Fasetová kategorizace / klasifikace 1 téma členěné podle více hledisek více kategorizací / klasifikací pro 1 téma účel materiál UISK – VPIZ 03
Fasety v rozvrhu VOŠIS UISK – VPIZ 03 Kolik faset je použito na této stránce? UISK – VPIZ 03
SWOT analýza − vícekriteriální přístup strengths silné stránky opportunities příležitosti weaknesses slabé stránky threats hrozby S – W – O – T = kategorie UISK – VPIZ 03
SWOT analýza − vícekriteriální přístup faseta „vnější – vnitřní“ vnitřní faktory vnější faktory strengths silné stránky opportunities příležitosti weaknesses slabé stránky threats hrozby S – W – O – T = kategorie UISK – VPIZ 03
SWOT analýza − vícekriteriální přístup faseta „vnější – vnitřní“ vnitřní faktory vnější faktory + strengths silné stránky opportunities příležitosti − weaknesses slabé stránky threats hrozby faseta „kladný – záporný“ S – W – O – T = kategorie UISK – VPIZ 03
Harold Dwight Lasswell 1902 – 1978 fasetový pohled na sociální komunikaci: „Kdo říká co komu jak s jakým výsledkem?“ Kdo Co Komu Jak Výsledek UISK – VPIZ 03 103
Multidimensional Management and Development of Information Systems A znovu fasety 1) fáze rozvoje IS podniku globální podniková strategie (GST) informační strategie (IST) úvodní studie (US) globální analýza a návrh (GAN) detailní analýza a návrh (DAN) implementace (IM) zavádění systému (ZA) provoz a údržba (PU) vyřazení systému (VY) 2) obsahové dimenze funkce/procesy (PRO) data/informace (INF) organizační a legislativní aspekty (ORG) pracovní, sociální a etické aspekty – aspekty lidských zdrojů (PRA) software (SW) hardware (HW) uživatelské rozhraní (UR) bezpečnost (BE) ekonomické a finanční aspekty (EKO) UISK – VPIZ 03
Fasetová klasifikace složených témat 1) bez faset navzájem nezávislá složená témata 2) s fasetami tzv. semantic factoring (sémantický rozklad, analýza) faseta objektů faseta činnosti historie automobilu automobil historie údržba automobilu motocykl údržba výroba automobilu výroba historie motocyklu údržba motocyklu výroba motocyklu UISK – VPIZ 03
Co se organizuje? hmotné věci nehmotné věci UISK – VPIZ 03 Rekapitulace z UIM UISK – VPIZ 03
Analogové a digitální věci merchandising Kde vzít pravidla pro organizaci digitálních věcí? http://www.mlp.cz/cz/projekty/on-line-projekty/knizky-nejen-do-skoly/
Analogové a digitální věci merchandising knihovnictví Kde vzít pravidla pro organizaci digitálních věcí? http://www.mlp.cz/cz/projekty/on-line-projekty/knizky-nejen-do-skoly/ 108108 UISK – VPIZ 03
Analogové a digitální informace Chamurappiho zákoník, 1791-1750 př. n.l. Louvre, Paříž. Výška 225 cm.
Analogová a digitální metadata 7,5 x 12,5 cm Granularita – podrobnost členění Metadata v knihkupectví Amazon UISK – VPIZ 03
Kde vzít pravidla pro organizaci digitálních informací / znalostí? Příklad „svět 1“ – organizace fyzických věcí „svět 2“ – organizace znalostí v mysli „svět 3“ – organizace „nehmotných“ věcí v minulosti klasifikace věd logika, teorie množin lingvistika informační věda /archivnictví / muzeologie softwarové inženýrství UISK – VPIZ 03
Vztahy ekvivalence hierarchie asociace obsahu formy generická (rod – druh) partitivní (celek – část) třída – instance (obecné – individuální) asociace sekvenční (prostor, čas) příčinná … UISK – VPIZ 03
UML Unified modeling language Třída (kategorie) Instance (prvek) UISK – VPIZ 03
Rekapitulace Které věci jsou ekvivalentní? objektivní ty, které jsou složeny ze stejných částí ty, které mají stejnou sadu atributů ty, jejichž atributy mají stejné hodnoty ty, mezi jejichž atributy panují stejné vztahy ale i ty, které se stejně jmenují ty, které za ekvivalentní považujeme obsah Ty, které jsou složeny ze stejných částí: pneumatiky – motor – karosérie: traktor, motocykl, osobní automobil, autobus… Ty, které mají stejnou sadu atributů: hmotnost – cena – trvanlivost: zboží v prodejně Ty, jejichž atributy mají stejné hodnoty: všechny žluté košile za 750 Kč k dodání do 1 týdne (barva – cena – dodací podmínky) „Ty, které se stejně jmenují“ – formální určení ekvivalence „Ty, které za ekvivalentní považujeme“ – subjektivní, arbitrární určení ekvivalence forma subjektivní UISK – VPIZ 03
Jaký typ ekvivalence? (1) Studenti ÚISK (2) Tramvaje pražské MHD (3) Zboží na regále „v akci“ části atributy názvy kniha – časopis – webová stránka – email (zpráva) – webové sídlo UISK – VPIZ 03
Ekvivalence obsahu / formy (1) (2) (3) UISK – VPIZ 03
(Generická) hierarchie rod (genus) generalizace, abstrakce, zobecnění specializace, taxonomie druh (species) UISK – VPIZ 03
(Partitivní) hierarchie celek agregace, kompozice část UISK – VPIZ 03
Asociace Obecný sémantický vztah UISK – VPIZ 03