Projekt RAINBOW vícecestná extrakce informací z webu Vojtěch Svátek Seminář KEG, 6.11.2002.

Slides:



Advertisements
Podobné prezentace
Webové služby nad IS/STAG 1 / 21 Seminář IS/STAG Kunžak 2008 Seminář IS/STAG – Kunžak 2008 Webové služby nad IS/STAG Lukáš Valenta.
Advertisements

© 2000 VEMA počítače a projektování spol. s r. o..
Nový přístup k aplikacím Vema
Překlad Bath profilu 2.0 Martin Vojnar
Integrovaný systém kvality v dalším profesním vzdělávání KVALITA V DALŠÍM VZDĚLÁVÁNÍ Liberec,
Iva Horová: Zpráva Komise eVŠKP za rok , Ostrava Biblioteca Academica Zpráva o činnosti za rok 2007 Odborná komise pro otázky elektronického.
Stručný úvod do UML.
ECVET v Programu celoživotního učení
Rozšíření systému pro zátěžové testy o SOAP a agenty Zbyněk Pyšný.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
Quo vadis, KEG? Zamyšlení nad vznikem a budoucností “Knowledge Engineering Group”na VŠE Praha V. Svátek, září 2003.
Volný čas a kultura Kultura pro děti a kultura dětí.
11 Procesy a procesní řízení 22 Další charakteristiky procesu má svého vlastníka (osoba odpovídající za zlepšování procesu) má svého zákazníka (interního.
SFX Funkcie systému Ing. Lukáš Budínský. 2 Pracovní setkání Metalib/SFX – Obsah prezentace SFX Představení technologie Hlavní přínosy Nadstavbové.
Informační systémy podnikové systémy CRM
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Audit IT procesů ve FNOL
Bakalářský seminář Úvod BP Závěr BP.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
SEO SEO Optimalizace webových stránek pro vyhledávače Jan Nemrava, KIZI, FIS VŠE
Fond Vysočiny Celkový objem finančních prostředků Fondu Vysočiny – 81,4 mil Kč Dílčí cíl Programu rozvoje kraje – 3.2 Podpora rozvoje telekomunikačních.
Povodňový informační systém Ing
11. Trendy ve vývoji aplikací, podporujících podnikové procesy
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Rozšíření jednouživatelské verze IS na víceuživatelskou Prezentace Diplomové práce Autor : Libor Tomášek Spoluautoři : Pobucký M., Drábek L. Vedoucí :
Systémy pro podporu managementu 2
Absolventská práce 2002 Aplikace XML rozhraní v prostředí krajského úřadu Autor : Marek Cop Vedoucí : Ing. Petr Pavlinec 2002.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
CZ / /0048 Centrum pro transfer technologií Technologické centrum AV ČR SSŠ AV ČR, VŠE, VŠCHT, ÚPV, ZeNTIVA, a.s., ČKD Nové Energo, a.s.
R VY a Aplikovaná informatika Aplikovaná informatika Prezentace studijních oborů 2013.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Jazyk PHP Programovací jazyk PHP (Hypertext preprocessor) je skriptovací jazyk, který běží na straně serveru. KLIENT - SERVER Server posílá do vašeho počítače.
Dokumentace objektů a zveřejnění funkcí
Výukový materiál zpracovaný v rámci projektu Označení:Sada: Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_MAM_KC_1_11.
1 „ Kdo za to může – kompletní vzdělávání pro přípravu a realizací projektu z PRV“
WWW – hypertextový informační systém
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Možnosti uchovávání časových sérií rastrových dat a jejich metadat v nich Bakalářská práce Zpracovatel : Pavel Ševčík Vedoucí práce : Ing.Antonín Orlík.
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Projekt A5 Nástroje informatiky pro získávání informací a jejich zpracování.
organizační struktury Implementace EOS III na Olomouckém kraji Pro:Krajský rok informatiky 2005 Autor:Jan Kadlec Datum:
Portál veřejné správy © 2002 IBM Corporation ISSS 2003 PORTÁL VEŘEJNÉ SPRÁVY PŘEDSTAVENÍ II. ETAPY PROJEKTU Ing. Břetislav Moc IBM Česká republika spol.
Databázové modelování
Informační kulturní portál
Vzdálené počítačové sítě a programování v prostředí Windows Okruhy ke zkoušce z předmětu: Ing. Zdeněk Votruba LVALVA.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
ISSS 2003 Koncept využitelných stávajících datových zdrojů pro Portál veřejné správy ISSS 2003 Krajský úřad Plzeňského kraje Odbor informatiky Václav Koudele.
Návrh modelu řízení ECM v kontextu řízení informatiky Ing. Renáta Kunstová.
C8 – hodnocení kvality výsledků VaV Osnova kurzu C8 – hodnocení kvality výsledků VaV Jana Hančlová Ekonomická fakulta VŠB-Technická univerzita Ostrava.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Publikování prostorových dat na Internetu (prezentace pro VLE Dílna) Ing. Jan Růžička Institut geoinformatiky VŠB-TU Ostrava, HGF tř. 17.listopadu
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
2 Karla Halenková Setkání uživatelů 2001 Báze znalostí produkt pro naplnění uživatelem.
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Moderní informační systémy - úvod do teorie, druhy IS v cestovním ruchu.
Akreditovaný e-learningový kurz Rovné příležitosti žen a mužů Ing. Petr Špindler, RENTEL a.s. Konference „Rovné příležitosti“ MV ČR, Praha,
Datové centrum sociálních služeb v Libereckém kraji Interaktivní softwarový program určený pro poskytovatele sociálních služeb, zadavatele a také pro.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Vyhledávání informací Zdroj: pixabay.com. ÚVODEM  Seznámení  Cíl semináře  Zpětná vazba  Prezentace Vaše zkušenosti?
Dobývání znalostí z databází znalosti
VIKMA06 Rešeršní a studijně rozborová činnost
VIKMA05 Organizace znalostí
Tradiční metodiky vývoje softwaru
Představení Úvod Celé je to pojaté spíše jako představení služby a jejích možností, nežli konkrétní ukázky Lukáš Čochner.
Transkript prezentace:

Projekt RAINBOW vícecestná extrakce informací z webu Vojtěch Svátek Seminář KEG,

Osnova Historie (a prehistorie) projektu Popis současného stavu SWOT analýza projektu Možné směry do budoucna

Historie a prehistorie Prehistorie –studie o inteligentních systémech a Internetu (1998) –metavyhledávací systém VŠEvěd ( ) –experimenty s analýzou URL ( ) Historie –diskuse o vícecestné analýze WWW ( ) –implementace infrastruktury ( ) –“jednoúlohová” aplikace M. Vacury ( ) –experimenty s lingvistickou analýzou ( )

Inteligentní systémy a internet P. Berka, jaro 1998 Studie přístupná na –vyhledávací a metavyhledávací systémy –navigační asistenti –… Východisko pro vlastní vývoj...

Metavyhledávací systém VŠEvěd Webová část realizována skripty v PERLu (M. Sochorová, 1998) –Předání dotazu více vyhledávačům –Extrakce výsledků (“screen-scraping”) “Znalostní” sloučení a přeuspořádání výsledků realizováno v CLIPS (P. Berka, 1999) –uspořádání podle “relevance” –seskupení podle kategorií (ne tématických, ale “typů” stránek!) –doplnění z vlastní báze “případů”

VŠEvěd - vstupní obrazovka

VŠEvěd - výstupní obrazovka

Analýza URL Původně vyvinuta pro seskupování ve VŠEvědu, aplikace v CLIPS (P. Berka) Sleduje výskyt řetězců v jednotlivých částech URL (zvl. “directory” a “filename”) Frekvenční analýza řetězců v rozsáhlém souboru URL; rozpoznávání oddělovačů (V. Svátek) Desambiguace řetězců typu “art”, “pub”..., pomocí dalších informací z vyhledávače (induktivní logické programování - M. Kavalec)

Pravidla pro analýzu URL (defrule type-info-o-firmach-2 (declare (salience 500)) ?f <- (html (type1 "") (path "/") (filewords $?wpred ?w $?wpo)) (test (lexemep ?w)) (or (test (numberp (str-index "home" ?w))) (test (numberp (str-index "main" ?w))) (test (eq "welcome" ?w)) (test (numberp (str-index "intro" ?w))) (test (numberp (str-index "info" ?w))) (test (numberp (str-index "site" ?w))) (test (numberp (str-index "about" ?w))) (test (numberp (str-index "vitej" ?w))) ) => (modify ?f (type1 "Informace o firmach a institucich")))

Rozšíření záběru... Analýza URL a výstřižku někdy překvapivě úspěšná, má však vždy meze... Analýza plného obsahu stránek zajímavější, ovšem pomalejší  přechod od metavyhledávacího přístupu k off-line analýze, zvl. celých websites! Zpočátku velmi “bezbřehé ” úvahy...

RAINBOW - hlavní principy Oddělená analýza různých typů dat –URL: řetězce v jednoduché lineární struktuře –HTML: stromová struktura elementů + atributy –metadata (META, RDF): slova a fráze v částečně formalizované struktuře –volný text: struktura vět přirozeného jazyka –odkazová struktura: orientovaný graf –obrázky: bitové mapy (histogramy) atd.

RAINBOW - hlavní principy (2) Předávání zpráv mezi nezávislými moduly –technologie webových služeb (WSDL,SOAP) –model “objekt-třída-obsah” Základní operace: –vyhledání objektu –určení třídy objektu –extrakce textového obsahu objektu

RAINBOW - scénář použití Extrakce “implicitních metadat” o firmě a její nabídce zboží/služeb: –Analýza URL a topologie navede na stránku s cílovými informacemi –Analýza HTML, metadat a volného textu detekuje a oklasifikuje cílové informace Efektivní práce předpokládá propojení s primárním vyhledávačem (podle klíčových slov)

Implementace (jaro 2002) Stahování, konverze, ukládání a poskytování zdrojových dat (J. Kosek) Komunikační infrastruktura (J. Kosek) Analýza volného textu - extrakce vět (M. Kavalec) Extrakce obsahu META tagů (P. Kupka) Vizualizace výsledků (J. Kosek)

Vizualizace výsledků

Další výstupy z projektu Metoda učení “indikativních termínů” ve větě, využívá webový adresář (M. Kavalec, V. Svátek) Formální ontologie webových objektů (V. Svátek) Soubor programů pro vícecestné rozpoznávání pornografie na WWW (M. Vacura) Typologie zajímavých struktur v kódu HTML (J. Klemperer) DP o možnostech analýzy topologie odkazů (M. Sajal)

SWOT Analýza (S) Problematika vnímána jako aktuální –využití redundance informací na WWW –možnost flexibilního vývoje z komponent Získán široký přehled o souvisejícím výzkumu ve světě, navázány kontakty Přiměřeně velký a vyvážený tým –znalostní inženýrství (ontologie, PSM, IE) –datové inženýrství (značkovací jazyky, webové technologie) –strojové učení a data mining

SWOT Analýza (W) Neexistuje (zatím) jednotící teorie Reálně implementována jen velmi malá část Chybí grantová podpora (?) Chybí potenciální “zákazník”, otázka je, zda se v tuzemsku někdy najde... –většina problémů se asi dá s přijatelnou kvalitou řešit běžnými prostředky...

SWOT Analýza (O) Možnost vzniku mezinárodních publikací a slušně vypadajících disertací (a diplomek) Aktivní zapojení do mezinárodních grantů včetně finančního přínosu

SWOT Analýza (T) Soubor nesystematických ad hoc řešení, tudíž bez vědeckého přínosu Řešení “od zeleného stolu”, odtržené od reality Řešení nekompatibilní s používanými standardy Vývoj tak zdlouhavý, že se mezitím podoba internetu zásadně změní

Navrhované další kroky Vytvoření referenčního vzorku dat, učení a/nebo ověřování dílčích bází znalostí na nich Slučování ontologií na podkladě referenčních dat Popsání reálných scénářů extrakce informací pomocí abstraktního modelu Využívání zkušeností a nástrojů nad XML/RDF Propojení se “standardním” fulltextovým systémem (AmphorA, VŠB-TU Ostrava) Vybudování solidní teorie pro část problematiky

Další informace “Oficiální” stránka projektu RAINBOW resp. vč. plných textů publikovaných článků Diplomka J. Koska vč. dokumentace k implementaci a návodu pro vývoj dalších komponent