Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vysoká škola ekonomická v Praze Extrakce informací z webových stránek pomocí extrakčních ontologií Martin Labský Vysoká škola ekonomická v Praze Fakulta.

Podobné prezentace


Prezentace na téma: "Vysoká škola ekonomická v Praze Extrakce informací z webových stránek pomocí extrakčních ontologií Martin Labský Vysoká škola ekonomická v Praze Fakulta."— Transkript prezentace:

1 Vysoká škola ekonomická v Praze Extrakce informací z webových stránek pomocí extrakčních ontologií Martin Labský Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra inf. a znalostního inženýrství Disertační práce Obor: Informatika Školitel: Prof. Ing. Petr Berka, CSc.

2 Extrakce informací z webových stránek pomocí extrakčních ontologií 2 Agenda  Extrakce informací  Motivace, cíle a obsah disertační práce  Rozšířené extrakční ontologie –kombinace tří typů extrakčních znalostí –návrh jazyka EOL a implementace interpretu –algoritmy extrakčního procesu  Popis experimentů –oznámení o seminářích –kontaktní informace z webových stránek –popisy produktů  Závěry

3 Extrakce informací z webových stránek pomocí extrakčních ontologií 3 Extrakce informací – příklady aplikací  Nalézt v dokumentech údaje předem definovaného sémantického typu Seminář místo ? řečník ? začátek ? konec ? Extrakce informací

4 Extrakce informací z webových stránek pomocí extrakčních ontologií 4 Extrakce informací – příklady aplikací Extrakce informací

5 Extrakce informací z webových stránek pomocí extrakčních ontologií 5 Využití extrakce informací  Strukturované vyhledávání –hledání dle parametrů (např. výrobku) –disambiguace při vyhledávání (Jaguar, Johnsson)  Urychlení navigace v dokumentech –zvýraznění relevantních informací pro určitou úlohu  Automatické zodpovídání otázek –jaké je hlavní město...  Podpora automatického překladu –identifikace a nepřekládání jmen (Jan Kovář)  Podpora posuzování kvality webových stránek –např. zda medicínské stránky splňují formální kritéria jako je uvedení kontaktních informací Extrakce informací

6 Extrakce informací z webových stránek pomocí extrakčních ontologií 6 Automatická extrakce informací  Alternativou je ruční anotace dokumentů jejich autory –např. FOAF (Friend Of A Friend) –k dispozici pouze výjimečně, navíc nemusí obsahovat potřebné informace –anotace může být (i záměrně) nepravdivá  Automatická extrakce informací –rychlé pokrytí velkého počtu dokumentů –využívá různé typy extrakčních znalostí –spolehlivost závisí na obtížnosti úlohy, zvolených algoritmech a jimi využitých extrakčních znalostech Extrakce informací

7 Extrakce informací z webových stránek pomocí extrakčních ontologií 7 Agenda  Extrakce informací  Motivace, cíle a obsah disertační práce  Rozšířené extrakční ontologie –kombinace tří typů extrakčních znalostí –návrh jazyka EOL a implementace interpretu –algoritmy extrakčního procesu  Popis experimentů –oznámení o seminářích –kontaktní informace z webových stránek –popisy produktů  Závěry

8 Extrakce informací z webových stránek pomocí extrakčních ontologií 8 Motivace  Manuální přístupy –řízení báze znalostí o mnoha extrakčních pravidlech je pro člověka obtížné –není snadné využít případná trénovací data  Trénované přístupy –často vyžadují velké množství trénovacích dat, která typicky nejsou pro specifickou úlohu dostupná –po sběru trénovacích dat je obtížné měnit extrakční schéma  Wrappery –využitelné jen pro dokumenty s pevnou formátovací strukturou (např. katalog zboží konkrétní website) –nelze spoléhat na známou formátovací strukturu konkrétních website pro úlohy, kde množina zpracovávaných website není předem dána Motivace, cíle a obsah disertační práce

9 Extrakce informací z webových stránek pomocí extrakčních ontologií 9 Cíle a přínosy disertační práce  Využít tři různé typy znalostí pro extrakci informací z dokumentů –pravidla zadané expertem, –znalosti indukované z trénovacích dat, –pravidelné formátování dokumentů.  Navržení metody extrakčních ontologií a jazyka pro jejich reprezentaci –rychlé prototypování extrakčních aplikací –postupné zlepšování přesnosti a pokrytí přidáním dalších znalostí –snadné změny extrakčního schématu  Implementace prakticky využitelného extrakčního nástroje Ex  Rozšíření extrakce textových položek o extrakci obrázků Motivace, cíle a obsah disertační práce

10 Extrakce informací z webových stránek pomocí extrakčních ontologií 10 Obsah disertační práce 1.Úvod 2.Současný stav extrakce informací 3.Klasifikace obrázků pro účely extrakce informací z webu 4.Extrakce informací pomocí skrytých markovských modelů 5.Rozšířené extrakční ontologie 6.Případové studie s využitím extrakčních ontologií 7.Závěr Motivace, cíle a obsah disertační práce

11 Extrakce informací z webových stránek pomocí extrakčních ontologií 11 Agenda  Extrakce informací  Motivace, cíle a obsah disertační práce  Rozšířené extrakční ontologie –kombinace tří typů extrakčních znalostí –návrh jazyka EOL a implementace interpretu –algoritmy extrakčního procesu  Popis experimentů –oznámení o seminářích –kontaktní informace z webových stránek –popisy produktů  Závěry

12 Extrakce informací z webových stránek pomocí extrakčních ontologií 12 Rozšířené extrakční ontologie  Termín extrakční ontologie zavedl (D.W. Embley, 2002) –metoda pro extrakci strukturovaných záznamů z internetu na bázi ručně zadaných regulárních výrazů  Navržené rozšířené extrakční ontologie –bohatší jazyk pro manuální zadání extrakčních znalostí –využívají navíc trénovací data a nesupervizované rozpoznání pravidelné formátovací struktury –kombinují extrakční znalosti na základě pravděpodobnostního modelu –reprezentovány navrženým a implementovaným jazykem Extraction Ontology Language (EOL) v rámci vyvinutého opensource nástroje Ex Rozšířené extrakční ontologie (ISMIS 2008), (KCAP 2007), (ESWC workshop 2006)

13 Extrakce informací z webových stránek pomocí extrakčních ontologií 13 Zapojení extrakčních znalostí v extrakční ontologii... z trénovacích dat nesupervizované extrakční indicie jiné znalosti manuální p r příznaky značky v místech kde byl atribut klasifikován w1, w2,... příznaky Rozšířené extrakční ontologie

14 Extrakce informací z webových stránek pomocí extrakčních ontologií 14 Kombinace extrakčních indicií  Každá indicie E je vybavena 2 odhady pravděpodobností vzhledem k předpovídanému atributu A: –přesnost indicie p = P(A|E)... míra postačitelnosti –pokrytí indicie r = P(E|A)... míra nutnosti  Každému atributu je přiřazena apriori pravděpodobnost výskytu P(A)  označuje množinu indicií definovaných pro A  Předpokládáme podmíněnou nezávislost indicií v rámci :  Pomocí Bayesova vzorce určíme P(A | hodnoty indicií ve ) takto: kde Rozšířené extrakční ontologie

15 Extrakce informací z webových stránek pomocí extrakčních ontologií 15 Extrakční proces 1/4 1.Předzpracování dokumentu, načtení formátovací struktury 2.Nalezení výskytů vzorů pro obsah a kontext atributů 3.Aplikace trénovaných klasifikátorů, označení jejich predikcí 4.Nalezení výskytů vzorů obsahujích reference na rozhodnutí klasifikátorů 5.Vytvoření kandidátů na hodnoty atributů (AC), nalezení možných koreferencí a skórování AC dle P AC = 6.Vytvoření svazu AC napříč dokumentem, uzly svazu jsou 3 typů:  (ac) obsahují právě jeden AC, (null) prázdné, (bg) na pozadí  uzel má skóre log(P AC ) Washington, DC... O(n) délka dokumentu Rozšířené extrakční ontologie O(|AC|)

16 Extrakce informací z webových stránek pomocí extrakčních ontologií 16 Extrakční proces 2/4 7.Nalezení nejlepší cesty svazem AC  cesta s nejlevnějším součtem skóre uzlů  uzly typu (ac) identifikují extrahované hodnoty atributů  první možný konec extrakce 8.Nesupervizovaná indukce formátovacích vzorů  AC na nejlepší cestě svazem dotázány na jejich formátovací „hnízdo“  „hnízdo“ je sub-strom ve formátovací struktuře dokumentu, obsahující AC, jehož kořen je první blokový element (např. odstavec nebo buňka tabulky)  „hnízdo“ je použito jako nová indícíe pokud jeho četnost a odhad jeho přesnosti (pomocí rel. četností v dokumentu) překročí nastavené prahy O(k |AC|) TD A_hrefB John TD A_hrefB Argentina formátovací „hnízdo“ naučené pomocí správně rozpoznaných jmen pomáhá identifikovat jinak špatně rozpoznatelné atributy O(n |AC|) * Rozšířené extrakční ontologie průměrné větvení svazu

17 Extrakce informací z webových stránek pomocí extrakčních ontologií 17 Extrakční proces 3/4 9.Generování kandidátů na instance tříd (IC)  zdola nahoru postupným seskupováním jednotlivých IC s AC v jejich okolí  prováděno postupně šplháním formátovací strukturou nahoru od rozšiřovaného IC  pro rozšíření vybírán vždy nejlépe skórující IC, rozšířené IC skladovány v uspořádané frontě  řízeno a omezeno ontologií (kardinalita, axiomy a další indicie třídy) a nastavením 10.Skórování IC  Skóre P IC určeno dvěma složkami – na základě skóre obsažených AC a na základě indicií třídy  kde |IC| = počet atributů v IC, AC skip = AC v rozsahu IC který není jejím členem, P AC skip = odhad pravděpodobnosti, že AC je “planý poplach”,  C = množina indicií známá pro třídu C, P(C|E  C ) kombinuje indicie dle stejného modelu jako pro atributy  Obě skóre zkombinovány pseudo-bayesovskou funkcí známou z exp. systému Prospector: výp. až O(n |AC| 2 ) Rozšířené extrakční ontologie prost. až O(n 2 )

18 Extrakce informací z webových stránek pomocí extrakčních ontologií 18 Extrakční proces 4/4 11.Vložení validních IC do původního AC svazu  skóre validních IC finalizováno a IC prořezány dle skóre  každý validní IC je reprezentován novým uzlem, obcházejícím samostatné AC a uzly reprezentující „pozadí“  skóre IC uzlu = 12.Nejlepší cesta AC+IC svazem identifikuje extrahované položky  algoritmus nalezení nejlepší cesty umožňuje definovat různá omezení pro položky na cestě (min/max počet instancí nebo atributů určitého typu)  n-best IC1 IC2 O(n |IC|) O(k (|IC|+|AC|)) Rozšířené extrakční ontologie

19 Extrakce informací z webových stránek pomocí extrakčních ontologií 19 Agenda  Extrakce informací  Motivace, cíle a obsah disertační práce  Rozšířené extrakční ontologie –kombinace tří typů extrakčních znalostí –návrh jazyka EOL a implementace interpretu –algoritmy extrakčního procesu  Popis experimentů –oznámení o seminářích –kontaktní informace z webových stránek –popisy produktů  Závěry

20 Extrakce informací z webových stránek pomocí extrakčních ontologií 20 Experimenty: ová oznámení o seminářích  485 anglických ových oznámení o seminářích na Carnegie-Melon University.  Manuální EO: vytvořena člověkem na základě 50 náhodně vybraných dokumentů, testována na zbývajících 435 dokumentech.  Kombinovaná EO: stejná ontologie vybavená CRF klasifikátorem. Pro atribut Location jsou manuální indicie použity jen jako příznaky klasifikátoru, pro ostatní atributy jsou manální indicie plně zapojeny. 10-násobná křížová validace na testovací sadě 435 dokumentů. manuální EO, testovací datakombinovaná EO, 10-CVshrnutí atributpřesnostúplnostF-mírapřesnostúplnostF-mírarozdíl Fpočet entit Speaker – loose Location – loose Start time – loose End time – loose Celkem – loose Popis experimentů (KI 2008 – Ontology-based Information Extraction Systems Worskhop)

21 Extrakce informací z webových stránek pomocí extrakčních ontologií 21 Experimenty: kontaktní informace z HTML  Kolekce heterogenních webových stránek z medicínské domény ve 3 jazycích  Manuální EO: vyvinuta člověkem pomocí 30 dokumentů z každé kolekce, testována na zbytku dokumentů s využitím indukce formátovacích vzorů  Kombinovaná EO: manuální EO doplněná CRF klasifikátorem, manuální indicie použity samostatně i jako příznaky pro CRF, 10-násobná kříž. validace na testovacích dokumentech  EN: 116 dokumentů, 7000 entit, 1131 instancí tříd, DE: 93/4950/768, CZ: 99/11000/2506 Villain score hodnotí přesnost seskupování atributů Popis experimentů (ECAI 2008), (Datakon 2007)

22 Extrakce informací z webových stránek pomocí extrakčních ontologií 22 Experimenty: nabídky bicyklů z HTML  Kolekce 103 dokumentů / 4100 entit z různých website ve V.Británii nabízejících bicykly  Manuální EO: vyvinuta člověkem pomocí 50 dokumentů, testována na zbytku  FPI EO: manuální EO se zapnutou indukcí formátovacích vzorů  HMM EO: využívá pouze trénovaný HMM model, datotypová omezení a axiomy  Kombinovaná EO: Využívá HMM model pro všechny atributy kromě ceny a slevy Popis experimentů (Znalosti 2004), (ECML/PKDD 2004) 23,5%

23 Extrakce informací z webových stránek pomocí extrakčních ontologií 23 Experimenty: HMM a extrakce obrázků  Skrytý markovský model s dedikovanými stavy pro extrahované položky a jejich kontext, inspirováno (Freitag, McCallum 2000)  Experimenty s nesupervizovaně indukovanými topologiemi  Rozšíření lexikálních distribucí stavů o n-gramové distribuce  Jediný model pro všechny extrahované položky: –1 Background stav –1Target, 1 Prefix and 1 Suffix stav na 1 atribut B STP S’S’T’T’P’P’... Popis experimentů  Vyvinuto několik binárních klasifikátorů obrázků (bicykl ano/ne) –příznaky: rozměry, barevný histogram, počet výskytů ve stránce, podobnost k trénovací kolekci pozitivních příkladů (Praks, 2002) –2.6% = chybovost kombinovaného klasifikátoru (10-CV na 1600 obrázcích)  HMM model propojen s klasifikátorem obrázků tak, že lexikální distribuce stavů emitují třídy obrázků předpovídané klasifikátorem –88% F-míra pro obrázky jako součást popisu produktu aplikace: malý strukturovaný vyhledávač, autory webového rozhraní jsou kolegové z KEG (RAWS 2005), (Web Intelligence 2005)

24 Extrakce informací z webových stránek pomocí extrakčních ontologií 24 Závěry  Vyvinuta metoda rozšířených extrakčních ontologií, umožňující –volitelné využití 3 různých typů extrakční znalosti –rychlé prototypování –snadné změny extrakčního schématu  Prezentovány výsledky pro reálné domény –oznámení o seminářích, kontaktní informace, popisy bicyklů –dokumentovány výhodnost kombinace různých typů znalostí a rychlé prototypování extrakčních úloh –vytvořeny klasifikátory obrázků, které byly úspěšně integrovány do vyvinutého extrakčního HMM modelu  Vytvořen open-source extrakční nástroj Ex –distribuce, zdrojové kódy a příklady: –Java, řádků kódu  Publikace –S prací spojeno > 20 publikací na zahraničních i tuzemských konferencích a workshopech (autor / spoluautor)

25 Extrakce informací z webových stránek pomocí extrakčních ontologií 25 Literatura a vybrané publikace  Embley, D.W., Tao, C., Liddle, S.W.: Automatically extracting ontologically specified data from HTML tables with unknown structure. In: Proc. ER  Karkaletsis, V., Karampiperis, P., Stamatakis, K., Labský, M., Růžička, M., Svátek, V., Polla, M., Mayer, M, Gonzales, D: Automating Accreditation of Medical Web Content. In: ECAI, Patras, IOS Press, 2008, ISBN  Labský, M., Nekvasil, M., Svátek, V.: Towards Web Information Extraction using Extraction Ontologies and (Indirectly) Domain Ontologies. In: K-CAP, Whistler, ACM, 2007, ISBN  Labský, M., Svátek, V.: Combining Multiple Sources of Evidence in Web Information Extraction. In: ISMIS, Toronto. Foundations of Intelligent Systems, Springer-Verlag, 2008, ISBN  Labský, M., Svátek, V., Nekvasil, M.: IE Based on Extraction Ontologies: Design, Deployment and Evaluation. In: KI – Ontology-based Information Extraction Systems, Kaiserslautern, CEUR-WS, 2008, ISSN  Labský, M., Svátek, V.: On the Design and Exploitation of Presentation Ontologies for Information Extraction. In: ESWC/Mastering the Gap: From Information Extraction to Semantic Representation. Budva: KMI, The Open University,  Labský, M., Svátek, V., Šváb, O., Praks, P., Krátký, M., Snášel, V.: IE from HTML Product Catalogues: from Sorce Code and Images to RDF. Web Intelligence, Compiégne, IEEE, 2005, ISBN X.  Labský, M., Svátek, V., Šváb, O.: Types and Roles of Ontologies in Web Information Extraction. In: ECML/PKDD – Knowledge Discovery and Ontologies, Pisa,  Labský, M., Vacura, M., Praks, P.: Web Image Classification for Information Extraction. In: RAWS. VŠB TU, 2005, ISBN  Labský, M.: Product information extraction from semistructured documents using HMMs. Znalosti, VŠB TU, 2004  Peshkin, L., Pfeifer, A.: Bayesian Information Extraction Network. In: Proc. Intl. Joint Conference on Artificial Intelligence,  Svátek, V., Labský, M., Nemrava, J., Kosek, J., Růžička, M.: Projekt MedIEQ: hodnocení zdravotnických webových zdrojů s využitím extrakce informací. Brno In: DATAKON, Brno, MU, 2006 ISBN  Srovnání výsledků extrakčních nástrojů na úloze oznámení o seminářích: resources/learningpinocchio/CMUhttp://tcc.itc.it/research/textec/tools- resources/learningpinocchio/CMU

26 Extrakce informací z webových stránek pomocí extrakčních ontologií 26 Děkuji za pozornost!  Otázky ?

27 Extrakce informací z webových stránek pomocí extrakčních ontologií 27 Otázky oponentů (1/9)  Jak hodnotíte pro svoje řešení hlediska: –rychlého prototypování, –snadné změny extrakčních pravidel, –vyváženost přesnosti a potřebných nákladů (případně, času a kvalifikace asistenta trénování).  Manuální znalosti –podporují rychlé prototypování a změny schématu, podle doporučené metodologie se manuální znalosti vytvářejí v prvních fázích projektu  Trénovací data –pokud je třeba je pořídit, sběr probíhá v dalších fázích projektu, kdy už je extrakční schéma stabilní

28 Extrakce informací z webových stránek pomocí extrakčních ontologií 28 Otázky oponentů (2/9)  Nakolik je řešení vázáno na daný styl webovských stránek a jak je odolné na změny.  Manuální znalosti –zda a do jaké míry je formátování přítomno v pravidlech  Indukované formátovací vzory –Adaptace na konkrétní formátování website probíhá nesupervizovaně během vlastní extrakce –Indukované formátovací vzory se nepoužívají pro další website  extrakční ontologie nejsou závislé na konkrétním formátování

29 Extrakce informací z webových stránek pomocí extrakčních ontologií 29 Otázky oponentů (3/9)  Jaké výsledky na daných problémech, datech dosahují veřejně dostupné prostředky?  Extrakce oznámení o seminářích je jedna z často používaných srovnávacích úloh:  Samotný CRF++ nástroj se základní množinou příznaků dosáhl pro kontakty výrazně nižší F-míry, zlepšení nastává v případě kombinace s extrakční ontologií (ve smyslu rozšíření množiny příznaků i kombinace s manuálními indiciemi) F-míryBIENLP2EOSRVRapierWhisk Speaker Location Start time End time Overall Výsledky pro BIEN převzaty z (Peshkin, 2003); pro LP2, SRV, Rapier a Whisk je zdrojem resources/learningpinocchio/CMU resources/learningpinocchio/CMU

30 Extrakce informací z webových stránek pomocí extrakčních ontologií 30 Otázky oponentů (4/9)  Metadata, např. XML schéma k extrakční ontologii?  Pro jazyk EOL je k dispozici DTD (document type definition) na doprovodném CD: –ex/models/eol.dtd

31 Extrakce informací z webových stránek pomocí extrakčních ontologií 31 Otázky oponentů (5/9)  Není jasné kolik práce a znalostí je třeba na nastavení parametrů „vah“, nakolik je automatické a nakolik ruční.  Semináře:  Kontakty:  Bicykly:

32 Extrakce informací z webových stránek pomocí extrakčních ontologií 32 Otázky oponentů (6/9)  Zajímalo by mě, jaké jsou možnosti aplikace popsaných metod pro web 2.0, 3.0 atd, vzhledem k tomu, že jisté části extrakce jsou vázány na technologické prvky webových stránek.  Web 2.0 – existující druhá generace technologií a designu vysoce interaktivních webových stránek a aplikací, často využívající intenzívní komunikaci mezi klientem a serverem a rozsáhlé schopnosti prohlížeče. (volně dle Wikipedie) –pro extrakci z Web 2.0 stránek lze využít API prohlížeče a jeho reprezentaci dokumentu –navržená metoda není v principu omezena na webové stránky, lze ji aplikovat na dokumenty bez jakéhokoliv struktury na druhé straně je možné využít i jiného hierarchického formátovaní než HTML  Web 3.0 – očekávaná další generace „sémantického webu“, kde stroje do určité míry „rozumějí“ jeho obsahu, např. jsou schopny odvozování nad prezentovanými fakty a mohou provádět operace pomocí sémanticky anotovaných webových služeb. –IE obecně je jednou z technik které by mohly „plnit“ potřebné báze znalostí

33 Extrakce informací z webových stránek pomocí extrakčních ontologií 33 Otázky oponentů (7/9)  Jaká je časová a prostorová složitost prezentovaného řešení?  Extrakční ontologie –viz slidy „extrakční proces“  Skryté markovské modely – nalezení nejlepší cesty Viterbi algoritmem –časová O(n s 2 ) –prostorová O(n s) –kde n=délka analyzovaného textu, s=počet stavů  Klasifikátor obrázků –O(velikost obrázku) pro zjištění příznaků (histogram) –dále v závislosti na použitém algoritmu strojového učení

34 Extrakce informací z webových stránek pomocí extrakčních ontologií 34 Otázky oponentů (8/9)  Jak rozsáhlé experimenty byly provedeny?  ová oznámení o seminářích –485 dokumentů, 3000 pojmenovaných entit 4 typů, 1 oznámení na  Extrakce kontaktních informací z heterogenních webových stránkek v medicínské doméně pro 3 jazyky –extrakce pojmenovaných entit 10 typů a seskupování do instancí 1 třídy  Extrakce popisů bicyklů z heterogenních webových stránek obchodů –108 dokumentů, 4000 atributů 15 typů včetně 630 obrázků kol –Binární klasifikace obrázků na kolekci 1600 obrázků  Extrakce popisů počítačových monitorů a televizí z web. obchodů –500 webových stránek s monitory, 60 s televizemi Počet dokumentůPočet entitPočet instancí tříd EN DE CZ

35 Extrakce informací z webových stránek pomocí extrakčních ontologií 35 Otázky oponentů (9/9)  Bude proces extrakce ontologie dávat pro různá vstupní nastavení stejné ontologie pro danou kolekci stránek?  Extrakční ontologie zůstává během extrakce neměnná –nesupervizovaně se indukují pouze formátovací vzory, které ale nejsou persistentní a jejich působnost je omezena pouze na dokument, na základě kterého byly indukovány  Výsledky extrakce závisí na nastavení –systém lze konfigurovat pomocí velkého množství parametrů (cca 20), např. n-best, zda generátor instancí může „přeskakovat“ AC kandidáty nevhodné pro budovanou instanci, omezení prostoru generování instancí jako abs. a rel. šířka beamu v mřížce, prahy pro minimální pravděpodobnost AC a IC –Další „parametry“ obsahuje samotná extrakční ontologie a na ni napojené klasifikátory


Stáhnout ppt "Vysoká škola ekonomická v Praze Extrakce informací z webových stránek pomocí extrakčních ontologií Martin Labský Vysoká škola ekonomická v Praze Fakulta."

Podobné prezentace


Reklamy Google