1 Web Information extraction - extrakce informací z webu NSWI Jan Dědek
2 Obsah Extrakce pomocí struktury Přehled Lixto VIDOME Lingvistická extrakce “Semantic Czech” Pojmenované entity (názvy) KIM
3 Sémantizace webu (skoro) automaticky
4 Extrakce pomocí struktury HTML wrapping Regulární výrazy Ruční návrh pravidel Trénované Chytré GUI
5 WIE – Je to těžké? WIE
6 WIE – ručně nebo automaticky? Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp , October, 2006.
7 Hyper-tree WIE – Má to nějakou teorii? Gramatiky Pravidla Automaty
8 WIE - Přehled nástrojů Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp , October, Lze dohledat
9 Lixto Visual Developer
10 VIDOME MDR algoritmus Implementace Dušan Maruščák 2007 DP KSI Hledání podobných uzlů v DOM opakování Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords
11 3 fáze extrakce 1.Identifikace Data Regions Datové regiony 2.Identifikace Data Records Datové záznamy 3.Identifikace Data Attributes Atributy datových záznamů Pomocí regulárních výrazů Opakování v DOM
12 Datové regiony a záznamy (1)
13 Datové regiony a záznamy (2)
14 Datové regiony - příklad
15 Hledání datových regionů 1 function BFSfindDR(LevelNodes) 2 begin 3 NextLevelNodes = Ø; 4 regions = Ø; 5 for each Node in LevelNodes do 6 begin 7 regions=identDataRegions(normalized(Node.children)); 8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions); 9 end 10 if NextLevelNodes != Ø 11 return regions U BFDfindDR(NextLevelNodes); 12 else return regions; 13 end Kde hledat v dalším zanoření Už jsme našli Rekurze
16 Datový záznam ve vícero uzlech A1 A2 B1 …
17 identDataRegions Podobnost uzlů Dvojic uzlů Trojic uzlů … Podobnost ~ Editační vzdálenost
18 Levenshteinova editační vzdálenost =match osubst +ins -del +1 „+“ +1 „-“ +1 / 0 „o / =“ Cíl Zdroj
19 Mapování do ontologie (zatím nedokončeno)
20 Java regexp Příklad: Character classes [abc] a, b, or c (simple class) [^abc] Any character except a, b, or c (negation) [a-zA-Z] a through z or A through Z, inclusive (range) [a-d[m-p]] a through d, or m through p : [a-dm-p] (union) [a-z&&[def]] d, e, or f (intersection) [a-z&&[^bc]] a through z, except for b and c : [ad-z] (subtraction) [a-z&&[^m-p]] a through z, and not m through p : [a-lq-z] (subtraction) \d A digit: [0-9]
21
22 VIDOME - shrnutí K dispozici na Pouze Win Instalace – viz dokumentce Server aplikace + Firefox plugin Výstup HTML nebo MySQL Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl
23 SimilaritySpider Implementace Michal Šenkýř 2010 DP KSI
24 SimilaritySpider - Hlavní okno aplikace
25 SimilaritySpider - Štítkovací rozhraní
26 Lingvistická extrakce Nejprve pdf prezentace Viz: _Dedek_Uzivatelsko-webovy_seminar.pdf
27 Extrakční pravidlo …ochrana životního prostředí
Example of a linguistic tree jihmor56559.txt-001-p1s3 litre diesel "into" water stream (1) (2) (5) (3) (4) "Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel) has run out to a stream." “Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”
29 Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty. 800 l nafta potok Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí. 350 l nafta půda... litre diesel water stream soil Experimental results – extracted data
30 Pojmenované entity
31 Pojmenované entity Lingvistický přístup Barbados Sémantický přístup Barbados Nejčastěji využívaný framework GATE
32 KIM Platform Novinové články Velká KB Integrací mnoha DB Zeměpisné Obchodní
33 KIM Ontology
34 KIM KB (2006) RDF StatementsSmall KBFull KB - explicit444,0862,248,576 - after inference1,014,4095,200,017 Instances - Entity:40,804205,287 - Location:12,52835,590 - Country:261 - Province:4,262 - City:4,4004,417 - Organization:8,339146,969 - Company:7,848146,262 - Person:6,0226,354 - Alias:64,589429,035
35 KIM funkcionalita Animace