Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilBoris Konečný
1
1 Web Information extraction - extrakce informací z webu NSWI140 15.12.2010 Jan Dědek
2
2 Obsah Extrakce pomocí struktury Přehled Lixto VIDOME Lingvistická extrakce “Semantic Czech” Pojmenované entity (názvy) KIM
3
3 Sémantizace webu (skoro) automaticky
4
4 Extrakce pomocí struktury HTML wrapping Regulární výrazy Ruční návrh pravidel Trénované Chytré GUI
5
5 WIE – Je to těžké? WIE
6
6 WIE – ručně nebo automaticky? Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp. 1411-1428, October, 2006.
7
7 Hyper-tree WIE – Má to nějakou teorii? Gramatiky Pravidla Automaty
8
8 WIE - Přehled nástrojů Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp. 1411-1428, October, 2006. Lze dohledat
9
9 Lixto Visual Developer
10
10 VIDOME MDR algoritmus Implementace Dušan Maruščák 2007 DP KSI Hledání podobných uzlů v DOM opakování Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords
11
11 3 fáze extrakce 1.Identifikace Data Regions Datové regiony 2.Identifikace Data Records Datové záznamy 3.Identifikace Data Attributes Atributy datových záznamů Pomocí regulárních výrazů Opakování v DOM
12
12 Datové regiony a záznamy (1)
13
13 Datové regiony a záznamy (2)
14
14 Datové regiony - příklad
15
15 Hledání datových regionů 1 function BFSfindDR(LevelNodes) 2 begin 3 NextLevelNodes = Ø; 4 regions = Ø; 5 for each Node in LevelNodes do 6 begin 7 regions=identDataRegions(normalized(Node.children)); 8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions); 9 end 10 if NextLevelNodes != Ø 11 return regions U BFDfindDR(NextLevelNodes); 12 else return regions; 13 end Kde hledat v dalším zanoření Už jsme našli Rekurze
16
16 Datový záznam ve vícero uzlech A1 A2 B1 …
17
17 identDataRegions Podobnost uzlů Dvojic uzlů Trojic uzlů … Podobnost ~ Editační vzdálenost
18
18 Levenshteinova editační vzdálenost =match osubst +ins -del +1 „+“ +1 „-“ +1 / 0 „o / =“ Cíl Zdroj
19
19 Mapování do ontologie (zatím nedokončeno)
20
20 Java regexp http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html Příklad: Character classes [abc] a, b, or c (simple class) [^abc] Any character except a, b, or c (negation) [a-zA-Z] a through z or A through Z, inclusive (range) [a-d[m-p]] a through d, or m through p : [a-dm-p] (union) [a-z&&[def]] d, e, or f (intersection) [a-z&&[^bc]] a through z, except for b and c : [ad-z] (subtraction) [a-z&&[^m-p]] a through z, and not m through p : [a-lq-z] (subtraction) \d A digit: [0-9]
21
21
22
22 VIDOME - shrnutí K dispozici na http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/ http://www.ksi.mff.cuni.cz/~eckhardt/vyuka/swi108/ Pouze Win Instalace – viz dokumentce Server aplikace + Firefox plugin Výstup HTML nebo MySQL Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl
23
23 SimilaritySpider Implementace Michal Šenkýř 2010 DP KSI http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/ http://www.ksi.mff.cuni.cz/~dedek/SimilaritySpider/
24
24 SimilaritySpider - Hlavní okno aplikace
25
25 SimilaritySpider - Štítkovací rozhraní
26
26 Lingvistická extrakce Nejprve pdf prezentace Viz: 20101005_Dedek_Uzivatelsko-webovy_seminar.pdf
27
27 Extrakční pravidlo …ochrana životního prostředí
28
Example of a linguistic tree jihmor56559.txt-001-p1s3 litre diesel "into" water stream (1) (2) (5) (3) (4) "Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel) has run out to a stream." “Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”
29
29 Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty. 800 l nafta potok Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí. 350 l nafta půda... litre diesel water stream soil Experimental results – extracted data
30
30 Pojmenované entity
31
31 Pojmenované entity Lingvistický přístup Barbados Sémantický přístup Barbados Nejčastěji využívaný framework GATE http://www.gate.ac.uk
32
32 KIM Platform Novinové články Velká KB Integrací mnoha DB Zeměpisné Obchodní http://www.ontotext.com/kim
33
33 KIM Ontology
34
34 KIM KB (2006) RDF StatementsSmall KBFull KB - explicit444,0862,248,576 - after inference1,014,4095,200,017 Instances - Entity:40,804205,287 - Location:12,52835,590 - Country:261 - Province:4,262 - City:4,4004,417 - Organization:8,339146,969 - Company:7,848146,262 - Person:6,0226,354 - Alias:64,589429,035
35
35 KIM funkcionalita Animace http://ontotext.com/kim/KIM-demo.html http://ontotext.com/kim/core-timelines.htm
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.