Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 Web Information extraction - extrakce informací z webu NSWI140 15.12.2010 Jan Dědek.

Podobné prezentace


Prezentace na téma: "1 Web Information extraction - extrakce informací z webu NSWI140 15.12.2010 Jan Dědek."— Transkript prezentace:

1 1 Web Information extraction - extrakce informací z webu NSWI Jan Dědek

2 2 Obsah  Extrakce pomocí struktury Přehled Lixto VIDOME  Lingvistická extrakce “Semantic Czech”  Pojmenované entity (názvy) KIM

3 3 Sémantizace webu (skoro) automaticky

4 4 Extrakce pomocí struktury  HTML wrapping  Regulární výrazy  Ruční návrh pravidel  Trénované  Chytré GUI

5 5 WIE – Je to těžké? WIE

6 6 WIE – ručně nebo automaticky? Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp , October, 2006.

7 7 Hyper-tree WIE – Má to nějakou teorii? Gramatiky Pravidla Automaty

8 8 WIE - Přehled nástrojů Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, Khaled F. Shaalan, "A Survey of Web Information Extraction Systems," IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 10, pp , October, Lze dohledat

9 9 Lixto Visual Developer

10 10 VIDOME  MDR algoritmus  Implementace Dušan Maruščák 2007 DP KSI  Hledání podobných uzlů v DOM opakování  Extrakce pomocí „regulárních výrazů“ enumeration pattern minLength, maxLength keyWords

11 11 3 fáze extrakce 1.Identifikace Data Regions  Datové regiony 2.Identifikace Data Records  Datové záznamy 3.Identifikace Data Attributes Atributy datových záznamů Pomocí regulárních výrazů Opakování v DOM

12 12 Datové regiony a záznamy (1)

13 13 Datové regiony a záznamy (2)

14 14 Datové regiony - příklad

15 15 Hledání datových regionů 1 function BFSfindDR(LevelNodes) 2 begin 3 NextLevelNodes = Ø; 4 regions = Ø; 5 for each Node in LevelNodes do 6 begin 7 regions=identDataRegions(normalized(Node.children)); 8 NextLevelNodes=NextLevelNodes U (Node.Children not in regions); 9 end 10 if NextLevelNodes != Ø 11 return regions U BFDfindDR(NextLevelNodes); 12 else return regions; 13 end Kde hledat v dalším zanoření Už jsme našli Rekurze

16 16 Datový záznam ve vícero uzlech A1 A2 B1 …

17 17 identDataRegions  Podobnost uzlů Dvojic uzlů Trojic uzlů …  Podobnost ~ Editační vzdálenost

18 18 Levenshteinova editační vzdálenost =match osubst +ins -del +1 „+“ +1 „-“ +1 / 0 „o / =“ Cíl Zdroj

19 19 Mapování do ontologie (zatím nedokončeno)

20 20 Java regexp Příklad: Character classes [abc] a, b, or c (simple class) [^abc] Any character except a, b, or c (negation) [a-zA-Z] a through z or A through Z, inclusive (range) [a-d[m-p]] a through d, or m through p : [a-dm-p] (union) [a-z&&[def]] d, e, or f (intersection) [a-z&&[^bc]] a through z, except for b and c : [ad-z] (subtraction) [a-z&&[^m-p]] a through z, and not m through p : [a-lq-z] (subtraction) \d A digit: [0-9]

21 21

22 22 VIDOME - shrnutí  K dispozici na  Pouze Win  Instalace – viz dokumentce  Server aplikace + Firefox plugin  Výstup HTML nebo MySQL  Editace (nejen) regulárních výrazů ručně ontology/vidomeontology.owl

23 23 SimilaritySpider  Implementace Michal Šenkýř 2010 DP KSI 

24 24 SimilaritySpider - Hlavní okno aplikace

25 25 SimilaritySpider - Štítkovací rozhraní

26 26 Lingvistická extrakce  Nejprve pdf prezentace Viz: _Dedek_Uzivatelsko-webovy_seminar.pdf

27 27 Extrakční pravidlo …ochrana životního prostředí

28 Example of a linguistic tree jihmor56559.txt-001-p1s3 litre diesel "into" water stream (1) (2) (5) (3) (4) "Due to the clash the throat of fuel tank tore off and 800 litres of oil (diesel) has run out to a stream." “Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty.”

29 29 Nárazem se utrhl hrdlo palivové nádrže a do potoka postupně vyteklo na 800 litrů nafty. 800 l nafta potok Z palivové nádrže vozidla uniklo do půdy v příkopu vedle silnice zhruba 350 litrů nafty, a proto byli o události informováni také pracovníci odboru životního prostředí Městského úřadu ve Vyškově a České inspekce životního prostředí. 350 l nafta půda... litre diesel water stream soil Experimental results – extracted data

30 30 Pojmenované entity

31 31 Pojmenované entity  Lingvistický přístup Barbados  Sémantický přístup Barbados  Nejčastěji využívaný framework GATE

32 32 KIM Platform  Novinové články  Velká KB Integrací mnoha DB Zeměpisné Obchodní

33 33 KIM Ontology

34 34 KIM KB (2006) RDF StatementsSmall KBFull KB - explicit444,0862,248,576 - after inference1,014,4095,200,017 Instances - Entity:40,804205,287 - Location:12,52835,590 - Country:261 - Province:4,262 - City:4,4004,417 - Organization:8,339146,969 - Company:7,848146,262 - Person:6,0226,354 - Alias:64,589429,035

35 35 KIM funkcionalita  Animace


Stáhnout ppt "1 Web Information extraction - extrakce informací z webu NSWI140 15.12.2010 Jan Dědek."

Podobné prezentace


Reklamy Google