Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

David Pejčoch 5.10.2010. XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená.

Podobné prezentace


Prezentace na téma: "David Pejčoch 5.10.2010. XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená."— Transkript prezentace:

1 David Pejčoch 5.10.2010

2 XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená podoba staršího jazyka SGML (Standard Generalized Markup Language) = prostředek pro definování univerzálního formátu výměny informací Umožňuje snadné vytváření konkrétních značkovacích jazyků pro různé účely a různé typy dat Formát pro výměnu dat mezi aplikacemi Odděluje data od způsobu jejich prezentace Snadno čitelný a editovatelný

3 Příklady aplikace XML (1) XHTML – XML alternativa jazyka HTML. RDF – Resource Description Framework umožňuje popsat metadata a zaznamenat ontologie, např. popsat obsah HTML stránky. RSS – Rodina XML formátů, sloužící pro čtení novinek na webových stránkách. SMIL – Synchronized Multimedia Integration Language, popisuje multimedia pomocí XML.

4 Příklady aplikace XML (2) SVG – Scalable Vector Graphics je jazyk pro popis dvourozměrné vektorové grafiky, statické i dynamické (animace). MathML – Mathematical Markup Language je značkovací jazyk pro popis matematických vzorců a symbolů pro použití na webu. DocBook – Sada definic dokumentů a stylů pro publikační činnost.

5 Příklady aplikace XML (3) Jabber – Protokol pro Instant messaging. SOAP – Protokol pro komunikaci mezi Webovými službami. Office Open XML, OpenDocument – Souborový formát určený pro ukládání a výměnu dokumentů vytvořených kancelářskými aplikacemi.

6 Příklad RDF Bob Dylan USA Columbia 10.90 1985... http://www.w3.org/1999/02/22-rdf-syntax-ns#http://www.recshop.fake/cd#http://www.recshop.fake/cd/Empire Zdroj: http://www.w3schools.com/rdf/rdf_example.ashttp://www.w3schools.com/rdf/rdf_example.as

7 Uzel - základní prvek XML

8 Struktura XML dokumentu káva NicaMex -… Tato směs velmi kvalitních odrůd kávy … 200 http://www.fair-bio.cz/… 0 http://www.fair-bio.cz/ ….jpg 69.72 9 … Instrukce pro zpracování; deklarace souboru Komentář Otevírací tag elementu Ukončovací tag elementu

9 Struktura XML dokumentu káva NicaMex -… Tato směs velmi kvalitních odrůd kávy … 200 http://www.fair-bio.cz/… 0 http://www.fair-bio.cz/ ….jpg 69.72 9 … Atributový uzel Text

10 Zásada tvorby XML dokumentu Do atributů by se měly ukládat "atomické" hodnoty, které mají roli metadat Rezervované znaky, především <>&, převádíme na entity, nebo text vložíme do CDATA sekce (Pozn.: CDATA se použije typicky pokud je součástí XML dokumentu nějaký zdrojový kód) Volíme co nejjemnější členění, každá informace do samostatného elementu

11 Co je ještě nutné vědět o XML? Definice datových schémat pro XML dokumenty => definice vlastních elementů (ne jako v HTML) DTD (Document Type Definition) – značně omezené možnosti => ustupuje XSD (XML Schema Definition Language) Způsob transformace z jednoho schématu do druhého: XSL (Extensible Stylesheet Language) XSLT (Extensible Stylesheet Language Transformation) XSL-FO (XSL Formating Object) Soubor může obsahovat právě jeden strom => elementy jsou v pozici rodič, potomek, sourozenci

12 Stromová reprezentace XML Zdroj: http://www.w3schools.com/xml/xml_tree.asphttp://www.w3schools.com/xml/xml_tree.asp

13 Co všechno definuje XML schéma? povolené elementy, atributy, přípustné kombinace elementů a atributů, vlastní datové typy odvozené od existujících typů, definuje otázku násobnosti potomků Jmenný prostor (namespace) (atribut xmlns: v úvodním tagu rodičovského elementu) Validace: Proces kontroly, zda XML dokument odpovídá schématu

14 Způsob zpracování XML dokumentu XML dokument Parser Aplikace pracující s XML dok. Načtení Formální kontrola Dekompozice Příprava na zpracování Načtení Formální kontrola Dekompozice Příprava na zpracování

15 Datové typy ve schéma Jednoduché – pro skalární hodnoty Komplexní – pokud element obsahuje další elementy nebo atributy Cca 43 zabudovaných datových typů (STRING, BOOLEAN, DECIMAL, FLOAT,...), další lze vytvářet: restrikcí stávajících - integritní omezení => zúžení oboru přípustných hodnot (omezení délky, využití masky s pomocí regulárních výrazů) rozšíření vytvoření seznamu sjednocení typů

16 Příklady restrikcí - regex

17 Část 2: Zpracování přirozeného textu pomocí regulárních výrazů a jejich rozšíření

18 Stručný úvod do světa regulárních výrazů Speciální textové řetězce popisující masku, které má odpovídat verifikovaný řetězec Používají se v mnoha programovacích jazycích (Perl, Java, C#, JavaScript, PHP,...) Obecně jsou POSIX a Perl-compatible Na co je použiji? Extrakce údajů z textu Modifikace údajů Vkládání a nahrazování

19 Syntaxe regulárních výrazů (výběr nejpoužívanějších konstruktů).Libovolný znak [xyz]Některý z množiny znaků obsahující x,y,z [0-9]Některý z intervalu 0 až 9 [^xyz]Žádný z množiny znaků obsahující x,y,z *Opakování znaku, např. [0-9]* je libovolně dlouhá posloupnost čísel +Alespoň jeden výskyt předchůdce ?Nejvýše jeden výskyt předchůdce ^Začátek řádku $Konec řádku \<Začátek slova \>Konec slova Kompletní výpis: http://www.regularnivyrazy.info/download/regularni-vyrazy-prehled.pdfhttp://www.regularnivyrazy.info/download/regularni-vyrazy-prehled.pdf

20 Regex Coach

21 Některé nástroje pracující s regexp


Stáhnout ppt "David Pejčoch 5.10.2010. XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená."

Podobné prezentace


Reklamy Google