Opoznámkovanie sprístupňovaných webových stránok počas sprístupňovania

Slides:



Advertisements
Podobné prezentace
Business Intelligence
Advertisements

TM40 Dotyková klávesnica
ODBYT registračné pokladnice: kontrola stavu hotovosti
Sleduj informácie na obale potravín
Hotelové rezervačné systémy
Powerpoint v edukačnom procese
Už 14 rokov partnerom samosprávy v oblasti poistenia Jarmila Cserhelyiová.
ROČNÍKOVÁ PRÁCA 1.
ROČNÍKOVÁ PRÁCA 1.
TAJOMNÁ REČ MÓDY Viera Lovayová ZSŠ Gemerská 1, Košice.
Proces výmeny informácií medzi ľuďmi
STAVEBNÝ DENNÍK V zmysle Stavebného zákona č. 50/1976 Zb. v znení neskorších predpisov - §46d.
SOCIÁLNE ZMENY spoločnosti a ich príčiny.
METODIKA TVORBY ATESTAČNEJ PRÁCE
AIRDANCE – realizácia multiplatformovej aplikácie typu klient - server
L1 cache Pamäť cache.
„Brutácia“ nepeňažného príjmu
Dane a odvody 2 PODNADPIS
8.1 Vznik, vývoj a funkcie peňazí
Marketing a marketingový algoritmus
SME MEDZINÁRODNE CERTIFIKOVANÁ ŠKOLA.
Aplikácie pre mobilné zariadenia na rozvoj matematických kompetencií
Kreslenie v textovom dokumente 1.časť
MATURITA Miroslava Drahošová
Rozpoznávanie slovných druhov alebo vetnej skladby
Webovský laboratórny denník
Prezentácia z informatiky
Trvalo udržateľný rozvoj podhorských a horských oblastí Slovenska
Využitie pracovných listov na hodinách informatiky
Miroslav Sajko Martin Petruňa
Slovenské vysoké školy – Výsledky dotazníka
Aktualizačné vzdelávanie učiteľov cvičných firiem
Projekt DP 176/05-I/ Pilotné vzdelávacie programy SCHOLA LUDUS pre rozvoj komplexného tvorivého myslenia a tvorivej komunikácie Riešiteľské pracovisko:
Kľúč na určovanie rastlín
Kultúra spôsoby myslenia, správania a činnosti ľudí, ktoré sa rozširujú prostredníctvom učenia a materiálne predmety, ktoré ľudia vytvorili sociálne dedičstvo.
Ochrana potravín Tréningový kurz Co-financiado.
Implementácia horizontálnej priority Marginalizované rómske komunity
Open Source GIS Ing. Ján Tóbik
Dobrý deň. Album fotografií
Použitie počítačov v geografii (2)
Rastrova a Vektorov grafika
Čo je IM História Prehľad klientov, ICQ
Základné rozdelenie podľa oblasti použitia
JAZYKOVÉ LABORATÓRIÁ PRE ZÁKLADNÉ a stredné Školy 2008
Úvod do štúdia literatúry
Organizačná štruktúra podniku
FUJIFILM EUROPE OZ Rybničná Bratislava Graphic Arts systems.
Riziká informačných technológií
Stredisko odbornej praxe KUCHÁRSKE
28. júna 2007, Seminár EHB a NED, Bratislava
Zmeny v podsystéme v roku 2017
Divergentné úlohy v matematike
Nové formy komunikácie
Výskumný súbor.
Modelovanie DBS Vypracoval: Ing. Michal COPKO.
INTEGROVANÝ SYSTÉM MANAŽMENTU
Orientácia na pracovnej ploche
INTEGROVANÝ SYSTÉM MANAŽMENTU
VEGA Informácie o VEGA (porovnanie minulosť – súčasnosť)
4 Stratégia implementácie INSPIRE & Akčný plán v SR
MS POWERPOINT ZŠ, Z. Nejedlého 2 Spišská Nová Ves
Psychologické disciplíny
Informačné systémy Simona Franková Mária Babčáková 3.Ag
Smerovanie Ing. Branislav Müller.
Strategické výhody centrálneho nákupu
Elektronické verejné obstarávanie
EQM-PD Európsky manažment kvality pre profesionálov pracujúcich so zdravotne postihnutými osobami Eqm-pd.com Projekt „EQM-PD“ bude financovaný s podporou.
MEDLINE Complete ~ Vyhľadávanie
Pracovné zošity Práca s grafikou (2000) Algoritmy s Pascalom (2002) Práca s multimédiami (2005)
Stredná odborná škola automobilová Moldavská cesta 2, Košice
Transkript prezentace:

Opoznámkovanie sprístupňovaných webových stránok počas sprístupňovania Diplomová práca Martin Adam vedúci: prof. Ing. Pavol Návrat, PhD. http://pannda.atrip.sk/

Obsah prezentácie Motivácia a ciele práce Architektúra a funkcie navrhovaného systému HTML Parser Generovanie poznámok Obohatenie poznámok Interaktívne funkcie Ukážka systému Pannda Zhodnotenie a možné rozšírenia

Motivácia Sémanticky obohatené browsovanie (Rozšíriť ontológiu) Uľahčiť vyhľadanie užitočnej stránky Urýchlenie orientácie na stránke Napomôcť pri pochopení problematiky (Rozšíriť ontológiu) Ciele projektu Poznámkovať automaticky Zohľadniť preferencie používateľa Poznámky online, počas prehliadania stránky Výsledok v bežnom prehliadači

Poznámkovanie Spôsob uloženia poznámok („značiek“) do/mimo dokumentu Kde (online) poznámkovať Vlastný prehliadač (resp. tučný plugin) Proxy server Webový prehliadač webu Tenký plugin Potreba ďalšej (tučnej) aplikácie (napr. server)

Pannda – Architektúra systému Rozšírený Annotea protokol

Architektúra servera – poznámky

Parser HTML → text Reklamy, menu a spol. Je nám to jedno – nehodnotíme celú stránku Prečo nezvýrazniť obsah aj tam?.. Spracúvať iba viditeľné časti dokumentu Na rozdiel od prípadu, keď analyzujeme celú stránku Predsa len nezahodiť všetko „neviditeľné“ Dvojaký výstup parsera

Generovanie poznámok Vyhľadávanie indivíduí v texte – 5 krokov Podľa regulárnych výrazov pri konceptoch Podľa regulárnych výrazov pri inštanciách Podľa popisiek indivídua v ontológii Podľa popisiek konceptu / označenia class v HTML Podľa jazykových vzorov

Generovanie poznámok Krok 1, 2 Podľa regulárnych výrazov pri konceptoch Podľa regulárnych výrazov pri inštanciách Regulárne výrazy pre konkrétny koncept (inštanciu) Rozšírenie ontológie Odhalíme inštancie konceptov Príklady “location: ([a-zA-Z]+[ ]*[-A-Za-z0-9]*)” “the city of ([A-Z][-A-Za-z0-9]+[ ]+[-A-Za-z0-9]+)”

Generovanie poznámok Krok 3 Postup Podľa popisiek indivídua v ontológii Postup Normalizácia vstupného textu (Apache Lucene) Kľúčové slová z popisiek indivíduí (rovnaký postup) V texte sa slovám pridelí príslušnosť k indivíduám Ak všetky kľúčové slová indivídua pri sebe... Nevýznamové slová sú odstránené v prvom kroku

Generovanie poznámok Krok 4 Použitie druhého výstupu parsera (triedy) Podľa popisiek konceptu / označenia class v HTML Použitie druhého výstupu parsera (triedy) Normalizovanie popisiek konceptov a HTML tried Porovnanie popisiek konceptov k HTML triedam CosineSimilarity (SimMetrics) Celý HTML element je prehlásený za inštanciu

Generovanie poznámok Krok 5 Danube is a river in Europe Postup Podľa jazykových vzorov Danube is a river in Europe <INSTANCE> is a <CONCEPT> <INSTANCE:noun> is a <CONCEPT:noun> POS tagger Postup Nájdu sa vyhovujúce výrazy Porovnajú sa názvy konceptov (Lucene + SimMetrics)

Obohatenie a duplicity Dodatočné informácie Komentáre „Zaujímavé“ vlastnosti konceptu Potreba doplnenia ontológie Akcie Definované pre daný koncept V podobe hyperlinky Odstránenie duplicít (prekrývania) Spojenie obsahu poznámok (rovnaký koncept)

Architektúra servera – ontológie

Interaktívne funkcie Rozšírenie Annotea protokolu Správa ontológie Zoznam dostupných ontológií Vkladanie nových indivíduí Nové informácie k indivíduám (komentáre) Štatistiky (ne)správna poznámka Vyhodnocovanie poznámkovania

Opoznámkovanie sprístupňovaných webových stránok počas sprístupňovania Ukážka softvéru Martin ADAM

Zhodnotenie Dokáže pracovať aj na „nerozšírenej“ ontológii Rozšírenie ontológie pre špecifické prípady regulárne, „zobrazenia-hodné“ vlastnosti, akcie Využitie existujúcej koncepcie Annotea Experimenty Texty z wikipédie (Európa, Ázia, krajiny...) 80% správne; 5,5% navyše; 14,5% menej „očistené“ výsledky (Slovak republic) Parsovanie <1s do 150KB (potom > 4-10) (!!) Poznámkovanie <1,5s do 250 (~ 1,8 – 2)

Záver „Vidím to, čo Pannda server?“ problém Možné rozšírenia Rôzne jazyky (rozoznanie dokumentu, správne popisky) Parsovanie HTML – nie len class, napr. tabuľky Parsovanie iných ako HTML / TXT dokumentov Implementácia: Java, Tomcat, Sesame, SimMetrics, Apache Lucene, Annotea protokol

Záver „Vidím to, čo Pannda server?“ problém Možné rozšírenia Rôzne jazyky (rozoznanie dokumentu, správne popisky) Parsovanie HTML – nie len class, napr. tabuľky Parsovanie iných ako HTML / TXT dokumentov Implementácia: Java, Tomcat, Sesame, SimMetrics, Apache Lucene, Annotea protokol

Posudok oponenta OntoMat SemTag Hodnotenie Hodnotenie úspešnosti Poznámkovanie (áno/nie) Zobrazovanie

Procesy vývoja softvéru a typické modely životného cyklu softvéru Téma z jadra znalostí študijného odboru Martin Adam

Softvérový proces abstraktná množina činností pri vývoji softvérového výrobku z požiadaviek používateľa Softvérový proces Procesy tvorby softvéru Procesy manažmentu procesu Procesy vývoja softvéru Procesy manažmentu softvéru Procesy manažmentu projektu

Proces vývoja softvéru Činnosti priamo spojené s vývojom softvéru špecifikácia, realizácia, validácia a evolúcia Potreby používateľa → požiadavky na SW → → návrh → implementácia → testovanie → → odovzdanie používateľovi Kto, čo, kedy robí a ako dosiahnuť cieľ Životný cyklus softvéru definuje jednotlivé etapy a pre každú z nich činnosti, ktoré sa majú vykonať, rovnako ako vstupy a výstupy etapy.

Modely životného cyklu softvéru Vodopádový model V-model Model evolučného vývoja Špirálový model Komponentový model (vývoj so znovupoužitím) Formálne transformácie Hybridný model Agilné metódy tvorby softvéru

Modely životného cyklu softvéru Vodopádový model V-model Model evolučného vývoja Špirálový model Komponentový model (vývoj so znovupoužitím) Formálne transformácie Hybridný model Agilné metódy tvorby softvéru

Vodopádový model Dobrá viditeľnosť Nízke riziko pre známe postupy Definovanie požiadaviek návrh systému a softvéru implementovanie a testovanie zložiek integrovanie a testovanie systému prevádzka a údržba Dobrá viditeľnosť Nízke riziko pre známe postupy Zmeny počas procesu Vývoj nových druhov aplikácií

V – model Analýza a špecifikácia požiadaviek Architektonický návrh Podrobný návrh Testovanie súčiastok Integrácia a testovanie systému Akceptačné testovanie a inštalácia Implementácia Dokument špecifikácie požiadaviek Dokument návrhu architektúry Dokument návrhu súčiastok Implementované súčiastky Odladené súčiastky Otestovaný systém

Evolučný model Prieskumné prototypovanie Prototypovanie na zahodenie Cieľ – vyvíjať systém v spolupráci so zákazníkom Prototypovanie na zahodenie Cieľ – dospieť k porozumeniu požiadaviek na systém Náčrt špecifikácie Špecifikácia Implementácia Validácia Prvá verzia Finálna Priebežné verzie Nízke riziko pre nové aplikácie Zlá viditeľnosť Systémy sú často slabo štruktúrované

Špirálový model Skoré odstraňovanie chýb Pozornosť na možnosti znovupoužitia Zvýrazňuje požiadavky na akosť Integruje vývoj a údržbu Dobrá viditeľnosť zhodnocovanie rizík treba vedieť robiť je všeobecný a treba ho pre daný projekt rozpracovať

Agilné metódy Rodina procesov vývoja softvéru Uspokojenie zákazníka rýchlymi, neustálymi dodávkami SW Fungujúci SW sa dodáva často (skôr týždne ako mesiace) Fungujúci SW je principiálna metrika progresu Aj neskoršie zmeny v požiadavkách sú vítané Denná úzka spolupráca medzi zadávateľmi a programátormi Konverzácia tvárou v tvár je najlepšou formou komunikácie Projekty sú stavané na motivovaných jedincoch, ktorým by sa malo dôverovať Neustála pozornosť technickej kvalite a dobrému dizajnu Jednoduchosť Samo-organizovaný tím Pravidelné prispôsobovanie zmenám podmienok