ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.

Slides:



Advertisements
Podobné prezentace
Algoritmy zpracování textů II
Advertisements

Mgr. Iva Celbová konzultant SEFIRA spol. s r.o.
TinWeb na míru aneb úprava pro uživatele na AMU SUT, Zlín, červen 2005 Iva Horová:
E-knihy EBSCO v NLK.  Trvalý nákup 3 titulů  Hinman's Atlas Of Urologic Surgery (2012) Hinman's Atlas Of Urologic Surgery (2012)  Paediatric Respiratory.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Vypracoval: Ladislav Navrátil, EI-4 Umělá inteligence Zaměření Expertní systémy.
Algoritmy zpracování textů II
Komprese textových, video a audio dat.  Komprese   JPEG: 
Analýza možností vzniku chyb
Metody zpracování vybraných témat (projektů)
DOK.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Adaptivní Huffmanův kód.
REGIONÁLNÍ POLITIKA V ČR V KONTEXTU KOHEZNÍ POLITIKY EU RNDr.Josef Postránecký Ministerstvo pro místní rozvoj.
Analýza informačního systému
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Fulltextové vyhledávání Michal Kopecký
Algoritmy vyhledávání a řazení
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Metadata a metainformační systémy (seminář)
Střední škola služeb a podnikání, Ostrava-Poruba příspěvková organizace Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:
Dokumentace informačního systému
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Textový procesor (MS Word) Ing. Jan Roubíček. Vlastnosti stránky VY_32_INOVACE_10_2_11_AP.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Kompresní algoritmus LZW Dokumentografické informační systémy.
Espacenet Martina Machátová Aktualizace: 14. listopadu 2014.
Řešení každé slovní úlohy se skládá z několika částí.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Huffmanův kód - aplikace.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Použití dotazu jako zdroj dat pro pohled Vypracovala: Procházková Petra.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
DOK. FUZZY MNOŽINY ETC. Klasické množiny Klasická množina – Výběr prvků z nějakého univerza Podle nějakého pravidla – Každý prvek obsahuje nejvýše jednou.
 Kurs: Vybrané kapitoly z výzkumu veřejného mínění  FSV UK, U Kříže 8  Středa  PhDr. Jiří Vinopal, Ph.D.  Centrum pro výzkum veřejného.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prostorové datové struktury
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
V. Informace pro marketing Otázky: 1.K čemu slouží systémy market.informací 2.K čemu slouží market. Výzkum 3.Jak řešit market. Problém 4.Jak získat primární.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Požadavky ISO/DIS 9001:2014 a ISO/DIS 14001:2014
Projektový management Certifikace a normy Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko–geologická fakulta VŠB-TU.
Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Fulltextový vyhledávač Štěpán Škrob.
Perzistence XML dat Kamil Toman
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Fulltextové technologie a jejich využití v UIS Bc. Miroslav Prachař datamanagement
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Zpracování textů efektivně
Překladače 5. Syntaktická analýza
Fulltextové vyhledávání
MINIMÁLNÍ KOSTRA V GRAFU
Automatická indexace Základní metody a postupy
A5M33IZS – Informační a znalostní systémy
Překladače Syntaktická analýza
Rešeršní činnost Mgr. Petr Šmejkal
Analýza informačního systému
M. Telingerová Komprimace dat.
Transkript prezentace:

ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava

Modifikace struktury kontextového slovníku Abeceda – termy ve slovníku identifikátory termů lexikon termů Perzistentní forma – index B – strom omezená velikost kontextu terminologie - levý a pravý kontext

Při čem může kontextový index v DIS pomáhat?  Především při hledání významového kontextu, ve kterém se slovo v přirozeném jazyce (často) objevuje  Buduje se tak globální index používaných slovních spojení

Předzpracování termů Vypuštění nevýznamových slov (and, the, a, that, …) Lemmatizace

Dotazování v kontextovém indexu levý kontextpravý kontext

Relevance odpovědi algoritmus ACB může při kompresi ohodnocovat počet výskytů jednotlivých kontextů v dokumentech a ukládat ho spolu s kontexty do indexu míra relevance odpovědi potom roste s vyšším ohodnocením kontextu

Návrhy použití Nástroj pro rozšiřování dotazu ve fulltextových systémech