Dobývání znalostí z databází fulltext

Slides:



Advertisements
Podobné prezentace
Aplikační a programové vybavení
Advertisements

Přístup k databázím z WWW
Ing. David Pejčoch Tutorial
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
Aplikační a programové vybavení
Jazyk SQL Ing. Zdena DOBEŠOVÁ. SQL Structured Query Language 1974 SEQUEL (Structured English Query Language) neprocedurální relační dotazovací jazyk norma.
SEO pro novou firmu Bartošová Lenka 3MA
DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.
Fakulta elektrotechniky a informatiky
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Další dotazy SQL Structured Query Language. Některé SQL příkazy mohou mít v sobě obsaženy další kompletní příkazy SELECT. Využijeme je tam, kde potřebujeme.
Informatika pro ekonomy II přednáška 11
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Tutoriál MEDLINE Complete ~ Vyhledávání support.ebsco.com.
PROGRAMOVACÍ JAZYKY (c) Tralvex Yeap. All Rights Reserved.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
MySQL - Vytvoření nové tabulky  create table jméno_tabulky (jméno_položky typ_položky,... ) Přehled nejběžnějších datových typů Přehled nejběžnějších.
SEO SEO Optimalizace webových stránek pro vyhledávače Jan Nemrava, KIZI, FIS VŠE
Databázové systémy II Přednáška č. 8 – Pohledy (Views)
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Moderní formy tvorby webových stránek Martin Šebela, 9.A vedoucí práce: Mgr. Jan Kříž.
Úvod. školní: příprava na předmět Databázové systémy praktický: webové aplikace databázové systémy základy vývoje webových aplikací od návrhu databáze.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_257 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Ing. Roman Bartoš Předmět Informatika.
Databázové systémy Přednáška č. 6.
SQL – základní pojmy Ing. Roman Danel, Ph.D.
Rauer Luboš Kopic Petr Blažek Tomáš. Structured Query Language - dotazovací jazyk -> pracuje s dotazy - neprocedurální jazyk - mocný, ale přitom jednoduchý.
Číslo šablony: III/2 VY_32_INOVACE_P4_3.8 Tematická oblast: Aplikační software pro práci s informacemi II. Databáze – základy SQL Typ: DUM - kombinovaný.
Vyhledávání informací na internetu
Návrh a tvorba WWW Přednáška 5 Úvod do jazyka PHP.
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
WWW – hypertextový informační systém
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B16 Autor Ing. Jiří Kalousek Období vytvoření březen.
PHP PHP a MySQL - 15 Mgr. Josef Nožička IKT PHP
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
Aplikační programy, programovací jazyky, formáty datových souborů
Access Vysvětlení pojmu databáze - 01
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Aplikační a programové vybavení
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B13 Autor Ing. Jiří Kalousek Období vytvoření březen.
Bezplatné informační zdroje z oblasti ekonomických věd Martina Machátová Aktualizace: 18. listopadu 2014.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
TOMÁŠ RUPRICH E-TECHNOLOGIE LS 2008/09 Google hacking.
SQL Další dotazy a pohledy Databázové systémy. Některé SQL příkazy mohou mít v sobě obsaženy další kompletní příkazy SELECT. Využijeme je tam, kde potřebujeme.
PHP Programy pro tvorbu WWW stránek - 01
TOMÁŠ RUPRICH E-TECHNOLOGIE LS 2008/09 Google hacking.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
1 Základy marketingového výzkumu Online marketing.
Úvod do PostGIS Jan Ježek.
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
HYPERTEXT PREPROCESSOR. JAZYK PHP. VYUŽITÍ JAZYKA Programování dynamických internetových stránek a webových aplikací vytvoření šablony webu kniha návštěv.
Databázové systémy přednáška 6 – Indexy
Vyhledávání v Internetu
Databázové systémy přednáška 8 – Transakce
Unix a Internet 9. SQL server
Databázové systémy a SQL
Dobývání znalostí z databází znalosti
Fulltextové vyhledávání
Databázové systémy a SQL
Šablona 32 VY_32_INOVACE_038.ICT.34
Optimalizace SQL dotazů
Web Application Scanning
Roman Péchal, Jan Čongva, Martin Durák
Seznamy digitálních knihoven
Seznamy digitálních knihoven
Databázové systémy a SQL
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Knihovny.cz Vyhledávání patentových dokumentů
Transkript prezentace:

Dobývání znalostí z databází fulltext Roman Danel Institut ekonomiky a systémů řízení

Co je Full-text Search Vyhledávání textu v souborech (databázích) v co nejkratším čase Soubory musí být na hledání připraveny (indexovány)

Indexace Seznam klíčových termínů Lemnatizace – nalezení kmene slova Derivace – nalezení odvozených tvarů skloňováním a časováním

Pro snížení se používá např. bayesovský algoritmus Problém Nejednoznačnost textu Dvojsmyslnost Falešně pozitivní nález – vyhledání dokumentu, které neodpovídají dotazu Pro snížení se používá např. bayesovský algoritmus

Prostředky pro zlepšení dotazů Klíčová slova Hledání v polích Booleova logika v dotazech (and, not, or) Vyhledávání frází Konkordance ( shoda určitých sledovaných znaků) Blízkost vyhledávání Zástupné znaky („žolíkové“) Regulární výraz – komplikované, ale silné definování dotazu

Sémantika Disciplína zabývající se významem slov a znaků Např. v HTML – tučný text je z pohledu sémantiky významnější než zbytek textu Využití u SEO (roboti a vyhledávači považují např. text v <h1> tagu za důležitý…) Týká se také odkazů na webu

Google bomba Optimalizace pro vyhledávače, často zlomyslná, využívá sémantiku odkazů – Google dříve usuzoval obsah stránky i podle textu odkazu (off-page faktor), poprvé 2001 Google sleduje cca 200 faktorů podle níž řadí výsledky vyhledávání (SERP), nestačí tedy jeden odkaz, navíc musí být odkazy ze stránek s vysokým PageRank Výsledkem je, že Google pak vrací na prvních místech stránku, po zadání negativně zabarveného dotazu Dnes již Google upravil vyhledávací algoritmy.

SERP Search engine result page – stránka výsledků vyhledávání Umístění v SERP vypovídá o kvalitě a optimalizaci webu

GTPR Google Toolbar PageRank – přibližná aproximace PageRanku (ten Google nezveřejňuje z důvodu možného zneužití) Hodnoty 0 až 10 (logaritmicky); hodnota 4 je běžná, 5 větší projektu, 8 má v ČR jen několik webů Jak zjistit – instalace speciální nástrojové lišty (toolbaru) do prohlížeče

GTPR GTPR bývá aktualizován skokově (jednou za 2 až 4 měsíce) Není to podklad pro optimalizaci SEO, pouze pomocná informace

Microsoft SQL Server Full-text je součástí SQL Database Engine Lze vypnout/zapnout Lze doinstalovat

MySQL Fulltext index – pouze pro InnoDB a MyISAM a pouze pro sloupce typu char, varchar nebo Text Součást příkazu CREATE TABLE Od 5.7. podpora fulltextu pro čínštinu Full text vyhledání se spustí použitím MATCH() 3 typy vyhledání (natural language search, boolean search, query expansion search)

MySQL SELECT id, login from forum WHERE txt LIKE ('%MySQL%‘) Chybí vyhledávání s [] (je dle normy) SELECT jmeno, txt from forum WHERE subject LIKE ('%M[Sy]SQL%')

MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('slovo') Je case insensitive SELECT *, MATCH(sloupec1,sloupec2,sloupec3) AGAINST('slovo') AS score FROM tabulka

MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('+slovo -neco' IN BOOLEAN MODE) BOOLEAN MODE – není třeba mít vytvořený fulltext index, ale je pomalejší

MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('+banan ~jablko' IN BOOLEAN MODE) Vybere řádky obsahující banán a jablko, avšak řádky, kde se nachází i jablko, budou mít nižší skóre.

Elastic Search Fulltextový vyhledávač Apache Lucene Zdarma, licence Apache RESTful rozhraní (JSON, HTTP) Vyvíjený v Javě, webové rozhraní Data v reálném čase, možnost škálování http://www.elasticsearch.org Využívá GitHub, SoundCloud atd.

Elastic HQ – nástroj pro práci s ElasticSearch napsaný v JavaScriptu http://www.elastichq.org/app/index.php Doplněk Chrome Postman http://www.elasticsearchtutorial.com/elasticsearch-in-5-minutes.html

Apache Lucene Open-source full-textová knihovna napsaná v Javě Neobsahuje HTML parsing

Sphinx Open source fulltext engine http://www.sphinkssearch.com ODBC, pro MySQL, MariaDB a PostgreSQL nativní přístup API pro PHP, Java, Perl, Ruby a Python

ELK: ElasticSearch – Logstash - Kibana Logstash - Nástroj pro zpracování eventů a logů Kibana - Front-end klient https://www.youtube.com/watch?v=Kqs7UcCJquM

Další nástroje Atomz - fulltextový vyhledávač, neumí diakritiku ConText CZ/SK  http://www.sefira.cz/fulltext