Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Dobývání znalostí z databází fulltext

Podobné prezentace


Prezentace na téma: "Dobývání znalostí z databází fulltext"— Transkript prezentace:

1 Dobývání znalostí z databází fulltext
Roman Danel Institut ekonomiky a systémů řízení

2 Co je Full-text Search Vyhledávání textu v souborech (databázích) v co nejkratším čase Soubory musí být na hledání připraveny (indexovány)

3 Indexace Seznam klíčových termínů Lemnatizace – nalezení kmene slova
Derivace – nalezení odvozených tvarů skloňováním a časováním

4 Pro snížení se používá např. bayesovský algoritmus
Problém Nejednoznačnost textu Dvojsmyslnost Falešně pozitivní nález – vyhledání dokumentu, které neodpovídají dotazu Pro snížení se používá např. bayesovský algoritmus

5 Prostředky pro zlepšení dotazů
Klíčová slova Hledání v polích Booleova logika v dotazech (and, not, or) Vyhledávání frází Konkordance ( shoda určitých sledovaných znaků) Blízkost vyhledávání Zástupné znaky („žolíkové“) Regulární výraz – komplikované, ale silné definování dotazu

6 Sémantika Disciplína zabývající se významem slov a znaků
Např. v HTML – tučný text je z pohledu sémantiky významnější než zbytek textu Využití u SEO (roboti a vyhledávači považují např. text v <h1> tagu za důležitý…) Týká se také odkazů na webu

7 Google bomba Optimalizace pro vyhledávače, často zlomyslná, využívá sémantiku odkazů – Google dříve usuzoval obsah stránky i podle textu odkazu (off-page faktor), poprvé 2001 Google sleduje cca 200 faktorů podle níž řadí výsledky vyhledávání (SERP), nestačí tedy jeden odkaz, navíc musí být odkazy ze stránek s vysokým PageRank Výsledkem je, že Google pak vrací na prvních místech stránku, po zadání negativně zabarveného dotazu Dnes již Google upravil vyhledávací algoritmy.

8 SERP Search engine result page – stránka výsledků vyhledávání
Umístění v SERP vypovídá o kvalitě a optimalizaci webu

9 GTPR Google Toolbar PageRank – přibližná aproximace PageRanku (ten Google nezveřejňuje z důvodu možného zneužití) Hodnoty 0 až 10 (logaritmicky); hodnota 4 je běžná, 5 větší projektu, 8 má v ČR jen několik webů Jak zjistit – instalace speciální nástrojové lišty (toolbaru) do prohlížeče

10 GTPR GTPR bývá aktualizován skokově (jednou za 2 až 4 měsíce)
Není to podklad pro optimalizaci SEO, pouze pomocná informace

11 Microsoft SQL Server Full-text je součástí SQL Database Engine
Lze vypnout/zapnout Lze doinstalovat

12 MySQL Fulltext index – pouze pro InnoDB a MyISAM a pouze pro sloupce typu char, varchar nebo Text Součást příkazu CREATE TABLE Od 5.7. podpora fulltextu pro čínštinu Full text vyhledání se spustí použitím MATCH() 3 typy vyhledání (natural language search, boolean search, query expansion search)

13 MySQL SELECT id, login from forum WHERE txt LIKE ('%MySQL%‘)
Chybí vyhledávání s [] (je dle normy) SELECT jmeno, txt from forum WHERE subject LIKE ('%M[Sy]SQL%')

14 MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('slovo') Je case insensitive SELECT *, MATCH(sloupec1,sloupec2,sloupec3) AGAINST('slovo') AS score FROM tabulka

15 MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('+slovo -neco' IN BOOLEAN MODE) BOOLEAN MODE – není třeba mít vytvořený fulltext index, ale je pomalejší

16 MySQL SELECT * FROM tabulka WHERE MATCH(sloupec1,sloupec2,sloupec3) AGAINST('+banan ~jablko' IN BOOLEAN MODE) Vybere řádky obsahující banán a jablko, avšak řádky, kde se nachází i jablko, budou mít nižší skóre.

17 Elastic Search Fulltextový vyhledávač Apache Lucene
Zdarma, licence Apache RESTful rozhraní (JSON, HTTP) Vyvíjený v Javě, webové rozhraní Data v reálném čase, možnost škálování Využívá GitHub, SoundCloud atd.

18 Elastic HQ – nástroj pro práci s ElasticSearch napsaný v JavaScriptu
Doplněk Chrome Postman

19 Apache Lucene Open-source full-textová knihovna napsaná v Javě
Neobsahuje HTML parsing

20 Sphinx Open source fulltext engine http://www.sphinkssearch.com
ODBC, pro MySQL, MariaDB a PostgreSQL nativní přístup API pro PHP, Java, Perl, Ruby a Python

21 ELK: ElasticSearch – Logstash - Kibana
Logstash - Nástroj pro zpracování eventů a logů Kibana - Front-end klient

22 Další nástroje Atomz - fulltextový vyhledávač, neumí diakritiku
ConText CZ/SK 


Stáhnout ppt "Dobývání znalostí z databází fulltext"

Podobné prezentace


Reklamy Google