Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.

Slides:



Advertisements
Podobné prezentace
IKT PHP PHP Tvorba formuláře - 10 Mgr. Josef Nožička
Advertisements

Testy pro testování žáků 5. a 9. tříd 2012
Metody plánování údržby. Úvod Tento popis je věnován různým metodám plánování údržby v programu STROJEW. Existuje několik vhodných metod a pro výběr té.
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Úprava fotografií - koláž
SMS brána Eurotel Jednoduché OCR pomocí neuronových sítí Marek Kukačka
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
Základy informatiky Ing. Roman Danel, Ph.D.
Výpočetní technika Akademický rok 2006/2007 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
Programujeme Google Gadgets Miroslav Slavík Copyright © Gug.cz, 2007 Gug.cz.
Rozložení EEG elektrod (10-20 system)
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
Komprese barev Jakub Gemrot Ondřej Burkert. Popis problému Běžné obrázky mají 16,7 mil. barev Běžné obrázky mají 16,7 mil. barev Problém: Jak je rozumně.
Co takhle DOTAZY? OBSAH: Y 1) Co jsou to dotazy ve WinBase Y 2) Vytvoření jednoduchého dotazu Y 3) Použití dotazu.
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
Neuronové sítě Jakub Krátký.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
SEO SEO Optimalizace webových stránek pro vyhledávače Jan Nemrava, KIZI, FIS VŠE
Online nástroje pro Váš lepší web Helena Šimková.
Microsoft Access Prezentace základních uživatelských nástrojů
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Řízení a supervize v sociálních a zdravotnických organizacích
BAKALÁŘSKÁ PRÁCE Tomáš Janda
Tutoriál Vyhledávání v obchodních databázích Business Source
Relační databáze.
Zavádění a údržba informačních systémů
PPC workshop Lukáš Pokorný RobertNemec.com. PPC audit Podle struktury účtu: kampaně, sestavy, slova, inzeráty První věc po převzetí účtu nebo při zjišťování.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová II. Vzorce v Excelu Tipy pro práci s Wordem.
PACIENTOVO POJETÍ NEMOCI
Biostatistika 6. přednáška
Martin Komenda, Jan Švancara, Jiří Jarkovský, Ladislav Dušek Co lze vidět nad projektem OPTIMED: Validační analýza.
PHP Vytváření formuláře.
Jak mravenč í kolonie dobývaj í znalosti Daniel Vodák a Luboš Popelínský Laboratoř dobývání znalostí Fakulta informatiky MU Brno
Databáze velké množství dat pevně dané struktury
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Tvorba videoserveru Zdeněk Špulák. Obsah co je to videoserver cíle projektu použité technologie a programy použité kodeky splnění cílů závěr.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
Dita Matesová, David Lehký, Zbyněk Keršner
Didaktické testy II Psychometrická analýza úloh a testů podle klasické teorie testování Martin Chvál Brno,
Úlohy pro rozvoj přírodovědné gramotnosti
Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.
Odhad ceny akcií Martin Dörfler, Jiří Marchalín. Původní metoda  odhad ceny akcií pomocí neuronové sítě v závislosti na minulých hodnotách kombinací.
Cenová mapa podnájmů v Praze Ondřej Kmoch Tomáš Kohan
Analýza kvantitativních dat I. Vstupní test ze znalostí designu kvantitativního sociologického výzkumu Jiří Šafr jiri.safr(at)seznam.cz poslední aktualizace.
Neuronové sítě.
Využití neuronových sítí IVTH – Informační technologie ve vodním hospodářství Vypracoval: Jiří Vacek Z-92.
Databáze MS ACCESS 2010.
1 Kurz XHTML a CSS Část 1: Náš první XTHML dokument a jeho publikace na internetu.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Integrační trendy při tvorbě multimediálních výukových portálů pro medicínu a zdravotnictví V. Mihál, J. Potomková Lékařská fakulta Univerzity Palackého.
Vytvoření rozevíratelného pole Access (13). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická.
Tribuna českého obchodu TZB
Testování biometrického systému založeného na dynamice podpisu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Pij s rozumem: Vyhodnocení webu a FB 2015.
Výpočetní technika Akademický rok 2008/2009 Letní semestr
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Neuronové sítě.
Optimalizace SQL dotazů
Metodologie pro ISK 2 Úvod do práce s daty
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Neuronové sítě.
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Základy statistiky.
Test silných stránek (Scio)
Transkript prezentace:

Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008

 Analýza závislosti počtu zobrazení videí na YouTube.com na vybraných atributech ◦ počet hodnotících ◦ průměrné hodnocení ◦ počet textových komentářů ◦ počet klíčových slov ◦ počet uživatelů, kteří mají video v oblíbených položkách ◦ počet dní od publikace videa  Zajímají nás spíše vyšší řády sledovanosti 2Dobývání znalostí, MFF UK, 2008

 Prostředky ◦ YouTube API  ◦ PHP  Získávání (aspoň trochu náhodně vybraných) dat ◦ API nenabízí možnost vybírat náhodná data ◦ náhodný výběr 100 slov delších než 2 znaky z téměř 2300 nejpoužívanějších anglických slov  odstranění větší části předložek, spojek, atd. ◦ pro každé z těchto slov seznam 1000 videí s nejvyšší sledovaností i s jejich atributy ◦ výsledkem je přibližně záznamů 3Dobývání znalostí, MFF UK, 2008

 Prostředky ◦ bash & linux‘s bin-utils  Postup  skript v bashi  odstranění duplicitních záznamů  odstranění nevhodných záznamů (špatná nebo chybějící informace)  výběr sloupců  zůstalo cca záznamů 4Dobývání znalostí, MFF UK, 2008

 Prostředky ◦ analýza pomocí toolboxu pro neuronové sítě v MATLABu  Postup ◦ import dat (csvimport) ◦ min-max normalizace (mapminmax) ◦ neuronová síť s algoritmem zpětného učení z průvodce nftool  několik sítí s různým počtem skrytých neuronů a různými rozloženími dat na trénovací, validační a testovací 5Dobývání znalostí, MFF UK, 2008

 Přehled  všechny čtyři sítě dávaly srovnatelné výsledky 6Dobývání znalostí, MFF UK, 2008 ## skrytých neuronů Rozložení dat (tr./val. /test.) Střední kvadr. chyba při testu Míra závislosti při testu 12060%/20%/20%0,002640, %/20%/20%0,002520, %/10%/10%0,002810, %/10%/10%0,002540,885

Dobývání znalostí, MFF UK, 20087

8

 neuronová síť s algoritmem zpětného učení se zdá být vhodným nástrojem pro analýzu dané závislosti  závislost sledovanosti na vstupních atributech existuje  z předchozího grafu je dobře vidět, že čím lepší hodnocení video má, tím spíše má šanci se stát jedním z těch, kteří mají vysokou sledovanost  sledovanost videa není závislá na vlastním obsahu, ale je závislá na jeho hodnocení, klíčových slovech a době, jak dlouho je již publikováno 9Dobývání znalostí, MFF UK, 2008

 co z toho plyne pro uživatele, který chce publikovat videa? ◦ měl by video přidělovat klíčová slova, pokud možno z co nejběžnějšího jazyka ◦ měl by odkaz na publikované video poslat co nejvíce kamarádům stejného vkusu ◦ kamarádi by měli hodnotit, a to pokud možno co nejvíce kladně ◦ a také by měli psát komentáře... ◦... a potom bude mít video šanci být jedním z těch, které mají vysokou sledovanost Dobývání znalostí, MFF UK,