Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský, ÚFAL, 2005
Učení a klasifikace ➲ Učení: ● ulož trénovací příklady do paměti ➲ Klasifikace testovacího příkladu X: ● porovnej X s každým příkladem v paměti: ● spočítej vzdálenost mezi X a příkladem v paměti ● aktualizuj k dosud nalezených nejbližších příkladů (sousedů) ● nejvýznamnější třídu mezi k nejbližšími sousedy vezmi jako klasifikaci příkladu X
Vlastnosti MBL ➲ příklad tzv. líné metody ➲ dobře zobecňuje ➲ dobře zvládá výjimky ➲ neabstrahuje ➲ náročná na paměť a práci s ní
Parametry ➲ jádro algoritmu MBL ➲ tři hlavní parametry: ● reprezentace příkladů ( samozřejmě, jako u všech ostatních metod strojového učení ) ● určení podobnosti příkladů (metrika) ● výběr nejvýznamnější třídy z k nejbližších sousedů
Metriky -metrika překrytí ➲ metrika překrytí ● počet atributů s různými hodnotami (u nečíselných atributů)
Metriky -MVDM ➲ Modified Value Difference Metric (modifikovaná metrika různosti hodnot) ● pro nečíselné atributy ● 'p' a 'b' ve fonetice jsou podobnější než 'p' a 'a' ● jak často se v 1 vyskytuje se stejnými třídami jako v 2
Metriky -váhy atributů ➲ různé váhy atributů ● výpočet vah: např. informační zisk: ● spočítej základní entropii dat H ● pro každý atribut: ● rozděl data na množiny dané hodnotami atributu ● spočítej entropii každé z těchto množin ● spočítej váženou průměrnou entropii těchto množin ● rozdíl této vážené průměrné entropie a základní entropie dat H je informační zisk daného atributu
Výběr z k nejbližších sousedů ➲ třída s největší četností vyhrává ➲ hlasování vážené vzdáleností ● lineárně, inverzně, exponenciálně ➲ řešení nerozhodných případů
TiMBL ➲ Tilburg Memory-Based Learner ➲ ➲ zdarma pro výzkum a vzdělávání ➲ implementace mnoha variant MBL