Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza staročeské morfologie v Excelu

Podobné prezentace


Prezentace na téma: "Analýza staročeské morfologie v Excelu"— Transkript prezentace:

1 Analýza staročeské morfologie v Excelu
Boris Lehečka, oddělení vývoje jazyka Ústav pro jazyk český AV ČR Lingvistika Praha 2014 11. dubna 16.00

2 Boris Lehečka boris@daliboris.cz oddělení vývoje jazyka ÚJČ AV ČR
programátor s lingvistickými základy Vokabulář webový <http://vokabular.ujc.cas.cz> materiály ke stažení

3 Obsah Účel analýzy Auditorium Excel deklinace staročeských apelativ
časové období vzory Auditorium anketa Excel Power Query import a transformace datových zdrojů programovací jazyk

4 Obsah Excel Vstupy Ukázka PowerPivot Kontingenční tabulky a grafy
stamiliony položek tabulky relace Kontingenční tabulky a grafy Vstupy výchozí po transformaci pomůcky Ukázka

5 Účel analýzy deklinace staročeských apelativ časové období vzory
disertační práce Pavlíny Jínové časové období vzory lemmata koncovky ověření výskytu tvaru/tvarů

6 Anketa Kdo používá Excel? Jakou verzi Excelu? Jakou edici Excelu?
2010 2013 jinou (např. Office 365 pro vysokoškoláky) Jakou edici Excelu? Home and Student Professional Kdo zná PowerPivot? Kdo zná Power Query? Kdo zná vertikálu? Příprava dat, nebo kontingenční tabulky/grafy v Excelu?

7 Vstupy Staročeská textová banka Metadata Vertikála identifikátor
zkratka období vzniku literární žánr atp. (podle potřeby) Vertikála poznámky = metainformace

8 Staročeská textová banka – metadata

9 Staročeská textová banka – Word

10 Vstupy Slovníky ESSČ (Přib–ž, ž–ch) MSS (a–ž) StčS (n–při)
GbSlov (a–netbanlivý) formát XML

11 Úpravy vstupů Vertikála kategorizace tokenů
jazyk torzo funkce (interpunkce, číslo) relevance segmentace tokenů na fonogramy zakončení 1–3 fonogramy

12 Fonogram m ú ch a š ě ou e d ie v k a í h o s t ie í h o s t i e í
grafická jednotka korespondující s fonémem změna fonému v důsledku hláskoslovného vývoje, flexe a/nebo slovotvorby znamená změnu fonogramu m ú ch a š ě ou e d ie v k a í h o s t ie í h o s t i e í

13 Úpravy vstupů Metadata o textech Slovníky výběr údajů datace
časová období převod z XML na CSV Slovníky lemma slovní druh morfologická charakteristika

14 Úpravy vstupů – nástroje
C# transformace DOCX > XML XML > VERT VERT > TAB Metadata > TAB OpenRefine analýza vstupů statistiky redefinice vlastností

15 Excel – Power Query Doplněk Princip verze 2.10.3598.81
pro Excel 2010 a 2013 podmínky Windows Vista až Window 8.1 Office 2010 Professional Plus + SA Office 2013 Professional Plus, Office 365 ProPlus, Excel 2013 Princip import dat z různých zdrojů nový programovací jazyk není třeba řešit zabezpečení maker

16 Excel – PowerPivot Microsoft SQL Server 2012 PowerPivot for Excel
Doplněk pro Excel 2010 od Excelu 2013 je již součástí programu verze Podmínky Windows XP SP3 až Window 8 Office 2010 zdarma pro všechny edice v Excelu 2013 návrh pouze v edici Professional 64bitová verze (pro velké objemy dat)

17 Excel – PowerPivot Princip Nevýhody stamiliony záznamů tabulky relace
nerozlišuje velikost písmen M : N text != jedinečný klíč textová data velký objem bez redukce

18 Excel – PowerPivot Kontingenční tabulky Kontingenční grafy Průřezy

19 Excel – doporučení Vstupní data Import v PowerPivotu textové soubory
rychlé generování lze i v Excelu identifikátory relace tabulky v sešitě ad hoc metadata aktualizace v PowerPivotu v Excelu Import v PowerPivotu nejprve nastavit parametry, pak vybrat soubor první řádek jako názvy, až po výběru souboru

20 Ukázka Metadata XML TXT úpravy Textová banka Word XML TEI P5 Vertikála

21 Ukázka PowerPivot kontingenční tabulka kontingenční graf import dat
vytvoření relací počítané sloupce míry testovací data malý objem kontingenční tabulka vytváření interaktivita průřezy pro více objektů kontingenční graf

22 Ukázka Power Query Sešit Tokeny vytvoření dotazu
opětovné spuštění dotazu Sešit Tokeny reálná data připravené tabulky připravené grafy tabulka a graf na přání

23 Analýza morfologie v Excelu
Plusy off-line není třeba korpusový manažer opakovatelnost (s jinými daty) ad hoc analýzy kontingenční přehledy zdarma (pro Excel 2010) Minusy příprava vstupních dat chybí kontext bez pokročilých analýz

24 Postupy Míry Identifikátory Aktualizace Průřezy Formátování čísel
Velikost písmen Identifikátory Aktualizace PowerPivot Kontingenční tabulky Propojené tabulky Power Query Soubory Průřezy Automaticky generované míry mají obecné formátování, tj. bez oddělovačů tisíců. Je vhodné nejprve vytvořit vlastní míry, nastavit jim správné formátování a pak je použít v kontingenční tabulce. Formát nastavovat v pásu karet, lépe je z nabídky Formát vybrat položku "Další formáty..." a nastavit vše ze zobrazeného dialogu. PowerPivot velikost písmen v názvech nerozlišuje. Při vytvoření Míry se vygeneruje automatický název ve tvaru "označení vzorce" + "název pole". Pokud se mění pouze jedno písmeno na malé, je potřeba v názvu změnit na jiné písmeno, pak na správné malé písmeno, např. Součet Frekvence > Součet prekvence > Součet frekvence. Nerozlišování velikosti platí např. i pro označení souboru v nastavení propojení. Pro tabulku je vhodné z karty Rozšířené > Vlastnosti sestav > Chování tabulky nastavit identifikátor tabulky (jedinečný identifikátor řádku) - díky tomu se v generovaných přehledech nebude automaticky sčítat, ale počítat. karta PowerPivot > Data aplikace Excel > Aktualizovat vše. Přepne do okna PowerPivotu, kde je potřeba na kartě Domů > Načíst externí data > Aktualizovat vybrat Aktualizovat vše. Při zobrazení jiného seznamu lze nastavit ruční aktualizaci (pomocí tlačítka). Hodí se při návrhu kontingenčních tabulek s velkým počtm řádků. Při ruční aktualizaci nefungují rozbalovací tlačítka uvnitř tabulky. Až po aktualizaci v PowerPivotu. Na kartě Data > Připojení, tlačítko Aktualizovat vše (Ctrl + Alt + F5). Propojené tabulky: v PowerPivotu karta Odkazovaná tabulka, tlačítko Aktualizovat vybrané Textové soubory musejí mít správnou podobu CSV, tj. Včetně řídících sekvencí pro dvojité rovné uvozovky a pro delimitátor. Pokud se změní kódování, i port se nepovede: UTF8 s/bez signatury. Přejmenované a vypuštěné sloupce: lze, ale přináší to komplikace. Společné průřezy nezapomenout propojit s novými tabulkami (jinak se rozejdou počty). Nezávislé průřezy lze vložit přes kontextovou kartu Možnosti > Seřadit a filtrovat > Vložit průřez. Po odstranění tabulky se odstraní i průřez.


Stáhnout ppt "Analýza staročeské morfologie v Excelu"

Podobné prezentace


Reklamy Google