Analýza staročeské morfologie v Excelu

Slides:



Advertisements
Podobné prezentace
Vzdělávání v eGonCentru ORP Boskovice
Advertisements

Textový procesor (MS Word)
Microsoft Office Access
Kancelářské balíky Historie a současnost.
Digitální učební materiál
Příprava odborného textu pro výuku PAVEL KURFÜRST Ústav cizích jazyků LF UP Konference Cizí jazyky na Univerzitě Palackého Olomouc, 20. dubna 2006.
R OZŠÍŘENÉ ŠKOLENÍ APLIKACE M ICROSOFT E XCEL Představení společnosti Školení aplikace Microsoft Excel.
VOKABULÁŘ WEBOVÝ aneb HISTORICKÉ SLOVNÍKY NA INTERNETU
53. Šrámkova Sobotka Sobotka 9. července 2009
OPERAČNÍ SYSTÉMY Hanuš HOLZER 2 EPi. Kancelářské programy Linux ( Ubuntu, Slax ) & Windows Vista.
Pro Nekonečno – RC Palouček
MS WORD pro pokročilé Zvyšování IT gramotnosti zaměstnanců vybraných fakult MU Martin Komenda.
Výpočetní technika Akademický rok 2011/2012 Letní semestr Novák Petr
Ing. Jaroslav Parma.  Seznámení s MS OFFICE 2010  PROCVIČENÍ PROGRAMŮ MS OFFICE 2010  DISKUSE  ZÁVĚR.
Střední škola služeb a podnikání, Ostrava-Poruba příspěvková organizace Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:
Microsoft Office PowerPoint
Analýza dat Jiří Slabý Nástroje pro analýzu dat SQL SERVER - součást Small Business serveruSQL SERVER - součást Small Business serveru Kontingenční tabulkyKontingenční.
Výrobní linka pro přípravu a distribuci elektronických knih Tomáš Businský MBA. Nezávislý konzultant V Praze dne
Tabulkový procesor.
Databáze Tabulky a typy dat VY_32_INOVACE_7B11. Proč datové typy ? Abychom mohli do tabulky vložit data, musíme jednotlivým polím (sloupcům) přiřadit.
Tento vzdělávací materiál vznikl v rámci projektu EU – peníze školám Název projektu : Objevujeme svět kolem nás Reg. číslo projektu: CZ.1.07/1.4.00/
Anotace Žák dokáže v aplikací MS Word vytvořit tabulku Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže v aplikaci MS Word vytvořit, upravit a formátovat.
N OVINKY V O FFICE 2010 Miroslav Drška. Historie Office pro Windows Word 1.0 pro MS- DOS – první textový editor, který používal myš Uveden.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Referát č. 17 Tabulkový procesor
Referát č. 17 M. Novotný Tabulkový procesor (filtrování a řazení dat, formuláře, podmínky a podmíněné formátování, export a import dat) Vysvětlit pojmy.
* Slouží pro vytváření a úpravu textových dokumentů. * Dnešní pokročilé textové procesory umožňují do dokumentu vkládat kromě textu i obrázky, videa,
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová II. Vzorce v Excelu Tipy pro práci s Wordem.
Tabulky – vyhledávání (v dalších tabulkách pomocí relací)
Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorIng. Ivana Brhelová Název šablonyIII/2.
Práce s tabulkami.
Identifikátor materiálu: EU
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Spolupráce aplikací MS Office Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Miloš Nygrýn.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová III. Kontingenční tabulky v Excelu.
ZÁKLADNÍ ROZDĚLENÍ SOFTWARE
Univerzita třetího věku kurz Pokročilý Tabulkový procesor 3.
Databáze velké množství dat pevně dané struktury
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
VY_32_INOVACE_51_Microsoft_Office_2010. Autor : Trýzna Stanislav Školní rok : 2011/2012 Určeno pro : šestý ročník Předmět: informatika Téma : základní.
InstantAtlas dynamické webové interaktivní atlasy.
Microsoft SQL server Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T.G. Masaryka, Kostelec nad Orlicí.
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Možnosti využití programu HYDATA. Co je HYDATA? program pro tvorbu databáze dat a jejich dalšího zpracování –(srážky, průtok, výpar a další meteorologická.
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
Microsoft Office Excel – práce s tabulkami a analýzy
filtrování a řazení dat, podmíněné formátování,
POPR Počítačová podpora řízení Základní, rozšířené a pokročilé znalosti v Excelu.
Statistika v SAS (SAS STUDIO)
Číslo projektu: CZ.1.07/1.4.00/ Název DUM: MS Excel Číslo DUM: III/2/VT/2/2/31 Vzdělávací předmět: Výpočetní technika Tematická oblast: Software.
Databáze MS ACCESS 2010.
Rozdíl mezi databází a tabulkou Rozdíl mezi Accessem a Excelem
Tabulkové editory © Tabulkové editory slouží k: vytváření a úpravě tabulek na rozdíl od textových editorů jsou tabulky v těchto editorech aktivní,
Autor:Ing. Pavel Brož Předmět/vzdělávací oblast:Informační a komunikační technologie Tematická oblast:Práce se standardním aplikačním programovým vybavením.
Anotace: Kancelářský balík od firmy Microsoft je nejčastěji používané řešení ve firmách i domácnostech. Žáci získají přehled o tomto produktu, získají.
TEXTOVÝ EDITOR Karin Tylšerová. Textový editor je software, kterým je možné editovat prostý text. Neobsahuje žádné informace o formátování, jako je použití.
Import dat Access (16). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
Databáze MS ACCESS 2010.
KIV/ZD cvičení 8 Tomáš Potužák.
Ukládání dat biodiverzity a jejich vizualizace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Textový Editor.
Textový editor Lada Juráňová.
Vítejte na tréninku MS Excel!
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Číslo projektu: CZ.1.07/1.4.00/ Název DUM: MS Excel
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
POPR Počítačová podpora řízení
Prameny pro poznání historické češtiny na internetu
Microsoft office - Seznámení Více výukových souborů najdete na stránce: emagister.proweb.cz
Transkript prezentace:

Analýza staročeské morfologie v Excelu Boris Lehečka, boris@daliboris.cz oddělení vývoje jazyka Ústav pro jazyk český AV ČR Lingvistika Praha 2014 11. dubna 16.00

Boris Lehečka boris@daliboris.cz oddělení vývoje jazyka ÚJČ AV ČR programátor s lingvistickými základy Vokabulář webový <http://vokabular.ujc.cas.cz> materiály ke stažení http://vokabular.ujc.cas.cz/informace.aspx?t=LP2014 http://bit.ly/1qmOjzD

Obsah Účel analýzy Auditorium Excel deklinace staročeských apelativ časové období vzory Auditorium anketa Excel Power Query import a transformace datových zdrojů programovací jazyk

Obsah Excel Vstupy Ukázka PowerPivot Kontingenční tabulky a grafy stamiliony položek tabulky relace Kontingenční tabulky a grafy Vstupy výchozí po transformaci pomůcky Ukázka

Účel analýzy deklinace staročeských apelativ časové období vzory disertační práce Pavlíny Jínové časové období vzory lemmata koncovky ověření výskytu tvaru/tvarů

Anketa Kdo používá Excel? Jakou verzi Excelu? Jakou edici Excelu? 2010 2013 jinou (např. Office 365 pro vysokoškoláky) Jakou edici Excelu? Home and Student Professional Kdo zná PowerPivot? Kdo zná Power Query? Kdo zná vertikálu? Příprava dat, nebo kontingenční tabulky/grafy v Excelu?

Vstupy Staročeská textová banka Metadata Vertikála identifikátor zkratka období vzniku literární žánr atp. (podle potřeby) Vertikála poznámky = metainformace

Staročeská textová banka – metadata

Staročeská textová banka – Word

Vstupy Slovníky ESSČ (Přib–ž, ž–ch) MSS (a–ž) StčS (n–při) GbSlov (a–netbanlivý) formát XML

Úpravy vstupů Vertikála kategorizace tokenů jazyk torzo funkce (interpunkce, číslo) relevance segmentace tokenů na fonogramy zakončení 1–3 fonogramy

Fonogram m ú ch a š ě ou e d ie v k a í h o s t ie í h o s t i e í grafická jednotka korespondující s fonémem změna fonému v důsledku hláskoslovného vývoje, flexe a/nebo slovotvorby znamená změnu fonogramu m ú ch a š ě ou e d ie v k a í h o s t ie í h o s t i e í

Úpravy vstupů Metadata o textech Slovníky výběr údajů datace časová období převod z XML na CSV Slovníky lemma slovní druh morfologická charakteristika

Úpravy vstupů – nástroje C# transformace DOCX > XML XML > VERT VERT > TAB Metadata > TAB OpenRefine http://openrefine.org analýza vstupů statistiky redefinice vlastností

Excel – Power Query Doplněk Princip verze 2.10.3598.81 pro Excel 2010 a 2013 podmínky Windows Vista až Window 8.1 Office 2010 Professional Plus + SA Office 2013 Professional Plus, Office 365 ProPlus, Excel 2013 Princip import dat z různých zdrojů nový programovací jazyk není třeba řešit zabezpečení maker

Excel – PowerPivot Microsoft SQL Server 2012 PowerPivot for Excel Doplněk pro Excel 2010 od Excelu 2013 je již součástí programu verze 11.0.3129.0 Podmínky Windows XP SP3 až Window 8 Office 2010 zdarma pro všechny edice v Excelu 2013 návrh pouze v edici Professional 64bitová verze (pro velké objemy dat)

Excel – PowerPivot Princip Nevýhody stamiliony záznamů tabulky relace nerozlišuje velikost písmen M : N text != jedinečný klíč textová data velký objem bez redukce

Excel – PowerPivot Kontingenční tabulky Kontingenční grafy Průřezy

Excel – doporučení Vstupní data Import v PowerPivotu textové soubory rychlé generování lze i v Excelu identifikátory relace tabulky v sešitě ad hoc metadata aktualizace v PowerPivotu v Excelu Import v PowerPivotu nejprve nastavit parametry, pak vybrat soubor první řádek jako názvy, až po výběru souboru

Ukázka Metadata XML TXT úpravy Textová banka Word XML TEI P5 Vertikála

Ukázka PowerPivot kontingenční tabulka kontingenční graf import dat vytvoření relací počítané sloupce míry testovací data malý objem kontingenční tabulka vytváření interaktivita průřezy pro více objektů kontingenční graf

Ukázka Power Query Sešit Tokeny vytvoření dotazu opětovné spuštění dotazu Sešit Tokeny reálná data připravené tabulky připravené grafy tabulka a graf na přání

Analýza morfologie v Excelu Plusy off-line není třeba korpusový manažer opakovatelnost (s jinými daty) ad hoc analýzy kontingenční přehledy zdarma (pro Excel 2010) Minusy příprava vstupních dat chybí kontext bez pokročilých analýz

Postupy Míry Identifikátory Aktualizace Průřezy Formátování čísel Velikost písmen Identifikátory Aktualizace PowerPivot Kontingenční tabulky Propojené tabulky Power Query Soubory Průřezy Automaticky generované míry mají obecné formátování, tj. bez oddělovačů tisíců. Je vhodné nejprve vytvořit vlastní míry, nastavit jim správné formátování a pak je použít v kontingenční tabulce. Formát nastavovat v pásu karet, lépe je z nabídky Formát vybrat položku "Další formáty..." a nastavit vše ze zobrazeného dialogu. PowerPivot velikost písmen v názvech nerozlišuje. Při vytvoření Míry se vygeneruje automatický název ve tvaru "označení vzorce" + "název pole". Pokud se mění pouze jedno písmeno na malé, je potřeba v názvu změnit na jiné písmeno, pak na správné malé písmeno, např. Součet Frekvence > Součet prekvence > Součet frekvence. Nerozlišování velikosti platí např. i pro označení souboru v nastavení propojení. Pro tabulku je vhodné z karty Rozšířené > Vlastnosti sestav > Chování tabulky nastavit identifikátor tabulky (jedinečný identifikátor řádku) - díky tomu se v generovaných přehledech nebude automaticky sčítat, ale počítat. karta PowerPivot > Data aplikace Excel > Aktualizovat vše. Přepne do okna PowerPivotu, kde je potřeba na kartě Domů > Načíst externí data > Aktualizovat vybrat Aktualizovat vše. Při zobrazení jiného seznamu lze nastavit ruční aktualizaci (pomocí tlačítka). Hodí se při návrhu kontingenčních tabulek s velkým počtm řádků. Při ruční aktualizaci nefungují rozbalovací tlačítka uvnitř tabulky. Až po aktualizaci v PowerPivotu. Na kartě Data > Připojení, tlačítko Aktualizovat vše (Ctrl + Alt + F5). Propojené tabulky: v PowerPivotu karta Odkazovaná tabulka, tlačítko Aktualizovat vybrané Textové soubory musejí mít správnou podobu CSV, tj. Včetně řídících sekvencí pro dvojité rovné uvozovky a pro delimitátor. Pokud se změní kódování, i port se nepovede: UTF8 s/bez signatury. Přejmenované a vypuštěné sloupce: lze, ale přináší to komplikace. Společné průřezy nezapomenout propojit s novými tabulkami (jinak se rozejdou počty). Nezávislé průřezy lze vložit přes kontextovou kartu Možnosti > Seřadit a filtrovat > Vložit průřez. Po odstranění tabulky se odstraní i průřez.