Hranice slov a vět (němčina) Ondřej Dušek. Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek.

Slides:



Advertisements
Podobné prezentace
Olomouc, únor 2012.
Advertisements

Úprava písemností zpracovaných textovými editory (typografie)
Základní typografická pravidla
Vstup a výstup Ing. Lumír Návrat  katedra informatiky, A-1018 
ŘÍDÍCÍ STRUKTURY - PODMÍNKY
Programování v C jazyku - SEMINÁŘ
Textový procesor Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je MGR. MILOŠ NYGRÝN.
Dynamické dokumenty na straně klienta Informatika pro ekonomy II.
Zásady při pořizování rukopisů. Obecná pravidla  Používat znakové a odstavcové styly.  Zapnout automatickou kontrolu pravopisu.  Vypnout automatické.
Základy psaní textu Interpunkční znaménka tečka(.), čárka(,)
PRÁCE S TEXTEM Kapitola 3.
Programovací jazyk Perl
Pascal - větvení.
Opakování Co je výsledkem následujícího prográmku? my $a="kol"; my $b="o"; $a.= $b; $b.= $a; print "a = $a, b = $b\n"; Vkládání speciálních znaků? Uvozovací.
Příkazy Přednáška č. 4. Příkazy (statements)  Příkaz – dílčí krok programu (část kódu – zpravidla jeden řádek)  Program – posloupnost příkazů  Příkazy.
VISUAL BASIC Práce se soubory.
ZÁKLADNÍ TYPOGRAFICKÁ PRAVIDLA
53. Šrámkova Sobotka Sobotka 9. července 2009
Materiály k přednášce Úvod do programování Ondřej Čepek.
Příklady z Matlabu 4 Příklady na řídící příkazy , IF , SWITCH , FOR , WHILE , příkazy vstupu a výstupu INPUT a DISP.
MATLAB® ( část 3 - scripty).
WORD – typografické zásady úpravy textu
Maturitní otázka č. 12 Kristýna Kaňovská 4. A.
Informační a komunikační technologie 5. ročník
MS WORD I. ZÁKLADNÍ EDITACE TEXTU Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Světlana Filipová. Materiál zpracován v rámci projektu.
A1PRG - Programování – Seminář Ing. Michal Standardní knihovní funkce pro práci se soubory 13 Verze
Základní typografické zásady
Word Textový editor.
Klávesnice a myš Bohumil Bareš.
INFORMATIKA 8 Zásady pro úpravy textů III2 – I8- 14.
Textový procesor MS Office Word , SB 305, – h
Jiří Znoj - zno Tvorba konkordace Algoritmy II 3. projekt, 5. zadání Jiří Znoj - zno
Základní typografická pravidla
3. Příkazy  Příkazy dělíme na jednoduché a strukturované.  Jednoduché příkazy - žádnou jejich dílčí částí neni příkaz - přiřazovací, vstupu a výstupu,
Využití multimediálních nástrojů pro rozvoj klíčových kompetencí žáků ZŠ Brodek u Konice reg. č.: CZ.1.07/1.1.04/ Předmět : Informační a komunikační.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Jazyk XML Jazyk pro tvorbu strukturovaných dokumentů Syntaxí velmi podobný HTML Hlavní cíle návrhu: Snadná editace - jazyk je textový Snadné strojové zpracování.
Anotace Žák se seznámí se základy psaní textu ve Wordu a pohyb po dokumentu. Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže napsat, opravit a smazat.
UNIX — doplňky Informatika pro ekonomy II přednáška 9.
WORD 2010 Karta Domů, skupina Odstavec. Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309,
3. ČÁST EDICE Microsoft Office PowerPoint & OpenOffice.org Impress Načítání… Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Josef Ledvoň.
7. Typ soubor Souborem dat běžně rozumíme uspořádanou množinu dat, uloženou mimo operační paměť počítače (na disku). Pascalský soubor je abstrakcí skutečného.
UNIX Shell skripty Roman Danel VŠB TU Ostrava, Hornicko – geologická fakulta.
Základy psaní textu Interpunkční znaménka tečka(.), čárka(,)
Práce s řetězci Řetězec je libovolný text nebo libovolná skupina znaků. Řetězec se také označuje jako string. Činnosti prováděné s řetězci: Počítání znaků.
Problémy s češtinou České znaky se standardně nepovažují za alfanumerické znaky (\w) Vadí to při třídění vyhodnocování regulárních výrazů Je třeba použít.
Práce s textem a základy počítačové typografie. Seznam nejznámějších programů CWord, WordPerfect,OpenOffice, StarOffice CT602, ChiWriter CVenturaPublishing,
WORD 2010 Karta Domů, skupina Odstavec. Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309,
Soubory BI-PA1 Programování a algoritmizace 1, ZS Katedra teoretické informatiky © Miroslav Balík Fakulta informačních technologií České vysoké.
ZÁKLADNÍ POJMY. ZDROJOVÝ TEXT PROGRAMU Tvoří: klíčová slova komentáře identifikátory.
doc. RNDr. Zdeněk Botek, CSc.
Balíky Hlavní balík - main - zatím jsme s jiným nepracovali Rozdělují tzv. namespaces = množiny jmen pro proměnné $lemma = "cukr"; znamená $main::lemma.
Ovladače souboru a funkce glob Přiřazení ovladače souboru – Nelze VSTUP = INPUT – Ale *VSTUP = *INPUT Vše, co se jmenuje INPUT bude přejmenováno na VSTUP.
KLIENT školení pro pokročilé Duben Klient - program Nahrání klienta, sériové číslo Poplatky od června, celoroční? –(v červnu bude splátka za rok.
Pascal - větvení.
Typografie a zpracování textů
Název:VY_32_INOVACE_ICT_9A_19B Škola:Základní škola Nové Město nad Metují, Školní 1000, okres Náchod Autor:Mgr. Milena Vacková Ročník:9. Tematický okruh,
Typografie – hladká sazba Gymnázium a Jazyková škola s právem státní jazykové zkoušky Svitavy Ditta Kukaňová.
Prezentace Powerpoint 1 Prezentace vznikla v rámci projektu Škola 21. století, reg. číslo: CZ.1.07/1.3.06/ , který realizuje ZŠ a MŠ Lomnice nad.
Škola ZŠ Třeboň, Sokolská 296, Třeboň Autor Mgr. Miroslava Tomanová
Zdroj napájení a klávesnice
Výukový materiál zpracován v rámci projektu
Word – textový editor.
VY_32_INOVACE_03_Klávesnice
Hranice slov a vět Ondřej Tichý.
Espacenet Seminář Patentové databáze přístupné na internetu
Word - základní typografická pravidla
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
DIGITÁLNÍ UČEBNÍ MATERIÁL
Algoritmizace a datové struktury (14ASD)
Transkript prezentace:

Hranice slov a vět (němčina) Ondřej Dušek

Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek sent.pl  dělení vět (předpokládá formát z token.pl a volitelně seznam zkratek ze sentrain.pl)‏

Zpracování souborů if ){ ){ open( INPUT, $ARGV[0] ); process_file( \*INPUT ); ); } else { process_file( \*STDIN ); } ## sub process_file { my $file = $_[0]; while( ){...

Unicode character properties v regular expressions: [\p{Property}] Letter, Number, Punctuation, Symbol Lowercase_Letter, Uppercase_Letter (ale ne uncased)‏ Close_Punctuation, Open_Punctuation (závorky)‏ Initial_Punctuation, Final_Punctuation (uvozovky, bohužel poplatné angličtině)‏ STerm (konce věty)‏

Dělení slov Hledání pomocí reg. výrazů, „odkrajování“ $line =~ m/regexp/g; end = pos $line; substr( $line, 0, $end )); $line = substr( $line, $end ); regexpy pro URL a maily speciální ošetření data  regexpem nahrubo, zbytek zvláštní funkce

Statistika hledání tečky mimo konec řádku uchovávání v asociativním poli zahrnutí četnosti formát výstupu: \n zpětné načtení stejné

Hranice vět hledání symbolů konce věty a testování spec. funkcí:  porovnání se zkratkami  vyloučení řadových číslovek (není 100%)‏  průchod uvozovkami  následovat musí velké nebo necasované písmeno, interpunkce nebo číslo  problém s character properties a uvozovkami „devítky dole“

Výsledek 8 chybových míst na 321 testovacích větách  (přesně -8, +1; jen přibližné, nutné zahrnout odstavce nebo počítat slova)‏ problémy:  uvozovky „z psacího stroje“  zkratky na konci věty / zkratky, které nejsou zkratky  zvláštní znaky (lomítko na zač. věty ~ text písně)‏ vylepšení?  threshold na zkratky  hledání uzávorkování na uvozovkách

Technický dotaz Ve Windows příkaz perl token.pl soubor.txt | perl sent.pl > vystup.txt funguje, ale token.pl soubor.txt | sent.pl > vystup.txt ne, i když by měly být ekvivalentní -- proč?