Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilBára Kubíčková
1
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub
2
Zadání Stáhněte a rozchoďte PC-Kimmo Vytvořte do PC-Kimmo slovník (soubor.lex) a pravidla (soubor.rul) pro slovní druh - slovesa K dispozici dostanete anotovaný korpus PDT Gramatiku si zjistěte v mluvnici (doporučená: Příruční mluvnice češtiny)
3
Gramatika Čas přítomný: Způsob oznamovací: kmen prézentní + osobní koncovka (nes+u, nes+eš, nes+e, nes+eme...) slovesa se dělí na dva podtypy => podle toho se volí osobní koncovky I. nesu neseš nese... II. prosím prosíš prosí... volám voláš volá...
4
Gramatika Čas přítomný: Způsob rozkazovací: kmen prézentní + koncovky 2. os. sg: -0, -i, -ej 1. os. pl: -me, -eme/ěme, -ejme 2. os. pl: -te, -ete/ěte, -ejte Čas minulý kmen minulý + koncovky (-l, -la, -lo, -li, -ly) sg. pl. 1. os. nesl nesli/nesly 2. os. nesl nesli/nesly 3. os. nesl/nesla/neslo nesli/nesly/nesla
5
Gramatika Kmen prézentní X Kmen minulý Většina sloves má kmen minulý jiný než kmen prézentní !!! Není možné algoritmicky převést jeden kmen na druhý Velké rozdíly i u velmi podobných sloves brát : ber – bra hrát : hraj – hrá
6
Program Účel programu je získat z korpusu všechny prézentní a minulé kořeny sloves, jejich infinitiv a skupinu koncovek, která může následovat Popis algoritmu: - Definujeme pole koncovek minulých a přítomných – každé zvlášť - Pro koncovky přítomné definujeme jejich podtřídu podle tvaru koncovky - Pro každé sloveso (1 znak v anotaci = V): začátek cyklu - Pokud je druhý znak v anotaci f – infinitiv – nemá koncovku (\alt End) - Jinak pokud je devátý znak v anotaci P (přítomný čas), postupně porovnáváme koncovku slovesa s přítomnými koncovkami – najdeme-li shodu, koncovku odtrhneme, zjistíme podtřídu a zapíšeme pokračování pro přítomné koncovky dané podtřídy (např. VPresentSufT1)
7
Program - Jinak pokud je devátý znak v anotaci R (minulý čas), postupně porovnáváme koncovku slovesa s minulými koncovkami – najdeme-li shodu, koncovku odtrhneme a zapíšeme pokračování pro minulé koncovky - Pokud se tvar slovesa po odtržení (kmen) již v lexikonu nevyskytuje přidáme ho do pole (společne s infinitivem, pokračováním a slovním druhem) konec cyklu - Seřadíme pole podle abecedy – klíčem je kmen - Vložíme pole do souboru
8
Struktura
9
Problémy Problémy korpusu: - Cizojazyčná slovesa - V české abecedě nevyskytující se znaky - Překlepy - Gramatické chyby či nespisovné výrazy - Nejsou obsažena všechna slovesa v čase minulém, přítomném a infinitivu Problémy lexikonu: - V pravidlech nejsou aplikována jiná než defaultní pravidla - Není zařazen rod trpný a přechodníky
10
Ukázka korpusu
11
Ukázka lexikonu Slovesa Koncovky
12
Ukázka výstupu
13
Závěr Má práce byla poměrně náročná a vyžadovala nastudování mnoha materiálů. I přes ohromnou nepravidelnost a variabilitu českého jazyka, přes mnohé uvedené problémy a absenci pravidel jsem si jist, že analýza zadaného slovesa bude z minimálně 80 procent úspěšná a přesná. Myslím, že toto je velmi dobrý výsledek.
14
Děkuji za pozornost
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.