Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Lingvistická terminologie

Podobné prezentace


Prezentace na téma: "Lingvistická terminologie"— Transkript prezentace:

1 Lingvistická terminologie
Počítačové zpracování přirozeného jazyka Lingvistická terminologie Daniel Zeman

2 Slovní druhy slovní druh part of speech podstatné jméno substantivum
noun přídavné jméno adjektivum adjective zájmeno pronomium pronoun číslovka numeralium numeral sloveso verbum verb příslovce adverbium adverb předložka, záložka prepozice, postpozice preposition, postposition spojka konjunkce conjunction částice partikule particle citoslovce interjekce interjection člen determiner, article

3 Rody a čísla rod genus gender mužský maskulinum masculine neživotný
inanimatum inanimate ženský femininum feminine střední neutrum neuter číslo numerus number jednotné singulár singular dvojné duál dual množné plurál plural

4 Pády a osoby pád casus case 1. nominativ nominative 2. genitiv
genitive 3. dativ dative 4. akuzativ accusative 5. vokativ vocative 6. lokál local 7. instrumentál instrumental osoba person 1st 2nd 3rd

5 Časy, vidy, způsoby čas tempus tense přítomný prézens present minulý
préteritum past budoucí futurum future neurčitek infinitiv infinitive vid aspect dokonavý perfektum perfect nedokonavý imperfektum imperfect způsob modus mode oznamovací indikativ indicative rozkazovací imperativ imperative podmiňovací kondicionál conditional

6 Slovesné rody, větné způsoby, stupně, zápory
voice činný aktivní active trpný pasivní passive tázací (zájmeno, věta…) interrogativum interrogative (ne)určitý (in)definite zápor negativeness kladný afirmativ affirmative záporný negativ negative stupeň degree (of comparison) 1. pozitiv positive 2. komparativ comparative 3. superlativ superlative

7 Větné členy přísudek predikát predicate podmět subjekt subject předmět
objekt object příslovečné určení adverbiale adverbial přívlastek atribut attribute přechodné sloveso tranzitivní verbum transitive verb nepřechodné sloveso intranzitivní verbum intransitive verb

8 Roviny zpracování přirozeného jazyka
Počítačové zpracování přirozeného jazyka Roviny zpracování přirozeného jazyka Daniel Zeman

9 Popis jazyka Gramatika Klasické gramatiky
soubor pravidel, popisujících, co je v jazyce přípustné Klasické gramatiky určeny lidem, kteří daný jazyk znají definice a pravidla na základě příkladů (skoro) žádné nástroje pro formalizaci; nelze naprogramovat Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …) formální popis lze naprogramovat a testovat na datech (textech)

10 Jazykové roviny Základní roviny, víceméně společné všem teoriím
pragmatika (znalost světa…), logika aj., mezivětné vztahy… sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis Každá rovina má vstupní a výstupní reprezentaci výstup z nižší roviny je vstup do následující vyšší roviny někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit analýza syntéza

11 Vztahy mezi rovinami C vyšší rovina R nižší rovina
jednoduchý složený vyšší rovina R nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dolů = od významu k výrazu.

12 Fonetická rovina Vstup: Výstup: Obsah: akustický signál
posloupnost fónů (zvuků — vektorů různých charakteristik, rysů, které lze vysledovat ve vstupním signálu) Obsah: základní: charakteristiky (např. délka samohlásky); silový slabičný přízvuk, tóny, délka samohlásek složené: fóny (kombinace hodnot) zapsané fonetickou abecedou suprasegmentální: intonace (větný přízvuk) klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod.

13 Fonetická rovina Cp Cp Cp fonetika akustický signál rys 3 rys 2 rys 1
fón z b a ņ k o u fonetika akustický signál

14 Fonetická rovina „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik: samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / … znělá / neznělá nosová / nenosová Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy.

15 Příklad: distinktivní rysy
Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d. Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (věc). Tento rozdíl však není distinktivním rysem v češtině: rána – ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky! V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í.

16 Fonologická rovina Vstup: Výstup: Obsah:
posloupnost fónů zapsaných ve fonetické abecedě Výstup: posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci), zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické) Obsah: základní: distinktivní rysy složené: hlásky (fonémy) vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině)

17 Fonologická rovina Cp Cp Cp fonologie R fonetika distinktivní rys 3
foném z b a n k o u fonologie R fonetika z b a ņ k o u

18 Fonologická rovina Žádné složené struktury, jen jednoduché symboly.
Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace. I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam.

19 Pravopisná rovina Vstup: Výstup: Obsah:
text (posloupnost písmen — grafémů — symbolů abecedy konkrétního jazyka) Výstup: posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině Obsah: normalizace, interpunkce, konce slov a vět

20 Pravopisná rovina fonémy fonologie R pravopis grafémy j a b l o ň e j
ě grafémy

21 Stejné znění, různý zápis
v i l y v i/y l i/y fonologie R R pravopis fonetika U přechodu z fonetické roviny není „i/y“ jeden prvek pojmenovaný vícepísmenným řetězcem (jako bude „k|c|č“ na morfonologické rovině), ale o dva prvky, mezi kterými vládne nejednoznačnost. Jiným příkladem je „t/d“ ve slově p l o t/d . Nedochází tedy pouze ke slučování fónů, které se neliší významem, ale naopak i o štěpení fónů, které na rozlišení významu nestačí. v i l y v i l i

22 Opačný případ: stejný zápis, jiná výslovnost
r e d r í d r í d fonologie R R pravopis fonetika Jiný příklad je doplňování samohlásek v arabštině a hebrejštině: slovo se píše stejně, ale čte se různě podle kontextu, má různé infixy (samohlásky) a tudíž je i v různých morfologických kategoriích! katab = psát katabit = ona napsala katabti = ty jsi napsala katabt = ty jsi napsal, já jsem napsal(-a) kitáb = kniha kutub = knihy r e a d r í d

23 Opačný případ: stejný zápis, jiná výslovnost
knihy k u t u b k a t a b psát fonologie R pravopis Jiný příklad je doplňování samohlásek v arabštině a hebrejštině: slovo se píše stejně, ale čte se různě podle kontextu, má různé infixy (samohlásky) a tudíž je i v různých morfologických kategoriích! katab = psát katabit = ona napsala katabti = ty jsi napsala katabt = ty jsi napsal, já jsem napsal(-a) kitáb = kniha kutub = knihy كتب

24 Morfonologická rovina
Vstup: posloupnost fonémů zapsaných v abstraktní abecedě Výstup: posloupnost morfonémů členěná do morfů Obsah: základní prvky: morfonémy složené prvky: morfy morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy)

25 Morfonologická rovina
morfoném Cs mat(k|c|č) a m a t k|c|č morfonologie R fonologie m a t k a m a t c e m a t č i n

26 Morfematická rovina Vstup: Výstup: Obsah: posloupnost morfů
posloupnost slovních tvarů spolu s lexikální (významovou) a gramatickou informací Obsah: základní prvek: séma (lexikální nebo gramatické) složený prvek: morfém (lexikální / gramatický (skloňovací / časovací)) složený prvek: formém nejen ohýbání, ale i odvozování a skládání

27 Morfematická rovina formém Cs sémata morfémy Cp morfematika R
rod = M|N Cs sémata číslo = S [k,R3] ([zdravý,A(M|N)S33N]) pád = 3 morfémy Cp k nej ne zdrav ější mu morfematika R morfonologie k nej ne zdrav ější mu morfy

28 Morfematická rovina Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka]. Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“). Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „3. stupeň“). Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat.

29 Odvozování × ohýbání Odvozování slov je spolu s ohýbáním součástí morfologie. Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky: dělat  udělat, předělat, dodělat, oddělat, prodělat, vydělat, zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony. dělat  dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník  dělníkův, dělnický, dělnice; dílo, dílna  dílnový… učit  učitel, ale ne dělat  *dělatel, ani učit  *učitník! (učedník ano, ale význam je jiný než u „dělník“)

30 Syntaktická (povrchová) rovina
Vstup: posloupnost formémů (obvykle [lemma, značka]) Výstup: větná struktura (strom) s označením větných vztahů Obsah: základní prvek: tagmém (větný člen) složený prvek: syntagmém (věta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a větnou strukturou syntaktické kategorie (podmět, přísudek, předmět…)

31 Syntaktická rovina syntagmém tagmémy syntaxe R morfematika psát VPS3A
přísudek syntagmém předmět předmět přívlastek tagmémy psát VPS3A dopis NIS4A svůj PSRMS3 přítel NMS3A . Z syntaxe R morfematika

32 Syntaktická rovina Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“. Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin.

33 Sémantická (tektogramatická, hloubková) rovina
Vstup: větná struktura (strom) s pojmenováním vztahů Výstup: rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná slova Obsah: základní prvek: sémantém (odpovídá tagmému) sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) typ doplnění (sémantický větný člen) složený prvek: propozice (strom, hloubkový slovosled) vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“ příklady sémoglyfů: „frekvence | kmitočet“, „dívka | děvče“, „využít | využití | využitý“

34 Sémantická rovina žít, V, F slučovací Jana, N, T bratr, N, T
druh doplnění koordinace 23 (v) aktuální členění slučovací 36 Jana, N, T bratr, N, T založit, V, F Praha, N, F 35 3 30 ona, PP, T jenž, WH, T rodina, N, F koreference Jana a její bratr, jež založili rodinu, žijí v Praze.

35 Sémantická rovina Koordinace Koreference Hloubkové × povrchové funkce:
poměr slučovací (a, i, ani, nebo) poměr odporovací (ale, avšak, nýbrž) poměr vylučovací (buď-nebo) Koreference něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) zvratné zájmeno Hloubkové × povrchové funkce: „Pavel viděl Petra.“ „Petr byl viděn Pavlem.“

36 Aktuální členění věty Věta se dělí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). Východisko: to, co už víme. Ohnisko: to, co o tom známém nového sdělujeme. Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené. V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem. Dohromady jde o hloubkový slovosled (× povrchový).

37 Rovina diskurzu Vstup: Výstup: Obsah:
posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz Výstup: diskurz s vyřešenými mezivětnými vztahy Obsah: např. anafora, katafora: „Pavel přišel po desáté. Dala jsem mu večeři.“

38 Pragmatická (logická) rovina
Vstup: hloubková struktura věty (propozice) Výstup: logická forma, která může být vyhodnocena (pravda/nepravda) Obsah: přiřazení objektů reálného světa uzlům větné struktury mimolingvistický obsah: znalost světa („oči barvy nebe“) kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“) například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~ vidět(babička-BN[SSN:…],Němcová[SSN:…])[čas:před : :01][místo:mezi (50°20’00”N15°30’00”E,51°00’00”N16°30’20”E)]

39 Teorie a praxe Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou. Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou. Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy.

40 Zjednodušený systém rovin
tektogramatická hloubkový slovosled (aktuální členění) koordinace koreference, doplnění vypuštěných členů, spojování členů analytická (syntaktická) posloupnost dvojic  stromová struktura morfologická slovní tvar  dvojice [lemma, značka] předzpracování posloupnost znaků (písmen)  posloupnost slov (a interpunkce)


Stáhnout ppt "Lingvistická terminologie"

Podobné prezentace


Reklamy Google