Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Lingvistická terminologie Daniel Zeman Počítačové zpracování přirozeného jazyka.

Podobné prezentace


Prezentace na téma: "Lingvistická terminologie Daniel Zeman Počítačové zpracování přirozeného jazyka."— Transkript prezentace:

1 Lingvistická terminologie Daniel Zeman Počítačové zpracování přirozeného jazyka

2 http://ufal.mff.cuni.cz/course/popj12 Slovní druhy slovní druhpart of speech podstatné jménosubstantivumnoun přídavné jménoadjektivumadjective zájmenopronomiumpronoun číslovkanumeraliumnumeral slovesoverbumverb příslovceadverbiumadverb předložka, záložkaprepozice, postpozicepreposition, postposition spojkakonjunkceconjunction částicepartikuleparticle citoslovceinterjekceinterjection člendeterminer, article

3 http://ufal.mff.cuni.cz/course/popj13 Rody a čísla rodgenusgender mužskýmaskulinummasculine neživotnýinanimatuminanimate ženskýfemininumfeminine středníneutrumneuter číslonumerusnumber jednotnésingulársingular dvojnéduáldual množnéplurálplural

4 http://ufal.mff.cuni.cz/course/popj14 Pády a osoby pádcasuscase 1.nominativnominative 2.genitivgenitive 3.dativdative 4.akuzativaccusative 5.vokativvocative 6.lokállocal 7.instrumentálinstrumental osobaperson 1.1 st 2.2 nd 3.3 rd

5 http://ufal.mff.cuni.cz/course/popj15 Časy, vidy, způsoby častempustense přítomnýprézenspresent minulýpréteritumpast budoucífuturumfuture neurčitekinfinitivinfinitive vidaspect dokonavýperfektumperfect nedokonavýimperfektumimperfect způsobmodusmode oznamovacíindikativindicative rozkazovacíimperativimperative podmiňovacíkondicionálconditional

6 http://ufal.mff.cuni.cz/course/popj16 Slovesné rody, větné způsoby, stupně, zápory slovesný rodvoice činnýaktivníactive trpnýpasivnípassive tázací (zájmeno, věta…)interrogativuminterrogative (ne)určitý(in)definite zápornegativeness kladnýafirmativaffirmative zápornýnegativnegative stupeňdegree (of comparison) 1.pozitivpositive 2.komparativcomparative 3.superlativsuperlative

7 http://ufal.mff.cuni.cz/course/popj17 Větné členy přísudekpredikátpredicate podmětsubjektsubject předmětobjektobject příslovečné určeníadverbialeadverbial přívlastekatributattribute přechodné slovesotranzitivní verbumtransitive verb nepřechodné slovesointranzitivní verbumintransitive verb

8 Roviny zpracování přirozeného jazyka Daniel Zeman Počítačové zpracování přirozeného jazyka

9 http://ufal.mff.cuni.cz/course/popj19 Popis jazyka Gramatika –soubor pravidel, popisujících, co je v jazyce přípustné Klasické gramatiky –určeny lidem, kteří daný jazyk znají –definice a pravidla na základě příkladů –(skoro) žádné nástroje pro formalizaci; nelze naprogramovat Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …) –formální popis –lze naprogramovat a testovat na datech (textech)

10 http://ufal.mff.cuni.cz/course/popj110 Jazykové roviny Základní roviny, víceméně společné všem teoriím –pragmatika (znalost světa…), logika aj., mezivětné vztahy… –sémantika (hloubková syntaxe, význam) –syntaxe (povrchová) –morfologie –fonologie, morfonologie –fonetika / pravopis Každá rovina má vstupní a výstupní reprezentaci –výstup z nižší roviny je vstup do následující vyšší roviny –někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit analýza syntéza

11 http://ufal.mff.cuni.cz/course/popj111 Vztahy mezi rovinami vyšší rovina nižší rovina R C jednoduchýsložený Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dolů = od významu k výrazu.

12 http://ufal.mff.cuni.cz/course/popj112 Fonetická rovina Vstup: –akustický signál Výstup: –posloupnost fónů (zvuků — vektorů různých charakteristik, rysů, které lze vysledovat ve vstupním signálu) Obsah: –základní: charakteristiky (např. délka samohlásky); silový slabičný přízvuk, tóny, délka samohlásek –složené: fóny (kombinace hodnot) zapsané fonetickou abecedou –suprasegmentální: intonace (větný přízvuk) –klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod.

13 http://ufal.mff.cuni.cz/course/popj113 Fonetická rovina fonetika akustický signál CpCp rys 1fón CpCp rys 2 CpCp rys 3 zbaņkou

14 http://ufal.mff.cuni.cz/course/popj114 Fonetická rovina „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik: –samohláska / souhláska –dlouhá / krátká –tón vysoký / nízký / klesající / … –znělá / neznělá –nosová / nenosová Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy.

15 http://ufal.mff.cuni.cz/course/popj115 Příklad: distinktivní rysy Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d. Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng : thin (tenký) – thing (věc). Tento rozdíl však není distinktivním rysem v češtině: rána – ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky! V němčině je distinktivní rys rozdíl mezi ü a ie : Abfahrt der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í.

16 http://ufal.mff.cuni.cz/course/popj116 Fonologická rovina Vstup: –posloupnost fónů zapsaných ve fonetické abecedě Výstup: –posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci), zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické) Obsah: –základní: distinktivní rysy –složené: hlásky (fonémy) –vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině)

17 http://ufal.mff.cuni.cz/course/popj117 Fonologická rovina fonologie fonetika CpCp distinktivní rys 1 foném CpCp distinktivní rys 2 CpCp distinktivní rys 3 zbankou zbaņkou R

18 http://ufal.mff.cuni.cz/course/popj118 Fonologická rovina Žádné složené struktury, jen jednoduché symboly. Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace. I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam.

19 http://ufal.mff.cuni.cz/course/popj119 Pravopisná rovina Vstup: –text (posloupnost písmen — grafémů — symbolů abecedy konkrétního jazyka) Výstup: –posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině Obsah: –normalizace, interpunkce, konce slov a vět

20 http://ufal.mff.cuni.cz/course/popj120 Pravopisná rovina fonologie pravopis jabloňe jabloně R grafémy fonémy

21 http://ufal.mff.cuni.cz/course/popj121 Stejné znění, různý zápis fonologie pravopis vily vily R vi/yl vili R fonetika

22 http://ufal.mff.cuni.cz/course/popj122 Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis ríd read R ríd ríd R fonetika red

23 http://ufal.mff.cuni.cz/course/popj123 Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis kat ﺐﺘﻛ R kut ab ub psát knihy كتب

24 http://ufal.mff.cuni.cz/course/popj124 Morfonologická rovina Vstup: –posloupnost fonémů zapsaných v abstraktní abecedě Výstup: –posloupnost morfonémů členěná do morfů Obsah: –základní prvky: morfonémy –složené prvky: morfy –morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č –morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy)

25 http://ufal.mff.cuni.cz/course/popj125 Morfonologická rovina morfonologie fonologie m R atka matce matčin matk|c|č… morfoném mat(k|c|č)a morf CsCs

26 http://ufal.mff.cuni.cz/course/popj126 Morfematická rovina Vstup: –posloupnost morfů Výstup: –posloupnost slovních tvarů spolu s lexikální (významovou) a gramatickou informací Obsah: –základní prvek: séma (lexikální nebo gramatické) –složený prvek: morfém (lexikální / gramatický (skloňovací / časovací)) –složený prvek: formém –nejen ohýbání, ale i odvozování a skládání

27 http://ufal.mff.cuni.cz/course/popj127 Morfematická rovina morfematika morfonologie R k formém CpCp nejnezdravějšímu morfy knejnezdravějšímu morfémy rod = M|N číslo = S pád = 3 sémata [k,R3] ([zdravý,A(M|N)S33N]) CsCs

28 http://ufal.mff.cuni.cz/course/popj128 Morfematická rovina Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka]. Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“). Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „3. stupeň“). Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat.

29 http://ufal.mff.cuni.cz/course/popj129 Odvozování × ohýbání Odvozování slov je spolu s ohýbáním součástí morfologie. Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky: –dělat  udělat, předělat, dodělat, oddělat, prodělat, vydělat, zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony. –dělat  dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník  dělníkův, dělnický, dělnice; dílo, dílna  dílnový… –učit  učitel, ale ne dělat  *dělatel, ani učit  *učitník! (učedník ano, ale význam je jiný než u „dělník“)

30 http://ufal.mff.cuni.cz/course/popj130 Syntaktická (povrchová) rovina Vstup: –posloupnost formémů (obvykle [lemma, značka]) Výstup: –větná struktura (strom) s označením větných vztahů Obsah: –základní prvek: tagmém (větný člen) –složený prvek: syntagmém (věta: strom + povrchový slovosled) –vztah mezi morfologickými kategoriemi a větnou strukturou –syntaktické kategorie (podmět, přísudek, předmět…)

31 http://ufal.mff.cuni.cz/course/popj131 Syntaktická rovina syntaxe morfematika R …………… psát VPS3A dopis NIS4A svůj PSRMS3 přítel NMS3A.Z.Z tagmémy syntagmém předmět přísudek předmět přívlastek

32 http://ufal.mff.cuni.cz/course/popj132 Syntaktická rovina Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“. Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin.

33 http://ufal.mff.cuni.cz/course/popj133 Sémantická (tektogramatická, hloubková) rovina Vstup: –větná struktura (strom) s pojmenováním vztahů Výstup: –rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná slova Obsah: –základní prvek: sémantém (odpovídá tagmému) sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) typ doplnění (sémantický větný člen) –složený prvek: propozice (strom, hloubkový slovosled) –vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“

34 http://ufal.mff.cuni.cz/course/popj134 Sémantická rovina Jana a její bratr, jež založili rodinu, žijí v Praze. Jana, N, Tbratr, N, T ona, PP, T jenž, WH, Trodina, N, F založit, V, F žít, V, F Praha, N, F slučovací koreference koordinace (v) druh doplnění aktuální členění

35 http://ufal.mff.cuni.cz/course/popj135 Sémantická rovina Koordinace –poměr slučovací (a, i, ani, nebo) –poměr odporovací (ale, avšak, nýbrž) –poměr vylučovací (buď-nebo) Koreference –něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) –zvratné zájmeno Hloubkové × povrchové funkce: „Pavel viděl Petra.“„Petr byl viděn Pavlem.“

36 http://ufal.mff.cuni.cz/course/popj136 Aktuální členění věty Věta se dělí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). –Východisko: to, co už víme. –Ohnisko: to, co o tom známém nového sdělujeme. Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené. V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem. Dohromady jde o hloubkový slovosled (× povrchový).

37 http://ufal.mff.cuni.cz/course/popj137 Rovina diskurzu Vstup: –posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz Výstup: –diskurz s vyřešenými mezivětnými vztahy Obsah: –např. anafora, katafora: „Pavel přišel po desáté. Dala jsem mu večeři.“

38 http://ufal.mff.cuni.cz/course/popj138 Pragmatická (logická) rovina Vstup: –hloubková struktura věty (propozice) Výstup: –logická forma, která může být vyhodnocena (pravda/nepravda) Obsah: –přiřazení objektů reálného světa uzlům větné struktury –mimolingvistický obsah: znalost světa („oči barvy nebe“) –kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“) –například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~ vidět(babička-BN[SSN:…],Němcová[SSN:…]) [čas:před : :40][místo:mezi (50°20 ’00”N15°30’00”E,51°00’00”N16°30’20”E)]

39 http://ufal.mff.cuni.cz/course/popj139 Teorie a praxe Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou. Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou. Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy.

40 http://ufal.mff.cuni.cz/course/popj140 Zjednodušený systém rovin tektogramatická –hloubkový slovosled (aktuální členění) –koordinace –koreference, doplnění vypuštěných členů, spojování členů analytická (syntaktická) –posloupnost dvojic  stromová struktura morfologická –slovní tvar  dvojice [lemma, značka] předzpracování –posloupnost znaků (písmen)  posloupnost slov (a interpunkce)


Stáhnout ppt "Lingvistická terminologie Daniel Zeman Počítačové zpracování přirozeného jazyka."

Podobné prezentace


Reklamy Google