Lingvistická terminologie

Slides:



Advertisements
Podobné prezentace
Klasifikace větných členů, rozbor věty jednoduché
Advertisements

Vymezení slovních druhů
Úvod do studia jazyka – 4. Gramatika Morfologie.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
PŘÍDAVNÁ JMÉNA Mgr. Michal Oblouk.
TEORIE GRAMATIKY (ASJ/TG)
Základové větné struktury, slovesná valence a její chápání
Úvod do studia jazyka – 5. Syntax Japonština.
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Čeština jako ideální flexivní extrém?
Větné členy.
Informatika pro ekonomy II přednáška 4
PHP PHP – základy syntaxe (část 1) - 03 Mgr. Josef Nožička IKT PHP
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
STAVBA VĚTY A TEXTU POŘÁDEK SLOV VE VĚTĚ
Formální jazyky a gramatiky
Základní škola a mateřská škola T.G. Masaryka Milovice, Školská 112, Milovice projekt v rámci Operačního programu VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST.
Kam se obrací „gramatická“ vlna?
ZS 2013/2014 Božena Bednaříková
Tvarosloví – zájmena, číslovky
Predikátová logika.
3. Příkazy  Příkazy dělíme na jednoduché a strukturované.  Jednoduché příkazy - žádnou jejich dílčí částí neni příkaz - přiřazovací, vstupu a výstupu,
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Výroková logika.
Číslo projektuCZ.1.07/1.5.00/ Název projektuEU peníze středním školám Masarykova OA Jičín Název školyMASARYKOVA OBCHODNÍ AKADEMIE, 17. listopadu.
Věta, výpověď, promluva Název materiálu: VY_32_INOVACE_CJ3r0101
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Databázové modelování
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Slovníky a morfologická analýza
Fonetika (fóné – hlas, zvuk lidské řeči)
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
Automaty a gramatiky.
69.1 Stavba věty jednoduché, základní skladební dvojice
Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.1.13
Konečné automaty a vyhledávání
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Slovo jako jednotka slovní zásoby.
holé, rozvité, několikanásobné
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
Český jazyk 3. ročník ZŠ „Věta jednoduchá a souvětí“
VÝUKA VÝSLOVNOSTI VE SKUPINÁCH RUSKY MLUVÍCÍCH STUDENTŮ
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Volitelný jazykový seminář STYLISTICKÉ HODNOCENÍ PŘEKLADU Božena Bednaříková.
Větný rozbor věty jednoduché krok za krokem. Na úvod Zopakujeme si postup při rozboru věty jednoduché.
Dotkněte se inovací CZ.1.07/1.3.00/ Základní a rozvíjející větné členy Grafický rozbor věty jednoduché.
VY_32_INOVACE_Jir_II_20 Slovosled Název projektu: OP VK Registrační číslo: CZ.1.07/1.4.00/ OP Vzdělání pro konkurenceschopnost 1.4.
Čtvrtletní prověrka – IX.B Termín: středa
STAVBA VĚTY A TEXTU POŘÁDEK SLOV VE VĚTĚ
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_274_ČJ8
PODMĚT.
Mgr. Marie Havránková TVAROSLOVÍ 7 - slovesa Mluvnice pro 2. ročník
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Překladače 5. Syntaktická analýza
Slabika jako opomíjená součást jazykového systému
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Rozvoj řeči u dítěte z hlediska morfologicko-syntaktické roviny
Základní skladební dvojice Název projektu: OP VK
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_276_ČJ8
Tvoření slov - slova značková, neutvořená x slova utvořená, motivovaná, popisná.
Automatická indexace Základní metody a postupy
Digitální učební materiál
SEGMENTÁLNÍ ANALÝZA TEXTU
Srovnávací a historická gramatika, historicko-srovnávací metoda Franz Bopp, Jacob Grimm, Karl Brugmann.
Mgr. Lenka Vrzáňová Větná stavba října 2011
Koherence textu   - koherence textu: soudržnost textu, provázanost.
Transkript prezentace:

Lingvistická terminologie Počítačové zpracování přirozeného jazyka Lingvistická terminologie Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Slovní druhy slovní druh part of speech podstatné jméno substantivum noun přídavné jméno adjektivum adjective zájmeno pronomium pronoun číslovka numeralium numeral sloveso verbum verb příslovce adverbium adverb předložka, záložka prepozice, postpozice preposition, postposition spojka konjunkce conjunction částice partikule particle citoslovce interjekce interjection člen determiner, article 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Rody a čísla rod genus gender mužský maskulinum masculine neživotný inanimatum inanimate ženský femininum feminine střední neutrum neuter číslo numerus number jednotné singulár singular dvojné duál dual množné plurál plural 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pády a osoby pád casus case 1. nominativ nominative 2. genitiv genitive 3. dativ dative 4. akuzativ accusative 5. vokativ vocative 6. lokál local 7. instrumentál instrumental osoba person 1st 2nd 3rd 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Časy, vidy, způsoby čas tempus tense přítomný prézens present minulý préteritum past budoucí futurum future neurčitek infinitiv infinitive vid aspect dokonavý perfektum perfect nedokonavý imperfektum imperfect způsob modus mode oznamovací indikativ indicative rozkazovací imperativ imperative podmiňovací kondicionál conditional 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovesné rody, větné způsoby, stupně, zápory voice činný aktivní active trpný pasivní passive tázací (zájmeno, věta…) interrogativum interrogative (ne)určitý (in)definite zápor negativeness kladný afirmativ affirmative záporný negativ negative stupeň degree (of comparison) 1. pozitiv positive 2. komparativ comparative 3. superlativ superlative 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Větné členy přísudek predikát predicate podmět subjekt subject předmět objekt object příslovečné určení adverbiale adverbial přívlastek atribut attribute přechodné sloveso tranzitivní verbum transitive verb nepřechodné sloveso intranzitivní verbum intransitive verb 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Roviny zpracování přirozeného jazyka Počítačové zpracování přirozeného jazyka Roviny zpracování přirozeného jazyka Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Popis jazyka Gramatika Klasické gramatiky soubor pravidel, popisujících, co je v jazyce přípustné Klasické gramatiky určeny lidem, kteří daný jazyk znají definice a pravidla na základě příkladů (skoro) žádné nástroje pro formalizaci; nelze naprogramovat Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …) formální popis lze naprogramovat a testovat na datech (textech) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Jazykové roviny Základní roviny, víceméně společné všem teoriím pragmatika (znalost světa…), logika aj., mezivětné vztahy… sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis Každá rovina má vstupní a výstupní reprezentaci výstup z nižší roviny je vstup do následující vyšší roviny někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit analýza syntéza 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Vztahy mezi rovinami C vyšší rovina R nižší rovina jednoduchý složený vyšší rovina R nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dolů = od významu k výrazu. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonetická rovina Vstup: Výstup: Obsah: akustický signál posloupnost fónů (zvuků — vektorů různých charakteristik, rysů, které lze vysledovat ve vstupním signálu) Obsah: základní: charakteristiky (např. délka samohlásky); silový slabičný přízvuk, tóny, délka samohlásek složené: fóny (kombinace hodnot) zapsané fonetickou abecedou suprasegmentální: intonace (větný přízvuk) klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonetická rovina Cp Cp Cp fonetika akustický signál rys 3 rys 2 rys 1 fón z b a ņ k o u fonetika akustický signál 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonetická rovina „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik: samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / … znělá / neznělá nosová / nenosová Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Příklad: distinktivní rysy Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d. Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (věc). Tento rozdíl však není distinktivním rysem v češtině: rána – ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky! V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonologická rovina Vstup: Výstup: Obsah: posloupnost fónů zapsaných ve fonetické abecedě Výstup: posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci), zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické) Obsah: základní: distinktivní rysy složené: hlásky (fonémy) vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonologická rovina Cp Cp Cp fonologie R fonetika distinktivní rys 3 foném z b a n k o u fonologie R fonetika z b a ņ k o u 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Fonologická rovina Žádné složené struktury, jen jednoduché symboly. Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace. I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pravopisná rovina Vstup: Výstup: Obsah: text (posloupnost písmen — grafémů — symbolů abecedy konkrétního jazyka) Výstup: posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině Obsah: normalizace, interpunkce, konce slov a vět 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pravopisná rovina fonémy fonologie R pravopis grafémy j a b l o ň e j ě grafémy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Stejné znění, různý zápis v i l y v i/y l i/y fonologie R R pravopis fonetika U přechodu z fonetické roviny není „i/y“ jeden prvek pojmenovaný vícepísmenným řetězcem (jako bude „k|c|č“ na morfonologické rovině), ale o dva prvky, mezi kterými vládne nejednoznačnost. Jiným příkladem je „t/d“ ve slově p l o t/d . Nedochází tedy pouze ke slučování fónů, které se neliší významem, ale naopak i o štěpení fónů, které na rozlišení významu nestačí. v i l y v i l i 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Opačný případ: stejný zápis, jiná výslovnost r e d r í d r í d fonologie R R pravopis fonetika Jiný příklad je doplňování samohlásek v arabštině a hebrejštině: slovo se píše stejně, ale čte se různě podle kontextu, má různé infixy (samohlásky) a tudíž je i v různých morfologických kategoriích! katab = psát katabit = ona napsala katabti = ty jsi napsala katabt = ty jsi napsal, já jsem napsal(-a) kitáb = kniha kutub = knihy r e a d r í d 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Opačný případ: stejný zápis, jiná výslovnost knihy k u t u b k a t a b psát fonologie R pravopis Jiný příklad je doplňování samohlásek v arabštině a hebrejštině: slovo se píše stejně, ale čte se různě podle kontextu, má různé infixy (samohlásky) a tudíž je i v různých morfologických kategoriích! katab = psát katabit = ona napsala katabti = ty jsi napsala katabt = ty jsi napsal, já jsem napsal(-a) kitáb = kniha kutub = knihy كتب ﺐ ﺘ ﻛ 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfonologická rovina Vstup: posloupnost fonémů zapsaných v abstraktní abecedě Výstup: posloupnost morfonémů členěná do morfů Obsah: základní prvky: morfonémy složené prvky: morfy morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfonologická rovina morfoném Cs mat(k|c|č) a m a t k|c|č … morfonologie R fonologie m a t k a m a t c e m a t č i n 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfematická rovina Vstup: Výstup: Obsah: posloupnost morfů posloupnost slovních tvarů spolu s lexikální (významovou) a gramatickou informací Obsah: základní prvek: séma (lexikální nebo gramatické) složený prvek: morfém (lexikální / gramatický (skloňovací / časovací)) složený prvek: formém nejen ohýbání, ale i odvozování a skládání 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfematická rovina formém Cs sémata morfémy Cp morfematika R rod = M|N Cs sémata číslo = S [k,R3] ([zdravý,A(M|N)S33N]) pád = 3 morfémy Cp k nej ne zdrav ější mu morfematika R morfonologie k nej ne zdrav ější mu morfy 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfematická rovina Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka]. Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“). Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „3. stupeň“). Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Odvozování × ohýbání Odvozování slov je spolu s ohýbáním součástí morfologie. Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky: dělat  udělat, předělat, dodělat, oddělat, prodělat, vydělat, zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony. dělat  dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník  dělníkův, dělnický, dělnice; dílo, dílna  dílnový… učit  učitel, ale ne dělat  *dělatel, ani učit  *učitník! (učedník ano, ale význam je jiný než u „dělník“) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Syntaktická (povrchová) rovina Vstup: posloupnost formémů (obvykle [lemma, značka]) Výstup: větná struktura (strom) s označením větných vztahů Obsah: základní prvek: tagmém (větný člen) složený prvek: syntagmém (věta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a větnou strukturou syntaktické kategorie (podmět, přísudek, předmět…) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Syntaktická rovina syntagmém tagmémy syntaxe R morfematika psát VPS3A přísudek syntagmém předmět předmět přívlastek tagmémy psát VPS3A dopis NIS4A svůj PSRMS3 přítel NMS3A . Z syntaxe R morfematika … … … … … 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Syntaktická rovina Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“. Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sémantická (tektogramatická, hloubková) rovina Vstup: větná struktura (strom) s pojmenováním vztahů Výstup: rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná slova Obsah: základní prvek: sémantém (odpovídá tagmému) sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) typ doplnění (sémantický větný člen) složený prvek: propozice (strom, hloubkový slovosled) vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“ příklady sémoglyfů: „frekvence | kmitočet“, „dívka | děvče“, „využít | využití | využitý“ 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sémantická rovina žít, V, F slučovací Jana, N, T bratr, N, T druh doplnění koordinace 23 (v) aktuální členění slučovací 36 Jana, N, T bratr, N, T založit, V, F Praha, N, F 35 3 30 ona, PP, T jenž, WH, T rodina, N, F koreference Jana a její bratr, jež založili rodinu, žijí v Praze. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sémantická rovina Koordinace Koreference Hloubkové × povrchové funkce: poměr slučovací (a, i, ani, nebo) poměr odporovací (ale, avšak, nýbrž) poměr vylučovací (buď-nebo) Koreference něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) zvratné zájmeno Hloubkové × povrchové funkce: „Pavel viděl Petra.“ „Petr byl viděn Pavlem.“ 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Aktuální členění věty Věta se dělí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). Východisko: to, co už víme. Ohnisko: to, co o tom známém nového sdělujeme. Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené. V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem. Dohromady jde o hloubkový slovosled (× povrchový). 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Rovina diskurzu Vstup: Výstup: Obsah: posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz Výstup: diskurz s vyřešenými mezivětnými vztahy Obsah: např. anafora, katafora: „Pavel přišel po desáté. Dala jsem mu večeři.“ 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pragmatická (logická) rovina Vstup: hloubková struktura věty (propozice) Výstup: logická forma, která může být vyhodnocena (pravda/nepravda) Obsah: přiřazení objektů reálného světa uzlům větné struktury mimolingvistický obsah: znalost světa („oči barvy nebe“) kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“) například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~ vidět(babička-BN[SSN:…],Němcová[SSN:…])[čas:před 11.4.2017 4:0111.4.2017 4:01][místo:mezi (50°20’00”N15°30’00”E,51°00’00”N16°30’20”E)] 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Teorie a praxe Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou. Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou. Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy. 4.11.1999 http://ufal.mff.cuni.cz/course/popj1

Zjednodušený systém rovin tektogramatická hloubkový slovosled (aktuální členění) koordinace koreference, doplnění vypuštěných členů, spojování členů analytická (syntaktická) posloupnost dvojic  stromová struktura morfologická slovní tvar  dvojice [lemma, značka] předzpracování posloupnost znaků (písmen)  posloupnost slov (a interpunkce) 4.11.1999 http://ufal.mff.cuni.cz/course/popj1