Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.

Slides:



Advertisements
Podobné prezentace
MS ACCESS - DOTAZY DATABÁZOVÉ SYSTÉMY.
Advertisements

Analýza staročeské morfologie v Excelu
Vymezení slovních druhů
Úvod do studia jazyka – 4. Gramatika Morfologie.
CJBB75 1 ZPK CJBB75 čtvrtek G
Základy html pro úplné začátečníky.
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
Přednáška P6 Božena Bednaříková
ROD JMENNÝ.
Přednáška P7 Božena Bednaříková
Podpora PR oddělení fakulty moderními ICT
CJBB84 1 ZPK CJBB75 čtvrtek G
CJBB84 1 GAK CJBB CJBB84 2 Využití morfologických vlastností českého slovesa při formulaci dotazu při vyhledávání deverbativ od tvaru od.
Principy překladačů Překladač Jakub Yaghob. Literatura a slajdy Aho, Sethi, Ullman: Compilers - Principles, Techniques and Tools, Addison-Wesley 1986.
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
Neohebné slovní druhy Český jazyk - 7. ročník.
Sémantická analýza Jakub Yaghob
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
ARL klient Stručný přehled funkcí Klient – jiný přístup k datům v systému  Umožňuje používat i další pole v záznamu - Je nezbytný v případě.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová II. Vzorce v Excelu Tipy pro práci s Wordem.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Slovníky a morfologická analýza
Analýza snímků VŠB – Technická univerzita Ostrava Katedra informatiky Doc. Ing. Lačezar Ličev, CSc.
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
CJBB75 1 ZPK CJBB75 středa G
MorČe morfologické značkování češtiny
Erika Seďová LS  Cíl  Použité nástroje  Velké množství dat  Řešení  Závěr.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Úvod do XML S využitím materiálů z Zdeněk Žabokrtský.
MORFOLOGIE 2008 přednáška P11
Základní gramatika latiny
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
Microsoft Office Excel – práce s tabulkami a analýzy
CHYBOVÁ ANOTACE ŽÁKOVSKÉHO KORPUSU CZESL
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Jak se lokalizuje svobodný a otevřený software Petr Kovář Otvorený softvér vo vzdelávaní, výskume a v IT rešeniach, 3. července 2010.
TEXTOVÝ EDITOR Karin Tylšerová. Textový editor je software, kterým je možné editovat prostý text. Neobsahuje žádné informace o formátování, jako je použití.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Financováno z ESF a státního rozpočtu ČR.
Klára Osolsobě, Hana Žižková
Slovníky a morfologická analýza
Textový Editor.
Veřejný seminář k projektu NIX-ZD.CZ
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_297_ČJ9
Ověřování první sbírky
Úvod do latinské jmenné flexe 1. deklinace
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Jakub Hlávko Název materiálu:
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
CJBB CJBB84.
ÚKL CJBB CJBB84.
Automatická indexace Základní metody a postupy
ZPK CJBB CJBB75.
Informatika textový editor - WORD
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
METODOLOGIE PROJEKTOVÁNÍ
GetInfo
Úvod do korpusové lingvistiky 3
Transkript prezentace:

Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace Desambiguace

Základní pojmy Značka (tag, index) – kód přiřazený k jednotlivým tvarům slov nesoucí informaci o jejich gramatických charakteristikách Značka (tag, index) – kód přiřazený k jednotlivým tvarům slov nesoucí informaci o jejich gramatických charakteristikách Tagset – soubor používaných značek Tagset – soubor používaných značek Značkování (tagování, tagging, anotace, indexování) – ruční, automatické, poloautomatické Značkování (tagování, tagging, anotace, indexování) – ruční, automatické, poloautomatické Desambiguace – zjednoznačnění, výběr správné značky v závislosti na postavení slova v kontextu Desambiguace – zjednoznačnění, výběr správné značky v závislosti na postavení slova v kontextu

Využití morfologického analyzátoru Morfologická databáze Morfologická databáze Morfologické značkování korpusů, syntaktická analýza, sémantická analýza Morfologické značkování korpusů, syntaktická analýza, sémantická analýza Využití pro jiné slovanské jazyky – slovenština Využití pro jiné slovanské jazyky – slovenština Kontrola pravopisu, překladače, slovníky, webové prohlížeče Kontrola pravopisu, překladače, slovníky, webové prohlížeče

Formální popis morfologie slovo = řetězec znaků ohraničený z obou stran mezerami slovo = řetězec znaků ohraničený z obou stran mezerami Segmentace slova Segmentace slova KMZ – IS – T KMZ – IS – T (kmenový základ, intersegment, koncovka) Koncovkové množiny, slovník kmenů a intersegmentů Koncovkové množiny, slovník kmenů a intersegmentů Seznam vzorů Seznam vzorů

Počet vzorů a lemmat v I_PARu substantiva 778 lemmat substantiva 778 lemmat adjektiva 69 lemmat adjektiva 69 lemmat zájmena 105 lemmat 199 zájmena 105 lemmat 199 slovesa 757 lemmat slovesa 757 lemmat adverbia 72 lemmat adverbia 72 lemmat všech vzorů 1838 celkem lemmat všech vzorů 1838 celkem lemmat

Průběh morfologické analýzy Rozeznání neohebných slovních druhů Rozeznání neohebných slovních druhů Rozeznávání slova od začátku Rozeznávání slova od začátku - záporka –ne - superlativní prefix –nej Segmentace slova odzadu Segmentace slova odzadu - koncovka - intersegment - kmenový základ - přiřazení ke vzoru Homografie + Homomymie -

Desambiguace Ruční, automatická Ruční, automatická Nástroj pro desambiguaci CED Nástroj pro desambiguaci CED Nelze desambiguovat Nelze desambiguovat Německá firma Tebis v Hannoveru představila kompaktní zařízení pro firemní modelárny. Technické řešení těsnění nádrží a podlah… Myrha je přírodní pryskyřice, aloe je vonné dřevo. V osmi letech měl za sebou účinkování v mnoha televizních show… Dolní listy jsou obvejčité, čepel se zužuje v ouškatý řapík. Dolní listy jsou obvejčité, čepel se zužuje v ouškatý řapík. Jak lze z názvu vytušit, jde o nástroje pro zprostředkování databázových transakcí a tvorbu dotazů prostřednictvím standardu SQL. Jak nám řekl ředitel tohoto závodu, nebyla to jejich chyba...