Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.

Podobné prezentace


Prezentace na téma: "Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace."— Transkript prezentace:

1 Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace Desambiguace

2 Základní pojmy Značka (tag, index) – kód přiřazený k jednotlivým tvarům slov nesoucí informaci o jejich gramatických charakteristikách Značka (tag, index) – kód přiřazený k jednotlivým tvarům slov nesoucí informaci o jejich gramatických charakteristikách Tagset – soubor používaných značek Tagset – soubor používaných značek Značkování (tagování, tagging, anotace, indexování) – ruční, automatické, poloautomatické Značkování (tagování, tagging, anotace, indexování) – ruční, automatické, poloautomatické Desambiguace – zjednoznačnění, výběr správné značky v závislosti na postavení slova v kontextu Desambiguace – zjednoznačnění, výběr správné značky v závislosti na postavení slova v kontextu

3 Využití morfologického analyzátoru Morfologická databáze Morfologická databáze Morfologické značkování korpusů, syntaktická analýza, sémantická analýza Morfologické značkování korpusů, syntaktická analýza, sémantická analýza Využití pro jiné slovanské jazyky – slovenština Využití pro jiné slovanské jazyky – slovenština Kontrola pravopisu, překladače, slovníky, webové prohlížeče Kontrola pravopisu, překladače, slovníky, webové prohlížeče

4 Formální popis morfologie slovo = řetězec znaků ohraničený z obou stran mezerami slovo = řetězec znaků ohraničený z obou stran mezerami Segmentace slova Segmentace slova KMZ – IS – T KMZ – IS – T (kmenový základ, intersegment, koncovka) Koncovkové množiny, slovník kmenů a intersegmentů Koncovkové množiny, slovník kmenů a intersegmentů Seznam vzorů Seznam vzorů

5 Počet vzorů a lemmat v I_PARu substantiva 778 lemmat substantiva 778 lemmat adjektiva 69 lemmat adjektiva 69 lemmat zájmena 105 lemmat 199 zájmena 105 lemmat 199 slovesa 757 lemmat slovesa 757 lemmat adverbia 72 lemmat adverbia 72 lemmat všech vzorů 1838 celkem lemmat všech vzorů 1838 celkem lemmat

6 Průběh morfologické analýzy Rozeznání neohebných slovních druhů Rozeznání neohebných slovních druhů Rozeznávání slova od začátku Rozeznávání slova od začátku - záporka –ne - superlativní prefix –nej Segmentace slova odzadu Segmentace slova odzadu - koncovka - intersegment - kmenový základ - přiřazení ke vzoru Homografie + Homomymie -

7 Desambiguace Ruční, automatická Ruční, automatická Nástroj pro desambiguaci CED Nástroj pro desambiguaci CED Nelze desambiguovat Nelze desambiguovat Německá firma Tebis v Hannoveru představila kompaktní zařízení pro firemní modelárny. Technické řešení těsnění nádrží a podlah… Myrha je přírodní pryskyřice, aloe je vonné dřevo. V osmi letech měl za sebou účinkování v mnoha televizních show… Dolní listy jsou obvejčité, čepel se zužuje v ouškatý řapík. Dolní listy jsou obvejčité, čepel se zužuje v ouškatý řapík. Jak lze z názvu vytušit, jde o nástroje pro zprostředkování databázových transakcí a tvorbu dotazů prostřednictvím standardu SQL. Jak nám řekl ředitel tohoto závodu, nebyla to jejich chyba...


Stáhnout ppt "Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace."

Podobné prezentace


Reklamy Google