Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda.

Podobné prezentace


Prezentace na téma: "Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda."— Transkript prezentace:

1 Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda

2 Co jsou NE ? slova nebo slovní spojení, která v textu vystupují jako – pojmenování osob, míst, věcí... – číselné výrazy, data – jednotky (měnové, fyzikální...) –...

3 NE z pohledu rovin PDT (1) m-rovina – nevyčerpatelný zdroj dosud nespatřených forem mj. kontakt s jinými jazyky (Ho-či-min, Tel-Aviv) – produktivní homonymie Veselý Zajíc Vyskočil... – nejasná lematizace (panu) Novákovi -> Novák (panu) Novému -> nový ?

4 NE z pohledu rovin PDT (2) a-rovina – problematická orientace „závislosti“ př. Josef Novák vs. Kim Ir-sen – hodnoty afun křestní jméno ~ přívlastek ? – chybí lingvisticky relevantní znaky závislosti -> potřeba šablon adresy...

5 NE z pohledu rovin PDT (3) t-rovina – velikost písmen v t-lematech – shlukování názvu jedné NE do jednoho uzlu? – WSD ? – ztráta funkčních slov („Proti všem“) – přechylování (výhledově) učitelka -> učitel.fem ale: Nováková -> Novák ?

6 Využití NE tagging anaphora resolution machine translation – Olda Starý -> Olda Old ? information extraction speech reconstruction

7 Výchozí situace pro češtinu žádný jednotný datový zdroj zaměřený na NE jako celek, ale: přípony lemat v JH’s morfologii dostupné databáze – antroponyma (MV ČR) – toponyma (ČSU) – anoikonyma (UJČ) – urbanonyma (www stránky českých měst) –...

8 Anotace NE anotační schéma – klasifikace NE – výběr materiálu k anotaci – datový formát – rozhraní pro anotátora

9 Dvouúrovňová klasifikace NE (1) při částečném porozumění možnost „podspecifikace“ 1. úroveň –p jména osob –onázvy věcí –g geografické názvy –inázvy institucí –mnázvy médií –nčísla s nekvantifikačním významem –tnázvy časových úseků –bjména zvířat

10 Dvouúrovňová klasifikace NE (2) pjména osob pcobyvatelská jména (př. Afričan, Čech, Pražan) pdtitul (pouze pokud je zapsán zkratkou, př. PhDr., prof., doc.) pfkřestní jméno (a to, i jde-li o pseudonym), rovněž zdrobnělá podoba pmdruhé křestní jméno (a to, i jde-li o pseudonym) pnpřezdívka pppojmenování náboženských postav, pohádkových a mytických bytostí, personifikovaných vlastností (př. svatý Jakub, Bůh / bůh, Karkulka, čert, Prozřetelnost) pspříjmení (a to, i jde-li o pseudonym) – součástí příjmení jsou i cizí předložky de, von, van apod. ptjména skupin na základě jejich rodového původu, jména kmenů (př. Přemyslovci, Apačové, Slovan) ggeografické názvy gcnázvy států – jako názvy geografických i politických jednotek (i názvy již neexistujících útvarů) ghnázvy vodních útvarů glnázvy přírodních oblastí, útvarů (př. Sibiř, Apeninský poloostrov, Polabí, Šumava) gpnázvy planet, vesmírných útvarů (př. Země) gqnázvy částí obcí, pomístní názvy grnázvy menších územních jednotek (př. Morava, Rychnovsko, Badensko-Württembersko) gsnázvy ulic, náměstí gtnázvy kontinentů gunázvy obcí, hradů a zámků (př. Praha, Kotěhůlky, Opočno)

11 Další anotační značky speciální typy NE – aadresa – cbibliografický údaj – fslova z cizího jazyka – s zkratky problematické situace – ? nerozeznaný typ NE – !rozpadlá věta – lowerslovo se normálně píše s malým písmenem – upperslovo se normálně píše s velkým písmenem

12 Anotační prostředí editace prostého textu v MS-Word vkládání značek – - konec úseku NE 12: A přišlo jitro a s ním i. 13: Byla bych raději zůstala v a pokračovala ve svém díle. " 14: Boj mezi a byl od začátku do konce ideologickým soupeřením. 15: " Tak to naše už není, protože její impulsy jdou cikcak a od zdi ke zdi imrvére do alelujá krucihimlfixnohanmól - kdyby tě hned z kolíbky zahnali makat na rýžovou plantáž, kam patříš a kam tě už volají,, a to stále naléhavěji - ale oni tě místo toho naučili trosky filosofií a jazyků, jezdit tramvají a číst romány, žvanit o demokracii, kouřit a telefonovat - ještě něco ? 16: Nějaký kdysi přeložil moje jako >.

13 Anotovaný materiál 2000 vět z ČNK (300+500+500+700) jednoduché výběrové kritérium – velké písmeno uprostřed věty kontext celé věty dvě nezávislé anotace třetí průchod: sjednocení rozdílů

14 Disambiguace homonymních příjmení Giger,Štěpán,2005: Návrhy pro řešení homonymie českých příjmení typu Vybíral, Odložil při automatickém morfologickém značkování v korpusu implementace v Perlu – posloupnost jednoduchých pravidel – následuje-li -li -> sloveso – předchází-li křestní jméno nebo titul -> jméno testování na části ČNK – chyba statistického taggeru na sledované skupině homonymních forem – cca 12 % – chyba po aplikace disambiguačních pravidel – cca 1 %

15 Nejbližší úkoly dočištění anotovaných dat a převod do PML zjištění kvantitativních vlastností vyhodnocení shody, analýza chyb vývoj automatického značkování NE


Stáhnout ppt "Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda."

Podobné prezentace


Reklamy Google