Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV173 3. 11. 2010.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

 Proč: ◦ Vývoj algoritmů spjatých s medicínskými daty  Členové: ◦ Doktorandi – 4 ◦ Studenti – 7.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Metody plánování údržby. Úvod Tento popis je věnován různým metodám plánování údržby v programu STROJEW. Existuje několik vhodných metod a pro výběr té.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Základní škola, Slavkov u Brna, Malinovského 280
CJBB75 1 ZPK CJBB75 čtvrtek G
Rozpoznávání obrazu (Static Hand Gesture Recognition Software)
Větná polarita v češtině Kateřina Veselovská Žďárek – Hořovice,
Lomené algebraické výrazy
Korpusová lingvistika (2)
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
PA081 Programování numerických výpočtů Přednáška 2.
LINEÁRNÍ ROVNICE.
53. Šrámkova Sobotka Sobotka 9. července 2009
Mlhavý úvod do FUZZY logiky Motivace pro použití fuzzy logiky: člověk je schopen rozhodovat a řídit systémy i na základě nepřesných informací - stroj tak.
Tvorba prezentací v programu PowerPoint Autor: ing. Jaroslav Mochan
Segmentace prahováním - cvičení
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
STRUKTURA OSNOVY KURZU
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Úvod do korpusové lingvistiky 4
Zde, narozdíl od předešlé verze, PDF, se do verze, ve formátu word, dá vpisovat řešení jednotlivých úkolů.
Srovnání výsledků testů žáků 9. tříd základních škol v letech 2005 a 2011 Koho a na co jsme se ptali Filip Karel, Šimon Stiburek, Jan Hučín Scio Praha.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Tabulky – vyhledávání (v dalších tabulkách pomocí relací)
Hrátky s češtinou.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
INFORMATIKA 7 Úprava dokumentu III2 - I ANOTACE Materiál obsahuje prezentaci ve formátu Microsoft PowerPoint (.ppt) pro učivo v předmětu Informatika,
Kompresní algoritmus LZW Dokumentografické informační systémy.
hledání zlepšující cesty
Jak vyhledávat informace na Internetu?
Mlhavost Fuzzy logika, fuzzy množiny, fuzzy čísla
Převody mezi číselnými soustavami 1
O DRÁŽKY A ČÍSLOVÁNÍ VY_32_INOVACE_7C5. T ÝKAJÍ SE ZAČÁTKU ODSTAVCE Shodný symbol nebo obrázek Číslování odstavců (číslice nebo písmena) OdrážkyČíslování.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Návrh a implementace algoritmu SLAM pro mobilní robot
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
MorČe morfologické značkování češtiny
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
Text mining – definice inteligentní analýza textu textový data mining
Mémy tlumočení podle Franze Pöchhackera
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Zákon zachování energie Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Radim Frič. Slezské gymnázium, Opava, příspěvková organizace.
Školák.cz Piš a sdílej své sešity, jednoduše, rychle, v pohodě. Autoři: Jiří Hon a Lukáš Helebrandt.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Průvodní list Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Vzdělávací materiál: Prezentace – zápis pro žáky Určen pro: 3. ročník oboru.
Algoritmizace a programování Algoritmy 5 – Myšlenkové mapy.
Jakub Ježek 2IT Piškvorky. Cílem projektu -> cílem bylo vytvořit online hru piškvorky v php a mysql.
Klára Osolsobě, Hana Žižková
Mgr. Lenka Vrzáňová Větná stavba listopadu 2011
POPIS Mgr. Michal Oblouk.
Inf Tabulkový procesor
Operační program Vzdělávání pro konkurenceschopnost, č.OP CZ.1.07
Vzdělávání pro konkurenceschopnost
Optimalizace užití stavebních materiálů
Automatická indexace Základní metody a postupy
Provozováno Výzkumným ústavem pedagogickým v Praze.
Algoritmus pro výpočet druhé odmocniny
Informatika textový editor - WORD
Základní škola Bedřicha Hrozného, Lysá nad Labem, okres Nymburk
NEOHEBNÉ SLOVNÍ DRUHY VY_12_INOVACE_Rů_I_23
Metody a techniky výzkumu II.
VY_32_INOVACE_42_Slovni_druhy_jinak
Transkript prezentace:

Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV

Motivace Fazly, A. – Stevenson, S. Automatically Constructing a Lexicon of Verb Phrase Idiomatic Combinations (2006)

● automaticky najít v textovém korpusu idiomatická spojení ve tvaru sloveso + (předložka +) jméno (spadnout z višně, nebuď labuť, zaset nenávist) ● změřit pokrytí a přesnost oproti ruční anotaci a SČFI ● vybrat a přizpůsobit vhodný algoritmus pro extrakci Cíle

● Lexikální pevnost – vytvoření množiny „synonymních“ výrazů je jménu ve spojení – vytvoření množiny tranzitivních sloves v korpusu – výpočet pravděpodobnosti vzhledem k a – aneb jak se může měnit jméno ve frázi Jak na to I

Jak na to II ● Syntaktická pevnost – pasivizace – pluralizace – negace – změna (přidání) členu – aneb v jaké variantě se fráze vyskytuje

Jak na to III ● Kombinace předchozích metod – nastavení vah lexikální a syntaktické pevnosti – zlepšení výsledků – aneb tak dlouho kombinujeme, dokud nám to nevyjde

Závěr ● Funguje to? – pro AJ ano, úspěšnost až 74 % ● A pro češtinu? – snad, uvidíme v brzké budoucnosti ● A využití? – pomoc lexikografům při vytváření slovníků idiomatických frází – detekce potenciálních problémů při strojovém překladu

A jak to celé dopadne? VÍME VŠE: NEVÍME NIC Cimrmanova teorie poznání

Děkuji za pozornost. Jan Bušta