Pavouk - rumunština Martin Popel. Naučení frekvenční charakteristiky jazyka Čištění dokumentů Vlastní pavouk Wikipedia Rumunština.

Slides:



Advertisements
Podobné prezentace
Fonologie Cvičení číslo 2. Kdo je tady? Kdo má domácí úkol?
Advertisements

VY_32_INOVACE_54_MS_Word_ III. Autor : Trýzna Stanislav Školní rok : 2011/2012 Určeno pro : šestý ročník Předmět: informatika Téma : základní orientace.
Příprava odborného textu pro výuku PAVEL KURFÜRST Ústav cizích jazyků LF UP workshop Olomouc, 29. května 2006.
Jazyk HTML. Zdrojový kód  Elementy obsah obsah př. důležité př. důležité př. př.
Seznámení s počítačem.
Title of the document The content of the document Úroveň 1 Úroveň 2 Úroveň 3 Titulek Výrobky Služby O nás Autorem materiálu a všech jeho částí, není-li.
<. DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4
Tvorba stránek  komu jsou stránky určeny  grafická úprava stránek  obsah  motivy vzhledu stránky
HyperText Markup Language
Karta Domů, skupina Odstavec
New Catholic Encyklopedia Gale Virtual Reference Library (producent Thomson Gale)
SEO pro novou firmu Bartošová Lenka 3MA
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Úvod do html kódu. Roman Hendrich
Příprava odborného textu pro výuku PAVEL KURFÜRST Ústav cizích jazyků LF UP Konference Cizí jazyky na Univerzitě Palackého Olomouc, 20. dubna 2006.
Slovníky cizích slov Teď pustila mě pasivita a ty jsi moje priorita jsem hnedle vedle z cizích slov no jak ta jedle nebo the Fir. Až naučím se cizí řeči.
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
Školení autorů distančních opor Inovace kombinovaného studia.
Tento materiál byl vytvořen jako učební dokument projektu inovace výuky v rámci OP Vzdělávání pro konkurenceschopnost VY_32_INOVACE_D2 – 05.
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
Jazyk HTML.
Google formuláře.
TNPW1 Technologie pro publikování na webu Cvičení č. 3 Nadpisy Martin Adámek.
Přístupnost internetové prezentace Českého statistického úřadu
Zadání samostatné práce SP1 Základy HTML. CÍL Ověřit znalosti použití základních HTML construkcí –Základní kostra –Kódování češtiny –Nastavení pozadí.
WWW stránky – Struktura, adresování, hosting Mgr. Lenka Švancarová.
VY_32_INOVACE_4.3.IVT1.10/Ku Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Pavla Kubínková CZ.1.07/1.5.00/ Validita stránek.
TNPW1 Technologie pro publikování na webu Cvičení č. 4 Nejen textem živ je web – seznamy, obrázky a tabulky Martin Adámek.
ANOTACEPrezentace obsahuje základní informace o internetu, o historii a možnostech prohlížení internetu. Druh učebního materiáluDUM Očekávané výstupy Žáci.
Skladba HTML dokumentu
Úvodem Práce s texty je jedna z nejčastěji používaných činností při práci na PC. Psaní a editace textu Formátování textu Tvorba dokumentu.
Jak napsat odbornou práci?
Pravidla a doporučení pro názvy souborů
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: duben.
MS Internet Explorer Prohlížeč – zobrazuje www stránky Obsahuje:
ZIHB – MS Word dodatek 1 Petr Kratochvíl, KIV ZČU, © 2008.
Brána k poznání Dokončení první fáze – základní značky HTML.
Internet.  Celosvětový systém propojených počítačů  Funkce  Sdílení dat  Elektronická pošta.
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
WORD 2010 Karta Domů, skupina Odstavec. Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309,
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09C19 AutorMgr. Monika Chvostková Období vytvořeníZáří 2013.
Statistika 2 Aritmetický průměr, Modus, Medián
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Slovník Nevíte jak pracovat se slovníkem na internetu?Nevadí,přečtět e si můj návod: Návod Jméno:Karolína Průšová Datum: Škola:Nám.Bří.Jandusů.
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
VY_32_INOVACE_4.3.IVT1.05/Ku Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Pavla Kubínková CZ.1.07/1.5.00/ CSS.
URL v HTML URL - Unique Resource Locator Příklad:
Autor: Jakub Černek jakub(zavináč)cernek.cz µŠkolení Efektivnějšího využívání PowerPointu 2003.
Základní pojmy (1) Nejpoužívanější internetové prohlížeče: Google Chrome (32.0.x), Mozilla Firefox (27.0), Internet Explorer (11.0.2), Opera (19.0.x),
Číslo šablony: III/2 VY_32_INOVACE_P4_ 2.3 Tematická oblast: Aplikační software pro práci s informacemi I. Textový editor - odstavec Typ: DUM - kombinovaný.
Import záznamů diplomových prací nové řešení Antonín Vaishar, SUAleph, 26. –
1 Protokol HTTP (Hypertext Transfer Protocol) HTTP je základem systému „World Wide Web“ (WWW) - Web … HTTP – jednoduchý protokol aplikační vrstvy, transport.
Title of the document The content of the document Úroveň 1 Úroveň 2 Úroveň 3 Titulek Výrobky Služby O nás Autorem materiálu a všech jeho částí, není-li.
Hypertextové odkazy [cit ]. Dostupné pod licencí Public Domain – na
Textový editor.
Využití programu Excel jako CAT nástroje (vytváření pamětí pro překlady ze stávajících textů) Jiří Vedral Jednota tlumočníků a překladatelů, Praha (hl.
Pavouk - telugština David Mareček. Telugština Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá.
Úvod do XML 2. část Zdeněk Žabokrtský (s využitím materiálů z
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Fulltextový vyhledávač Štěpán Škrob.
Internet publishing HTML documents writing basics Petr Zámostný room: A-72a phone.: 4222
INTERNET Gymnázium a Jazyková škola s právem státní jazykové zkoušky Svitavy Ditta Kukaňová.
Aplikace Přijímačky školní rok 2014/2015
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
Internet – pojmy, služby
Elementaristika elektronických informací
Základy HTML TNPW1 Ing. Jiří Štěpánek.
Protokol HTTP (Hypertext Transfer Protocol)
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace
Tvorba webových stránek
Transkript prezentace:

Pavouk - rumunština Martin Popel

Naučení frekvenční charakteristiky jazyka Čištění dokumentů Vlastní pavouk Wikipedia Rumunština

Naučení frekvencí Je-li málo dat, lze 1.Neutralizovat vliv opakujících se slov První výskyt slova: $xgram{$_}++; $xgramu++; Další výskyty téhož slova: $xgram{$_} += $c; $xgramu += $c; 2.Sehnat více dat Učit se frekvence na několikrát Najít zdroj bez jiných jazyků

Naučení frekvencí Ukládat i absolutní četnosti – možnost budovat frekvenční slovník postupně Odříznout „chvost“ (např. rel. frek. < 0.001) a přepočítat frekvence, aby sčítaly do 1. Ukládat i častá slova (ale zvolit práh např. nad 100 výskytů) Úprava zadání Sekce se slovy oddělena prázdným řádkem [[ostatní]] de …

Rozpoznání jazyka Spočítat vzdálenost ( ) zvlášť pro unigramy, bigramy a trigramy a zprůměrovat. Spočítat kolik procent slov z určovaného odstavce je pokryto slovníkem. Z těchto dvou vzdáleností vážený průměr (např. pokrytí * 3 + x-gram-vzdálenost / 4) Odstranit ze slovníku anglická slova? Co čísla?

Čištění dokumentu Obecné otázky Odstranit krátké odstavce (< 70 znaků)? Každý odstavec jen jednou? Partial match ??? (např. hashovat pomocí crc obě poloviny odstavce zvlášť) „modified by user xy at 22:27“

Čištění dokumentu Jiné jazyky Seznam „nepřátelských“ jazyků a jejich nejčastějších slov (the, of, with,…) Vymazat odstavce obsahující tato slova. Pro některá využití korpusu nepřijatelné. Může se hodit pro vytvoření textu, ze kterého se určí frekvence (slovníku).

Čištění dokumentů Pevná mezera use HTML::Entities; my $odst="Za v se píše pevná mezera."; print "$odst\n"; decode_entities($odst); print "$odst\n"; my $ods_slov = ($odst=~s/\s+/ /g) + 1; print "$ods_slov slov: $odst\n"; #6 slov

Vlastní pavouk URL my $url = URI->new( ' $url->scheme eq ‘http’; $url->host eq ‘abc.de’; $url->fragment eq ‘frag’; $url->path eq ‘/f/../g/h.html’; $url->opaque eq ‘//abc.de/f/../g/h.html?p1=x&p2=y’; Postup: return if lc($adresa) =~ m!$prefiltr_neg!o); #obrázky atd. my $url1 = URI->new_abs($adresa, $dok_base)->canonical; my $url = $url1->scheme.':'.$url1->opaque; #bez fragmentu return if exists $nalezene_adresy{$url}; return if ($url !~ m!$filtr_poz!o); $nalezene_adresy{$url} = 1; $url;

Vlastní pavouk Dokument i nalezené odkazy si ukládat zvlášť Přidat do korpusu (a odkazy do fronty) až, je-li dokument „kvalitní“. Určí se např. z počtu „kvalitních“ odstavců, případně i počtu odstavců duplicitních, krátkých či cizojazyčných. Paralelní stahování z více serverů…

Wikipedia archiv (7z) 67 M, rozbalené 2 GB, vyčištěný korpus 40 MB (5,8 MW, dokumentů, cca 5 minut čištění) pavouk.pl –f wiki/ro/d > korpus_wiki_ro_d Stránky uživatelů, obrázků, kategorií,… mají v názvu „~“ ( Discuţie_Utilizator~Dbacosit_b709.html ) Obsah článku lze v html poznat podle komentářů: … Daca este un paloş curb, armă caracteristică … Dále odstranit: pahýly (stub), tabulky,…

Wikipedia $parser->handler(comment => \&comment_hook, 'text') if $wiki; sub comment_hook($) { my $text = shift; $wiki_content = 1 if $text eq ' '; $wiki_content = 0 if $text eq ' '; } sub text_hook($) { if ($dok_zanoreni{'body'} and !$dok_zanoreni{'script'} and $wiki_content and (!$wiki || !$dok_zanoreni{'table'})) { $odstavec.= shift; }

Rumunština Wiki eiarntulocsdmpă, ă ş ţ î â Î Web aietrnulcsodmp, ă ţ ş î â Î

Rumunština „k“ a „y“ jen v cizích slovech (ale hidrant) Nejčastější plnovýznamová slova: este (je), fost (byl), sunt (jsem/jsou), era (býval), fiind (jedná [se o]), are (má), anul (rok), mare (velký), două (dvě), parte (část, strana), poate (může), multe (hodně), judeţul (župa) război 6917, pace 594 moarte 1924, naşterea 622