Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Pavouk - telugština David Mareček. Telugština Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá.

Podobné prezentace


Prezentace na téma: "Pavouk - telugština David Mareček. Telugština Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá."— Transkript prezentace:

1 Pavouk - telugština David Mareček

2 Telugština Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F ).

3 Zdroj dat Výchozí stránka: Stránky, které nemají v hlavičce meta tag s kódováním utf-8, se zahazují. Program během stahování neopustil výchozí stránku.

4 Parsing Pro parsování stránky byl použit balík HTML::Parser. Pro dekódování entit balík HTML::Entities. Každá stránka rozdělena na odstavce. Bereme poze ty odstavce, které jsou uvnitř bloku a zároveň nejsou uvnitř bloku.

5 Zpracování textu Pro každý odstavec se podle vzorce z přednášky určí podobnost jeho jazyka Při dostatečné podobnosti (pro telugštinu více jak 0.6) se tento odstavec přidá do korpusu Hašování obsahu odstavců pomcí CRC ( String::CRC ), tím zamezíme výskytu shodných odstavců v korpusu

6 Zpracování linků Během průchodu stránkou se všechny linky převádějí na absoulutní a ukládají se do pomocného seznamu. Pokud se z této stránky vložil do korpusu alespoň jeden odstavec, seznam linků se přidá na konec fronty, v opačném případě se zahodí. Hašování linků pomocí CRC, do fronty se přidávají pouze nenavštívená url.

7 Korpus počet odstavců: počet slov: počet znaků (bez mezer): velikost 10,6 MB


Stáhnout ppt "Pavouk - telugština David Mareček. Telugština Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá."

Podobné prezentace


Reklamy Google