Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Hranice slov a vět (němčina) Ondřej Dušek. Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek.

Podobné prezentace


Prezentace na téma: "Hranice slov a vět (němčina) Ondřej Dušek. Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek."— Transkript prezentace:

1 Hranice slov a vět (němčina) Ondřej Dušek

2 Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek sent.pl  dělení vět (předpokládá formát z token.pl a volitelně seznam zkratek ze sentrain.pl)‏

3 Zpracování souborů if ( @ARGV ){ while( @ARGV ){ open( INPUT, $ARGV[0] ); process_file( \*INPUT ); shift( @ARGV ); } else { process_file( \*STDIN ); } ## sub process_file { my $file = $_[0]; while( ){...

4 Unicode character properties v regular expressions: [\p{Property}] Letter, Number, Punctuation, Symbol Lowercase_Letter, Uppercase_Letter (ale ne uncased)‏ Close_Punctuation, Open_Punctuation (závorky)‏ Initial_Punctuation, Final_Punctuation (uvozovky, bohužel poplatné angličtině)‏ STerm (konce věty)‏

5 Dělení slov Hledání pomocí reg. výrazů, „odkrajování“ $line =~ m/regexp/g; end = pos $line; push( @tokens, substr( $line, 0, $end )); $line = substr( $line, $end ); regexpy pro URL a maily speciální ošetření data  regexpem nahrubo, zbytek zvláštní funkce

6 Statistika hledání tečky mimo konec řádku uchovávání v asociativním poli zahrnutí četnosti formát výstupu: \n zpětné načtení stejné

7 Hranice vět hledání symbolů konce věty a testování spec. funkcí:  porovnání se zkratkami  vyloučení řadových číslovek (není 100%)‏  průchod uvozovkami  následovat musí velké nebo necasované písmeno, interpunkce nebo číslo  problém s character properties a uvozovkami „devítky dole“

8 Výsledek 8 chybových míst na 321 testovacích větách  (přesně -8, +1; jen přibližné, nutné zahrnout odstavce nebo počítat slova)‏ problémy:  uvozovky „z psacího stroje“  zkratky na konci věty / zkratky, které nejsou zkratky  zvláštní znaky (lomítko na zač. věty ~ text písně)‏ vylepšení?  threshold na zkratky  hledání uzávorkování na uvozovkách

9 Technický dotaz Ve Windows příkaz perl token.pl soubor.txt | perl sent.pl > vystup.txt funguje, ale token.pl soubor.txt | sent.pl > vystup.txt ne, i když by měly být ekvivalentní -- proč?


Stáhnout ppt "Hranice slov a vět (němčina) Ondřej Dušek. Základní schéma token.pl  dělení slov (s ohledem na data, URL, maily, A$,...)‏ sentrain.pl  hledání zkratek."

Podobné prezentace


Reklamy Google