Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Hranice slov a vět Ondřej Tichý.

Podobné prezentace


Prezentace na téma: "Hranice slov a vět Ondřej Tichý."— Transkript prezentace:

1 Hranice slov a vět Ondřej Tichý

2 Zadání: Tokenizátor Program na naučení konců vět Oddělovač vět
Čte text ze standardního vstupu, hledá a vyznačuje v něm hranice tokenů (slov). Program na naučení konců vět Program, který se z trénovacích dat, ve kterých jsou vyznačené věty, naučí statistiku, potřebnou pro zlepšení rozhodování o hranicích vět. Oddělovač vět Čte ze standardního vstupu tokenizovaný text s vyznačenými hranicemi odstavců. Hledá a vyznačuje v něm hranice vět.

3 Tokenizátor Program projede každý řádek a pomocí regulárních výrazů tokenizuje text Např. ošetření různých formátů datumů URL a y by šly ošetřit lépe pomocí „if“ při načtení tokenu a hledání např. „ (pak už nerozdělím na „http : / /“) nebo Sázím mezery jak se mi hodí, na konci to příkazem $lines[$i] =~ s/(\s)+/ /g; od přebytečných mezer vyčistím

4 Učení hranic vět Na vstupu je na každém řádku věta, tzn. snadno najdu slova, za kterými je tečka a přitom neukončují větu Tím se vytvoří seznam zkratek, který se použije při hledání hranic vět

5 Hledání hranic vět Odstavec je na jednom řádku, tzn. načítám každý řádek = split(/ /, $lines[$i]); získám pole slov a hledám tečky Pokud je slovo před tečkou v seznamu zkratek, konec věty se neoznačí, jinak ano Nutno ošetřit výjimky, jako závorky, uvozovky, datum etc.

6 Závěr Během psaní programů v podstatě žádné problémy, jde hlavně o to se probít přes regulární výrazy, pak už to jde hezky…


Stáhnout ppt "Hranice slov a vět Ondřej Tichý."

Podobné prezentace


Reklamy Google