Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Rozpoznávanie slovných druhov alebo vetnej skladby

Podobné prezentace


Prezentace na téma: "Rozpoznávanie slovných druhov alebo vetnej skladby"— Transkript prezentace:

1 Rozpoznávanie slovných druhov alebo vetnej skladby
Semetrálny projekt Vyhľadávanie Informácií 2010/2009 POS Tagging Rozpoznávanie slovných druhov alebo vetnej skladby Bc. Peter Voroňák

2 Zadanie Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, myspell, OpenOffice a pod.). Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. Bc. Peter Voroňák

3 POS Tagging Rozpoznávanie slovných druhov
pods. m., príd. m., zámená... Analýza textu Vyhľadávanie informácií Kategorizácia informácií Problémom je analýza slova, otagovanie, priradenie k slovnému druhu Zložitý proces vzhľadom na ohybnosť slov v slovenčine Bc. Peter Voroňák

4 Existujúce riešenia Slovník JULS SAV Visual Text POS Tagger Demo
ME POS Tagger Bc. Peter Voroňák

5 Aplikácia Projekt sa zaoberá jednoduchým taggingom pre slovenčinu.
Za vstup berie slovenské texty, rozkladá text na slová, orezáva interpunkčné znamienka a otagauje ich. Implementovaný v dynamickom jazyku PHP bez použitia databázy. Inštalácia je jednoduchá a je možné tento projekt používať online na internete Projekt je založený na slovníkovom princípe (slovník je jednoduchý, predefinovaný s vlastnou štruktúrou). Bc. Peter Voroňák

6 Aplikácia – vstupy, výstupy, dáta
vstup: ľubovoľný textový súbor s príponou .txt v kódovaní UTF-8. výstup: farebne zvýraznený text ako webová stránka. dáta na testovanie: 4 textové súbory (cca 4500 slov). Ide o jednoduché textové súbory v kódovaní UTF-8. Bc. Peter Voroňák

7 Aplikácia – slovník na ispell princípe
... 50|4 6|4 7|4 8|4 aby|9 aj|8 asi|9 až|9 bár|9 bárs|9 bol|5 // 1 - pods. meno príd. meno zámeno číslovka sloveso // 6 - príslovka predložka spojka častica spojka Bc. Peter Voroňák

8 Aplikácia – algoritmus značkovania
načítanie slovníka do dvojrozmerného poľa v asociácii assoc_array[prve_pismenko][cele_slovo] = tag výber súboru na analýzu uploadovanie súboru a jeho dočasné uloženie rozklad vety na jednotlivé slová orezané o znaky '?','!',',','.','"','*','-',':','„','_' analýza každého slova ak slovo nie je v slovníku, analyzujú sa koncovky dĺžky 1, 2 a 3 na základe jednoduchých rozhodovacích pravidiel na základe rozhodnutia sa slovo vyfarbí príslušnou farbou. Bc. Peter Voroňák

9 Aplikácia – GUI Bc. Peter Voroňák

10 Aplikácia – Výsledky Bc. Peter Voroňák

11 Aplikácia – Výsledky Bc. Peter Voroňák

12 Aplikácia – Výsledky 3 Bc. Peter Voroňák

13 Záver aplikácia, ktorá sa snaží otagovať pomerne vysoké percento slov vstupného textu. nejestvuje kompletný slovník slovenského jazyka ktorý by bol označkovaný, preto disiahnutie tohto cieľa je naozaj ťažké. jazyk ako slovenčina je na počet slov a čo do ich ohybnosti mohutný. pre označkovanie niektorých slov je treba poznať celý kontext vety. Aplikácia dosahuje relatívne uspokojivé výsledky Bc. Peter Voroňák

14 Ďakujem za pozornosť Semetrálny projekt Vyhľadávanie Informácií
2010/2009 Ďakujem za pozornosť Bc. Peter Voroňák


Stáhnout ppt "Rozpoznávanie slovných druhov alebo vetnej skladby"

Podobné prezentace


Reklamy Google