Rozpoznávanie slovných druhov alebo vetnej skladby Semetrálny projekt Vyhľadávanie Informácií 2010/2009 POS Tagging Rozpoznávanie slovných druhov alebo vetnej skladby 9. 11. 2018 Bc. Peter Voroňák
Zadanie Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, myspell, OpenOffice a pod.). Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. 9. 11. 2018 Bc. Peter Voroňák
POS Tagging Rozpoznávanie slovných druhov pods. m., príd. m., zámená... Analýza textu Vyhľadávanie informácií Kategorizácia informácií Problémom je analýza slova, otagovanie, priradenie k slovnému druhu Zložitý proces vzhľadom na ohybnosť slov v slovenčine 9. 11. 2018 Bc. Peter Voroňák
Existujúce riešenia Slovník JULS SAV Visual Text POS Tagger Demo ME POS Tagger 9. 11. 2018 Bc. Peter Voroňák
Aplikácia Projekt sa zaoberá jednoduchým taggingom pre slovenčinu. Za vstup berie slovenské texty, rozkladá text na slová, orezáva interpunkčné znamienka a otagauje ich. Implementovaný v dynamickom jazyku PHP bez použitia databázy. Inštalácia je jednoduchá a je možné tento projekt používať online na internete http://chef.euweb.cz/vi/ Projekt je založený na slovníkovom princípe (slovník je jednoduchý, predefinovaný s vlastnou štruktúrou). 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – vstupy, výstupy, dáta vstup: ľubovoľný textový súbor s príponou .txt v kódovaní UTF-8. výstup: farebne zvýraznený text ako webová stránka. dáta na testovanie: 4 textové súbory (cca 4500 slov). Ide o jednoduché textové súbory v kódovaní UTF-8. 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – slovník na ispell princípe ... 50|4 6|4 7|4 8|4 aby|9 aj|8 asi|9 až|9 bár|9 bárs|9 bol|5 // 1 - pods. meno 2 - príd. meno 3 - zámeno 4 - číslovka 5 - sloveso // 6 - príslovka 7 - predložka 8 - spojka 9 - častica 10 - spojka 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – algoritmus značkovania načítanie slovníka do dvojrozmerného poľa v asociácii assoc_array[prve_pismenko][cele_slovo] = tag výber súboru na analýzu uploadovanie súboru a jeho dočasné uloženie rozklad vety na jednotlivé slová orezané o znaky '?','!',',','.','"','*','-',':','„','_' analýza každého slova ak slovo nie je v slovníku, analyzujú sa koncovky dĺžky 1, 2 a 3 na základe jednoduchých rozhodovacích pravidiel na základe rozhodnutia sa slovo vyfarbí príslušnou farbou. 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – GUI 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – Výsledky 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – Výsledky 9. 11. 2018 Bc. Peter Voroňák
Aplikácia – Výsledky 3 9. 11. 2018 Bc. Peter Voroňák
Záver aplikácia, ktorá sa snaží otagovať pomerne vysoké percento slov vstupného textu. nejestvuje kompletný slovník slovenského jazyka ktorý by bol označkovaný, preto disiahnutie tohto cieľa je naozaj ťažké. jazyk ako slovenčina je na počet slov a čo do ich ohybnosti mohutný. pre označkovanie niektorých slov je treba poznať celý kontext vety. Aplikácia dosahuje relatívne uspokojivé výsledky 9. 11. 2018 Bc. Peter Voroňák
Ďakujem za pozornosť Semetrálny projekt Vyhľadávanie Informácií 2010/2009 Ďakujem za pozornosť 9. 11. 2018 Bc. Peter Voroňák