Rozpoznávanie slovných druhov alebo vetnej skladby

Slides:



Advertisements
Podobné prezentace
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace
Advertisements

TM40 Dotyková klávesnica
ODBYT registračné pokladnice: kontrola stavu hotovosti
Formáty a koncovky súborov
Monika Smoroňová ZŠ Rozhanovce V. A
ZVUKOVÁ KARTA.
METODIKA TVORBY ATESTAČNEJ PRÁCE
SLOVNÉ DRUHY 3. ročník ZŠ.
Harmonizácia osobných autorít s NKP
AIRDANCE – realizácia multiplatformovej aplikácie typu klient - server
REALIZÁCIA PROGRAMU 3. etapa tvorby programu
L1 cache Pamäť cache.
Integrovaný systém typových pozícií v práci výchovného poradcu
Finančný trh PODNADPIS
8.1 Vznik, vývoj a funkcie peňazí
Údaje, informácie, znalosti Informatika
Údaje, informácie, znalosti Informatika
Obsah marketingového plánu
Mobilné aplikácie a IS , Brno
SME MEDZINÁRODNE CERTIFIKOVANÁ ŠKOLA.
Práca s internetom (Ľ. Jašková, Ľ. Šnajder, R. Baranovič)
Aplikácie pre mobilné zariadenia na rozvoj matematických kompetencií
Informatická výchova 3. ročník
Rastrová a vektorová grafika
MATURITA Miroslava Drahošová
Ako príklad inštalácie uvádzame Bullzip Free PDF Printer.
Cena ako nástroj marketingu
Časti počítača von Neumannovského typu
Nový balík Office.
Miroslav Sajko Martin Petruňa
7. Princíp náhradného aktívneho dvojpólu
Postoj mládeže na Slovensku k armáde
Profesijný zákon slovenského učiteľstva a otázky jeho realizácie
5 tipov na zjednodušenie práce
Kľúč na určovanie rastlín
Slovné druhy PODSTATNÉ MENÁ.
Projekt z chémie 7. ročník
Elektronická výplatná páska
Dva prístupy k vyučovaniu SJ
Sociálna interakcia,medziosob- ná percepcia
Ochrana potravín Tréningový kurz Co-financiado.
Hypertextové prepojenia
Použitie počítačov v geografii (2)
Rastrova a Vektorov grafika
Licencie programov Precvičenie pojmov.
Úvod do štúdia literatúry
Geografické informačné systémy
Použitie počítačov v geografii (2)
Desatoro pre spoluprácu so súdnymi exekútormi
Divergentné úlohy v matematike
Vápenec.
ŠOŠOVKY Rozptylky a spojky.
Katedra štatistiky FHI EU v Bratislave
Počítač von Neumanovského typu
Výskumný súbor.
Aktualizácia informácii o bezpečnostných prvkoch
Modelovanie DBS Vypracoval: Ing. Michal COPKO.
VEGA Informácie o VEGA (porovnanie minulosť – súčasnosť)
Digitalizácia informácií
Informačné systémy Simona Franková Mária Babčáková 3.Ag
Smerovanie Ing. Branislav Müller.
Sekvenčné logické obvody (predmet :automatizácia)
Doplnkové utility pre Windows XP
Autor: Gabriela Pokorná Antašová
PaedDr. Eva Kulfasová ZŠ, P. Jilemnického 1035/2, Zvolen
MEDLINE Complete ~ Vyhľadávanie
Tutoriál ~ eKnihy Sťahovanie
KOMUNIKAČNÁ KOMPETENCIA
Pracovné zošity Práca s grafikou (2000) Algoritmy s Pascalom (2002) Práca s multimédiami (2005)
Stredná odborná škola automobilová Moldavská cesta 2, Košice
Transkript prezentace:

Rozpoznávanie slovných druhov alebo vetnej skladby Semetrálny projekt Vyhľadávanie Informácií 2010/2009 POS Tagging Rozpoznávanie slovných druhov alebo vetnej skladby 9. 11. 2018 Bc. Peter Voroňák

Zadanie Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, myspell, OpenOffice a pod.). Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. 9. 11. 2018 Bc. Peter Voroňák

POS Tagging Rozpoznávanie slovných druhov pods. m., príd. m., zámená... Analýza textu Vyhľadávanie informácií Kategorizácia informácií Problémom je analýza slova, otagovanie, priradenie k slovnému druhu Zložitý proces vzhľadom na ohybnosť slov v slovenčine 9. 11. 2018 Bc. Peter Voroňák

Existujúce riešenia Slovník JULS SAV Visual Text POS Tagger Demo ME POS Tagger 9. 11. 2018 Bc. Peter Voroňák

Aplikácia Projekt sa zaoberá jednoduchým taggingom pre slovenčinu. Za vstup berie slovenské texty, rozkladá text na slová, orezáva interpunkčné znamienka a otagauje ich. Implementovaný v dynamickom jazyku PHP bez použitia databázy. Inštalácia je jednoduchá a je možné tento projekt používať online na internete http://chef.euweb.cz/vi/ Projekt je založený na slovníkovom princípe (slovník je jednoduchý, predefinovaný s vlastnou štruktúrou). 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – vstupy, výstupy, dáta vstup: ľubovoľný textový súbor s príponou .txt v kódovaní UTF-8. výstup: farebne zvýraznený text ako webová stránka. dáta na testovanie: 4 textové súbory (cca 4500 slov). Ide o jednoduché textové súbory v kódovaní UTF-8. 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – slovník na ispell princípe ... 50|4 6|4 7|4 8|4 aby|9 aj|8 asi|9 až|9 bár|9 bárs|9 bol|5 // 1 - pods. meno 2 - príd. meno 3 - zámeno 4 - číslovka 5 - sloveso // 6 - príslovka 7 - predložka 8 - spojka 9 - častica 10 - spojka 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – algoritmus značkovania načítanie slovníka do dvojrozmerného poľa v asociácii assoc_array[prve_pismenko][cele_slovo] = tag výber súboru na analýzu uploadovanie súboru a jeho dočasné uloženie rozklad vety na jednotlivé slová orezané o znaky '?','!',',','.','"','*','-',':','„','_' analýza každého slova ak slovo nie je v slovníku, analyzujú sa koncovky dĺžky 1, 2 a 3 na základe jednoduchých rozhodovacích pravidiel na základe rozhodnutia sa slovo vyfarbí príslušnou farbou. 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – GUI 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – Výsledky 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – Výsledky 9. 11. 2018 Bc. Peter Voroňák

Aplikácia – Výsledky 3 9. 11. 2018 Bc. Peter Voroňák

Záver aplikácia, ktorá sa snaží otagovať pomerne vysoké percento slov vstupného textu. nejestvuje kompletný slovník slovenského jazyka ktorý by bol označkovaný, preto disiahnutie tohto cieľa je naozaj ťažké. jazyk ako slovenčina je na počet slov a čo do ich ohybnosti mohutný. pre označkovanie niektorých slov je treba poznať celý kontext vety. Aplikácia dosahuje relatívne uspokojivé výsledky 9. 11. 2018 Bc. Peter Voroňák

Ďakujem za pozornosť Semetrálny projekt Vyhľadávanie Informácií 2010/2009 Ďakujem za pozornosť 9. 11. 2018 Bc. Peter Voroňák