Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilLinda Nováková
1
Konverze dokumentů ve formátech PDF a PostScript Pavel Gloss vedoucí práce: Ing. Dalibor Fiala
2
Potřeba ověřit schopnosti volně šířených programů (utilit) pro konverzi dokumentů ve formátech PDF a PS do čistého textu extrakce textu: automatické úlohy (např. indexování obsahu dokumentů na webu) Zajímá nás: kvalita konverze, chybovost, doba konverze Důvod vzniku práce
3
Batch PDF/PS to plain-text convertor Nástroj pro automatické zpracování PDF a PS dokumentů: Dávková konverze – volání utilit Detekce chybových převodů (heuristika) Statistiky o převodech (export) Realizace v Delphi
4
Porovnání kvality konverze utilit Nástroj pro otestování kvality (přesnosti) převodů utilit Zjišťování podobnosti dvojic textů (konvertované + originální) –bez úprav a s předzpracováním Fuzzy algoritmus fstrcmp (GNU licence, jazyk C) Grafické zobrazení výsledků, export, import Realizace v Javě
5
Testování pomocí obou programů
6
Výsledky dávkové konverze PDF do textu: počet souborů: 2304 průměrná velikost: 0,17 MB PS do textu: počet souborů: 337 průměrná velikost: 1,01 MB
7
Výsledky porovnání kvality konverze utilit PDF
8
Výsledky porovnání kvality konverze utilit PS
9
Závěr Výsledky testování podobnosti dvojic textů mírně zkreslené V práci se podařilo dokázat, že: –Pro převod z PDF vítězí Adobe PDF IFilter –Pro převod z PS to jsou ps2ascii (více chyb) a modifikovaná verze pstotext (méně chyb, delší doba konverze) –Nejhorší pro všechny převody je pstotext (původ. ver.)
10
Děkuji za pozornost Prostor pro dotazy
Podobné prezentace
© 2019 SlidePlayer.cz Inc.
All rights reserved.