Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Konverze dokumentů ve formátech PDF a PostScript Pavel Gloss vedoucí práce: Ing. Dalibor Fiala.

Podobné prezentace


Prezentace na téma: "Konverze dokumentů ve formátech PDF a PostScript Pavel Gloss vedoucí práce: Ing. Dalibor Fiala."— Transkript prezentace:

1 Konverze dokumentů ve formátech PDF a PostScript Pavel Gloss vedoucí práce: Ing. Dalibor Fiala

2 Potřeba ověřit schopnosti volně šířených programů (utilit) pro konverzi dokumentů ve formátech PDF a PS do čistého textu  extrakce textu: automatické úlohy (např. indexování obsahu dokumentů na webu) Zajímá nás: kvalita konverze, chybovost, doba konverze Důvod vzniku práce

3 Batch PDF/PS to plain-text convertor Nástroj pro automatické zpracování PDF a PS dokumentů: Dávková konverze – volání utilit Detekce chybových převodů (heuristika) Statistiky o převodech (export) Realizace v Delphi

4 Porovnání kvality konverze utilit Nástroj pro otestování kvality (přesnosti) převodů utilit Zjišťování podobnosti dvojic textů (konvertované + originální) –bez úprav a s předzpracováním Fuzzy algoritmus fstrcmp (GNU licence, jazyk C) Grafické zobrazení výsledků, export, import Realizace v Javě

5 Testování pomocí obou programů

6 Výsledky dávkové konverze PDF do textu: počet souborů: 2304 průměrná velikost: 0,17 MB PS do textu: počet souborů: 337 průměrná velikost: 1,01 MB

7 Výsledky porovnání kvality konverze utilit PDF

8 Výsledky porovnání kvality konverze utilit PS

9 Závěr Výsledky testování podobnosti dvojic textů mírně zkreslené V práci se podařilo dokázat, že: –Pro převod z PDF vítězí Adobe PDF IFilter –Pro převod z PS to jsou ps2ascii (více chyb) a modifikovaná verze pstotext (méně chyb, delší doba konverze) –Nejhorší pro všechny převody je pstotext (původ. ver.)

10 Děkuji za pozornost Prostor pro dotazy


Stáhnout ppt "Konverze dokumentů ve formátech PDF a PostScript Pavel Gloss vedoucí práce: Ing. Dalibor Fiala."

Podobné prezentace


Reklamy Google