Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ.

Podobné prezentace


Prezentace na téma: "16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ."— Transkript prezentace:

1 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ

2 Brno Jan Mach Radka Tichá Definice PDF Portable Document Format Formát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný.

3 Brno Jan Mach Radka Tichá Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: https://dip.felk.cvut.cz/browse/pdfcache/ miksr1_2007bach.pdf

4 Brno Jan Mach Radka Tichá PDFCreator autoři Philip Chinery a Frank Heindörfer open source, Windows 95 a vyšší virtuální tiskárna x síťová tiskárna –„cokoliv“ -> PS -> PDF, EPS, obrázky využívá GhostScript, PDFCreator je „frontend“ GPL – pro podnikové nasazení AFPL – lepší výsledky, více restriktivní licence

5 Brno Jan Mach Radka Tichá Práce s PDF extrakce –HTML, čistý text, obrázky práce s metadaty –titulek, autor, popis,... kódování, dekódování –heslo, 64x128 bit kódování, x.509 certifikát práva přístupu spojit, rozdělit stránky vyplnění formulářů

6 Brno Jan Mach Radka Tichá Problémy s extrakcí textu ukládání textu ve formě obrázků použití nestandardních fontů –rozdělení na dva znaky – písmeno a akcent

7 Brno Jan Mach Radka Tichá Použití nestandardních fontů nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis mnoho variant zápisu dle SW –např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znaků do unicode (záleží na programu na tvorbu PDF) (/CMap, character mapping) Vhodné programy pro export …

8 Brno Jan Mach Radka Tichá Export: PDFBox Java, možno použít i v.NET několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm –české znaky jako HTML entity

9 Brno Jan Mach Radka Tichá Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů)

10 Brno Jan Mach Radka Tichá Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key.

11 Brno Jan Mach Radka Tichá PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátuowner pswcertifikátu

12 Brno Jan Mach Radka Tichá Doporučené odkazy PDF Creator –http://sourceforge.net/projects/pdfcreator/http://sourceforge.net/projects/pdfcreator/ PDF Box –http://www.pdfbox.org/http://www.pdfbox.org/ xpdf –http://cs.wikipedia.org/wiki/Xpdfhttp://cs.wikipedia.org/wiki/Xpdf Diskuse LaTeX -> PDF –http://lists.felk.cvut.cz/pipermail/cstex/2003-October/ htmlhttp://lists.felk.cvut.cz/pipermail/cstex/2003-October/ html


Stáhnout ppt "16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ."

Podobné prezentace


Reklamy Google