Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ.

Podobné prezentace


Prezentace na téma: "16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ."— Transkript prezentace:

1 16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ

2 16.10.2007 Brno Jan Mach Radka Tichá Definice PDF Portable Document Format Formát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný.

3 16.10.2007 Brno Jan Mach Radka Tichá Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: https://dip.felk.cvut.cz/browse/pdfcache/ miksr1_2007bach.pdf

4 16.10.2007 Brno Jan Mach Radka Tichá PDFCreator autoři Philip Chinery a Frank Heindörfer open source, Windows 95 a vyšší virtuální tiskárna x síťová tiskárna –„cokoliv“ -> PS -> PDF, EPS, obrázky využívá GhostScript, PDFCreator je „frontend“ GPL – pro podnikové nasazení AFPL – lepší výsledky, více restriktivní licence

5 16.10.2007 Brno Jan Mach Radka Tichá Práce s PDF extrakce –HTML, čistý text, obrázky práce s metadaty –titulek, autor, popis,... kódování, dekódování –heslo, 64x128 bit kódování, x.509 certifikát práva přístupu spojit, rozdělit stránky vyplnění formulářů

6 16.10.2007 Brno Jan Mach Radka Tichá Problémy s extrakcí textu ukládání textu ve formě obrázků použití nestandardních fontů –rozdělení na dva znaky – písmeno a akcent

7 16.10.2007 Brno Jan Mach Radka Tichá Použití nestandardních fontů nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis mnoho variant zápisu dle SW –např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znaků do unicode (záleží na programu na tvorbu PDF) (/CMap, character mapping) Vhodné programy pro export …

8 16.10.2007 Brno Jan Mach Radka Tichá Export: PDFBox Java, možno použít i v.NET několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm –české znaky jako HTML entity

9 16.10.2007 Brno Jan Mach Radka Tichá Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů)

10 16.10.2007 Brno Jan Mach Radka Tichá Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key.

11 16.10.2007 Brno Jan Mach Radka Tichá PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátuowner pswcertifikátu

12 16.10.2007 Brno Jan Mach Radka Tichá Doporučené odkazy PDF Creator –http://sourceforge.net/projects/pdfcreator/http://sourceforge.net/projects/pdfcreator/ PDF Box –http://www.pdfbox.org/http://www.pdfbox.org/ xpdf –http://cs.wikipedia.org/wiki/Xpdfhttp://cs.wikipedia.org/wiki/Xpdf Diskuse LaTeX -> PDF –http://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.htmlhttp://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.html


Stáhnout ppt "16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ."

Podobné prezentace


Reklamy Google