Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ
Brno Jan Mach Radka Tichá Definice PDF Portable Document Format Formát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný.
Brno Jan Mach Radka Tichá Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: miksr1_2007bach.pdf
Brno Jan Mach Radka Tichá PDFCreator autoři Philip Chinery a Frank Heindörfer open source, Windows 95 a vyšší virtuální tiskárna x síťová tiskárna –„cokoliv“ -> PS -> PDF, EPS, obrázky využívá GhostScript, PDFCreator je „frontend“ GPL – pro podnikové nasazení AFPL – lepší výsledky, více restriktivní licence
Brno Jan Mach Radka Tichá Práce s PDF extrakce –HTML, čistý text, obrázky práce s metadaty –titulek, autor, popis,... kódování, dekódování –heslo, 64x128 bit kódování, x.509 certifikát práva přístupu spojit, rozdělit stránky vyplnění formulářů
Brno Jan Mach Radka Tichá Problémy s extrakcí textu ukládání textu ve formě obrázků použití nestandardních fontů –rozdělení na dva znaky – písmeno a akcent
Brno Jan Mach Radka Tichá Použití nestandardních fontů nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis mnoho variant zápisu dle SW –např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znaků do unicode (záleží na programu na tvorbu PDF) (/CMap, character mapping) Vhodné programy pro export …
Brno Jan Mach Radka Tichá Export: PDFBox Java, možno použít i v.NET několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm –české znaky jako HTML entity
Brno Jan Mach Radka Tichá Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů)
Brno Jan Mach Radka Tichá Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key.
Brno Jan Mach Radka Tichá PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátuowner pswcertifikátu
Brno Jan Mach Radka Tichá Doporučené odkazy PDF Creator – PDF Box – xpdf – Diskuse LaTeX -> PDF –