Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilBřetislav Kříž
1
16.10.2007 Brno Jan Mach Radka Tichá Jak na převody do pdf Jan Mach, VŠE Radka Tichá, ZČÚ
2
16.10.2007 Brno Jan Mach Radka Tichá Definice PDF Portable Document Format Formát na bázi PostScriptu pro ukládání dokumentů nezávisle na softwaru a hardwaru, na kterém byly vytvořeny. PDF dokument může obsahovat nejen text, ale i obrázky, přičemž je zajištěno, že výsledný vzhled bude na všech zařízeních stejný.
3
16.10.2007 Brno Jan Mach Radka Tichá Vliv SW na extrakci textu Mikš, Radovan, Extrakce textu z PDF se správnou diakritikou, bakalářská práce, 2007, ČVUT v Praze. Dostupný z WWW: https://dip.felk.cvut.cz/browse/pdfcache/ miksr1_2007bach.pdf
4
16.10.2007 Brno Jan Mach Radka Tichá PDFCreator autoři Philip Chinery a Frank Heindörfer open source, Windows 95 a vyšší virtuální tiskárna x síťová tiskárna –„cokoliv“ -> PS -> PDF, EPS, obrázky využívá GhostScript, PDFCreator je „frontend“ GPL – pro podnikové nasazení AFPL – lepší výsledky, více restriktivní licence
5
16.10.2007 Brno Jan Mach Radka Tichá Práce s PDF extrakce –HTML, čistý text, obrázky práce s metadaty –titulek, autor, popis,... kódování, dekódování –heslo, 64x128 bit kódování, x.509 certifikát práva přístupu spojit, rozdělit stránky vyplnění formulářů
6
16.10.2007 Brno Jan Mach Radka Tichá Problémy s extrakcí textu ukládání textu ve formě obrázků použití nestandardních fontů –rozdělení na dva znaky – písmeno a akcent
7
16.10.2007 Brno Jan Mach Radka Tichá Použití nestandardních fontů nestandardní znaky uloženy jako seznam odlišných znaků a jejich zápis mnoho variant zápisu dle SW –např. u se znakem stupeň, kroužek nad u, u pod kroužkem Řešení: nutno při tvorbě PDF u nestandardních fontů doplnit atribut /toUnicode definující mapování znaků do unicode (záleží na programu na tvorbu PDF) (/CMap, character mapping) Vhodné programy pro export …
8
16.10.2007 Brno Jan Mach Radka Tichá Export: PDFBox Java, možno použít i v.NET několik tříd pro práci s PDF Extracttext -encoding windows-1250 test.pdf export.txt Extracttext -encoding –html windows-1250 test.pdf export.htm –české znaky jako HTML entity
9
16.10.2007 Brno Jan Mach Radka Tichá Export: XPdf pro Unix i Windows oficiální verze respektuje DRM, existují patche umožňující číst zašifrované PDF pdftotext -enc UTF-8 vstup.pdf vystup.txt - pro Latin 2 výstup je nutno doinstalovat Latin 2 cmap převodní tabulku a nastavit v xpdfrc (teoreticky umožňuje i mapování fontů)
10
16.10.2007 Brno Jan Mach Radka Tichá Advanced PDF Password Recovery Program dokáže trvale zrušit ochranu souborů Adobe Acrobat PDF heslem před editací, tiskem, výběrem textu a grafiky a kopírováním do schránky, modifikací poznámek a formulářových polí. Různé verze s možnostmi hádání hesla od brute force attack až po předdefinované hodnoty key.
11
16.10.2007 Brno Jan Mach Radka Tichá PDF Password Remover PDF Password Remover je určen pro přístup k heslem zabezpečeným Adobe Acrobat PDF souborům. Můžete tyto soubory po použití programu editovat, tisknout, kopírovat z nich objekty a podobně. Ukázka odstranění owner psw, certifikátuowner pswcertifikátu
12
16.10.2007 Brno Jan Mach Radka Tichá Doporučené odkazy PDF Creator –http://sourceforge.net/projects/pdfcreator/http://sourceforge.net/projects/pdfcreator/ PDF Box –http://www.pdfbox.org/http://www.pdfbox.org/ xpdf –http://cs.wikipedia.org/wiki/Xpdfhttp://cs.wikipedia.org/wiki/Xpdf Diskuse LaTeX -> PDF –http://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.htmlhttp://lists.felk.cvut.cz/pipermail/cstex/2003-October/016598.html
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.