Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc.

Podobné prezentace


Prezentace na téma: "Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc."— Transkript prezentace:

1 Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc. mherold@volny.cz

2 Hlediska určující výběr nástroje •Co budeme prohledávat; •Kde všude je to rozptýleno; •Jak často budeme toto pomocné hledání potřebovat; •Konfigurace HW; •Kdo nám zaplatí za kvalitnější vyhledávání nejasných termínů = lepší vyhledávací nástroje = vyšší kvalita cílového překladu. V současné tržní situaci většina odběratelů chce překlad co možno nejlevněji, kvalitu by chtěli, ale platit pokud možno ani floka. •Připojení k Internetu = majitelů pevných linek se následující přednáška týká jen zčásti.

3 Druhy nástrojů •Prohledávání jediného souboru (P1S) •Prohledávání jediného adresáře (P1A) –Přímo na HD –Pomocí vyhledávací tabulky (search table, ST) •Prohledávání více adresářů (PMA) –Přímo na HD –Pomocí vyhledávací tabulky •Prohledávání celého HD počítače (PT) – musí vždy použít vyhledávací tabulku •Některé nástroje umožňují omezit hledání na určité typy souborů podle rozšíření názvu (DOC, CSV, TXT...)

4 Co budeme prohledávat •Staré „slovníčky“ (dvojjazyčné) vytvořené k předchozím projektům/překladům (nejčastěji tabulka DOC, XLS, event. CSV nebo TXT) •Materiály jednojazyčné, vysvětlující glosáře (od klientů, z webu) •Zapomětliví budou hledat: –nějaký konkrétní soubor, ať již překladu nebo podkladu od klienta, který mají, ale neví kde; –mail s objednávkou nebo jiným potřebným obsahem. •Publikace stažené z webu, bohužel, nejčastěji ve formátu PDF.

5 Co budeme prohledávat (2) •Uživatelé libovolného CAT SW budou chtít prohledávat překladové paměti (TM): –Mají-li (starší) CAT obsluhující on-line jen 1 TM, další TM z téhož CAT –Pokud kvůli klientovi pracují v konkrétním CAT a při tom tématicky příbuzné projekty překládali v jiném (nejčastěji TRADOS x Transit, popř. DejaVue) –Pokud mají smůlu a klient vyžaduje IBM Translation Manager, který nemá „concordance search“, musí kvůli této funkci použít externí vyhledávací SW

6 Co budeme prohledávat (3) •Jak??? •Chceme jen sousloví uzavřené v uvozovkách („bleeding valve“), nebo •Potřebujeme použít logických operátorů (AND, NOT, OR...) •Či dokonce další omezující atributy (datum, priorita...)

7 Kde jsou data rozptýlena •Nejjednodušší – vlastní glosáře (GLS) + dodané klientem neustále přidáváme do jednoho dlouhého XLS souboru •GLS v jediném adresáři, jediné úrovni •GLS ve strukturovaném adresáři nebo více adresářích •Hledání v blíže neurčeném adresáři

8 Hledání v jediném XLS •Ukázka hledání v XLS souboru, cca 4200 záznamů, •I na relativně pomalých počítačích rychlá odezva •Hledá fulltextově •Duplicitu záznamů si ale musí ošetřit uživatel manuálně

9 Jak často hledáme •Uživatel CAT hledá relativně zřídka – historické překlady mu prohledává překladová paměť, nejčastější výrazy má ve vestavěném GLS (popř. více) = vystačí s typem BEZ ST •Uživatelé bez CAT mající velké elektronické slovníky umožňující doplňování uživatelského slovníku dávkovým způsobem také nemusí hledat tak často = vystačí s typem BEZ ST •Čím častěji hledáme, tím více vystupuje do popředí rychlost hledání = nutnost použít typu s ST

10 Ukázka použití elektronického slovníku •Millennium dovoluje import z TAB-delimited TXT souboru (přidáno 4245 záznamů). Musíme tedy být schopni výchozí terminologický zdroj převést do tohoto formátu. •Při importu hlídá duplicity •Po importu nutná komprese databáze = přidání 4200 záznamů „nafouklo“ databázi, kompresí se zmenší o 190 MB •Výhoda = současné hledání se slovníkem •Rozhraní lze použít i v případě, že vlastní slovník Mill7 je jen základní. (Stojí něco okolo 300,- Kč)

11 Konfigurace HW •Velikost pevného disku dnes již prakticky nerozhoduje, i ty nejchudší konfigurace mají většinou HD > 20 GB •Může být rozhodující velikost RAM = čím větší RAM, tím větší část ST v ní může být, tím vyšší rychlost hledání

12 WinGrep •Konstrukčně nejstarší prohledávač, ale dodnes jeden z nejvýkonnějších

13 WinGrep ( Typ PMA ) •Výhody –Velmi skromný na prostředky – prohledává přímo na HD a při tom velmi rychle. Způsobeno skutečností, že využívá takřka výhradně vnitřní služby systému. –Z více adresářů umožní vybírat po jednotlivých souborech •Nevýhody –Musí se opisovat, nelze kopírovat –Soubory výhradně TXT + CSV –Historické zobrazení názvů souboru 8.3, špatně se vybírají, musí být pomocná tabulka –Zobrazuje pouze prvních 256 znaků ze záznamu –Nepamatuje si ani jedno předchozí nastavení

14 QuickSearch (typ P1A) •Je z Webu, ale nevím odkud – používá se u IBM dodavatelů

15 QuickSearch (typ P1A) •Výhody –Hledá přímo na HD –Zabere jen 6,5 MB RAM –Zobrazuje celý název souboru –Zobrazí celý nalezený záznam –Lze z něj kopírovat –Umožňuje následné hledání (podmnožinu) •Nevýhody –Velmi pomalý – pokus o prohledávání více než 30 MB vede již na čekání, 60 MB je na koukání z okna –Soubory výhradně TXT + CSV –V rámci daného adresáře výběr jen hvězdičkovou konvencí –Pamatuje si jediné poslední nastavení

16 Search + Replace (typ PMA) •Shareware = www.funduc.com, www.searchandreplace.comwww.funduc.comwww.searchandreplace.com •Slouží nejen k vyhledávání, ale také hromadným úpravám TXT/CSV souborů.

17 Search + Replace •Výsledky hledání lze zobrazit ve volitelné délce (důležité při prohledávání překladových pamětí •Umí prohledávat i ZIP archivy •Hledání lze omezit na soubory v intervalu dat nebo velikostí (vhodné k vyloučení velkých překladových pamětí, aby se nezdržovalo

18 Search + Replace •Z vyhledávacích programů prohledávajících disk v zadané části je nejvhodnějším kompromisem •I pro rozsáhlé adresáře = přijatelný: 269 MB TXT + CSV souborů prohledá za méně než 10 vteřin •Rychlejší i obsáhlejší než QuickSearch (má historii dotazů i prohledávaných míst) •Je pomalejší než WinGrep, ale v porovnání s ním má mnohem větší luxus práce •Poměrně skromný na RAM = pouhých 6 MB •Dovoluje prohledávání nalezené množiny •Nevýhoda = kopírování je nepřímé (přes Notepad, TextPad atp.)

19 Search Within (typ PMA, s ST) •Freeware = www.searchwithin.co m; pokud uživatele otravuje nabíhání reklamní HTML stránky, za 9,90 USD je „čistá“ verze www.searchwithin.co m •Umí indexovat nejen TXT, ale i DOC, XLS, PDF, PPT a Wordperfect soubory

20 Search Within (typ PMA, s ST) •Nabízí boolovské operátory AND a OR, hledání fráze •Nevýhoda = viz předchozí slide = ve výsledku vidíme jen název souboru, musí se dohledávat otevřením příslušného souboru •Zatím však jediný program umožňující současné prohledávání více PDF souborů najednou Dovoluje spouštět indexování na pozadí v určitou hodinu dne – kdy to nebude rušit

21 Search Within (typ PMA, s ST) •Vzhledem k nutnosti otevírat soubory v nativní aplikaci (Acrobat Reader = pomalé hledání) je vhodný jako poslední záchrana, když ostatní vyhledávače nic nenajdou, nebo to není to pravé ořechové.

22 Find Personal (typ PMA, s ST)

23 Find Personal •Komerční produkt, cena cca 1500,- Kč, mezi překladatelské prohledavače patří spíše okrajově; hlavní nasazení v místech, kde se filtruje příchozí pošta a směřuje do různých míst. •Je schopen (viz předchozí slide) indexovat více formátů •Pro všechny nalezené soubory je nutno otevřít buď v originální aplikaci nebo dedikovaném prohlížeči

24 FileHand •Shareware – první měsíc funguje naplno, potom už jen dává výsledky bez výpisu, nelze indexovat •www.filehand.comwww.filehand.com •Nejpřitažlivější je množství formátů, které umí indexovat •Určitý nedostatek = TXT soubory, které obsahují znakové sady CE, se musí ukládat v UNICODE, aby se zobrazily správně •PDF soubory zobrazí správně pouze pro Latin1 – tím je takřka degradován na úroveň SearchWithin •Indexování trvá poměrně dlouho – 6,5 MB se indexovalo 3:45. ST vzrostla o více než 8 MB

25 FileHand •Přednosti –Schopnost indexace i velmi dlouhých souborů (6,5 MB úspěšně) –Zobrazí místo prvního výskytu hledaného řetězce a následně je možné pojíždět po souboru na další výskyty –Široká paleta možností rozšířeného hledání –Filtrace podle typu souboru, částečného názvu souboru nebo data

26 XBench Client •Je ZDARMA ke stažení na adrese: www.apsic.com •Je vhodný pro všechny překladatele počítačových textů, kteří musí zohledňovat terminologii Microsoft (ať již dobrovolně nebo z doporučení klienta) •Bleskurychle prohledává až 96 MB kompletní terminologické databáze publikované Microsoftem na: ftp://ftp.microsoft.com/developr/msdn/newup/Glo ssary ftp://ftp.microsoft.com/developr/msdn/newup/Glo ssary

27 XBench Client •Lze přímo kopírovat •Ze souborů lze vybrat do 3 priorit – podle překládaného tématu •Má historii dotazů •Lze definovat několik projektů, z nichž každý prohledává nějakou podmnožinu •Spolupracuje přímo na horké klávesy s MS Office, MS Internet Explorer + některými dalšími aplikacemi (tyto horké klávesy lze přeprogramovat)

28 XBench Client -Výhoda -Nevytváří ST na HD, ale v RAM -Nevýhoda – jen 1 ale velká -Potřebuje minimálně 210 MB RAM; to znamená že fyzická RAM + odkládací systémová oblast na HD musí mít (pro rozumnou práci s dalšími SW) minimálně 800 MB; swapování pochopitelně zdržuje, takže doporučená fyzická RAM = minimálně 512 MB.

29 XBench Professional •V tuto chvíli beta verze, ke stažení jen pro přihlášené a schválené beta testery, po dokončení bude v prodeji za ??? USD. •Vlastnosti (výhody/nevýhody) stejné jako verze Client •Podstatný rozdíl = prohledávatelná množina formátů •V případě nenalezení v oindexovaných souborech možnost navázání na Google (nebo jiný webový prohledávací engine)

30 XBench Professional •Při indexaci eliminuje duplikáty •Podíváme-li se na seznam formátů, je to jediná aplikace, která zejména uživateli CAT SW umožňuje využívání terminologických zdrojů z předchozích projektů, aniž by musel velmi složitě konvertovat •V současné době je to nejdokonalejší nástroj v této kategorii

31 LookOut Není univerzální prohledávač, ulehčuje práci uživatelům MS Outlook Freeware = www.lookoutsoft.com

32 LookOut •Umí indexovat i přílohy pošty (DOC, XLS, PPT,HTML,TXT) •Lze omezovat hledání datem OD-DO •Okno na tvorbu dotazu dovoluje filtraci kterýmkoliv parametrem, který MS Outlook obhospodařuje •Ve srovnání s vlastním hledáním MS Outlook je bleskurychlé •Pamatuje si předchozí hledání (historii)

33 Google Desktop

34 -Představovat rozhraní = nošení dříví do lesa, webový Google zná snad každý -Se stejnou obsluhou je k dispozici prohledavač vašeho vlastního počítače -V tuto chvíli ke stažení zdarma na desktop.google.com/dc.html -Neuvěřitelně malá ST = cca 233 MB na celý 27 GB HD -Zobrazí v případě vícejazyčného slovníku místo prvního výskytu = vidíme hned překlad -Jediná nevýhoda = indexuje jen asi prvních 2000 slov – pouze odhad podle míst, která již nenašel

35 Google Desktop -Prohledává nejen celý počítač, ale zaznamenáv á také navštívené webové stránky

36 Závěr Jak se tedy vybavit? -Kromě majitelů geniální paměti, kteří nikdy nehledají zapomenuté soubory, je pro všechny ideální Google Desktop. De facto mapa celého počítače, že nechytá dlouhé soubory nevadí. ZADARMO -Pokud je terminologie jen trochu rozstrkaná, je vhodný některý typ PMA (nejspíše Search + Replace) -Pokud se musí prohledávat PDF – pro Latin 1 = FileHand, pro Latin 2 (Win CE) = SearchWithin nebo Find Personal -Pro CAT uživatele = XBench


Stáhnout ppt "Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc."

Podobné prezentace


Reklamy Google