Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc.

Slides:



Advertisements
Podobné prezentace
Zoner Foto Studio Bohumil Bareš.
Advertisements

Využití cloudových služeb ve školství
Prostředky IT = jedno z protistresových řešení Ing. Miroslav HEROLD, CSc.
Webové rozhraní pro datové úložiště
Poznámky pro výuku Předmět: Úvod do informatiky Autor: Mgr. Jan Míček
Obecně o operačních systémech
Jak vzniká mobilní stránka Seznamu
CAT je sice anglicky kočka, ale i … Copyright, 1999 © Ing. Otto Pacholík,
CSS a HTML 5. HTML 5 HTML5 je nová verze specifikace značkovacího jazyka HTML, která přináší podstatné změny v technologiích webových stránek. HTML5 umožňuje.
Internetový (webový) prohlížeč. Druhy prohlížečů 1. byl v roce 1993 NCSA Mosaic Následovaly další … Netscape 1.0 Netscape 2.0 Netscape 3 Gold Zdroj:
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Internet Definice Historie Použití Programy pro práci s internetem
PHP – vkládání souborů a html 5
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Světlana Filipová. Materiál zpracován v rámci projektu Implementace ICT techniky do výuky.
Modul 2 : Práce s počítačem a správa souborů. Rada úvodem - Internet ví všechno, zkuste a
Základy práce s počítačem – lekce V.
VY_32_INOVACE_In 6.,7.11 Internetový prohlížeč-vyhledávání a ukládání dat z internetu do počítače Anotace: V prezentaci se žák seznámí se základními typy.
Textový editor (další nástroje textového procesoru, export a import dat, PDF formát – čtení a tvorba)
Elektronická pošta Elektronická pošta ( ) je obdobou běžné pošty a umožňuje přijímat a distribuovat dokumenty v textové podobě na jednu nebo více.
(další nástroje textového procesoru, export a import dat, PDF formát – č tení a tvorba)
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Tutoriál eKnihy ~ Stahování
WWW stránky – Struktura, adresování, hosting Mgr. Lenka Švancarová.
Tabulkový procesor.
Tutoriál Vlastní složka My EBSCOhost
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Tutoriál Vyhledávání v obchodních databázích Business Source
ICQ. Co je ICQ? ICQ je nejpoužívanější a nejpopulárnější komunikační program. ICQ je zkratka slangového výrazu „I seek you“ (hledám tě). Slouží ke komunikaci.
Hromadná korespondence
MS Internet Explorer Prohlížeč – zobrazuje www stránky Obsahuje:
Využití vzorců a funkcí k úpravám v textu
Vyhledávání informací na internetu
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Operační systém MS Windows Základní operace.
Práce se šablonami v MS Word 2007
WWW – hypertextový informační systém
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
HTML editory HTML editory se dělí na dva základní typy:
Bezpečnostní pravidla při používání internetu
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Informační zdroje v jednotném prostředí: SEN VŠECH KNIHOVNÍKŮ Jan Pokorný, Ústav výpočetní techniky UK.
Vítejte na přednášce Počítač pro překladatele - překlad podporovaný počítačem Praha, 9. listopadu 2002 © Ing. Otto Pacholík 2002,
Pracovní seminář ASEP IPAC 3 - novinky.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Databáze velké množství dat pevně dané struktury
Jak vyhledávat informace na Internetu?
Architektura počítače
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Vzdálená správa Tomáš Kalný.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
Anopress: nová grafika, nové možnosti Mgr. Daniela Uhrová září 2010.
Základy práce s informačními zdroji pro bc. studenty SPSP Mgr. Dana Mazancová, DiS. Brno, 11. dubna 2013 Masarykova univerzita Fakulta sociálních studií.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
Textový editor (další nástroje textového procesoru, export a import dat, PDF formát – čtení a tvorba)
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
TEXTOVÝ EDITOR Karin Tylšerová. Textový editor je software, kterým je možné editovat prostý text. Neobsahuje žádné informace o formátování, jako je použití.
Přehled změn na portálu upgrade redakčního systému Marwel, nasazení modulu pro správu souborů a fulltextové vyhledávání
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
SOFTWARE Operační systémy.
PRACOVNÍ PLOCHA Vasyl Lutsak.
Vyhledávání v Internetu
Číslo projektu školy CZ.1.07/1.5.00/
Textový Editor.
Textový editor Lada Juráňová.
Albertina a Report Mgr. Libuše Simandlová
Vlastnosti souborů Jaroslava Černá.
Přehled změn na portálu
Přehled změn na portálu
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Transkript prezentace:

Pomůcky k terminologickému vyhledávání Ing. Miroslav HEROLD, CSc.

Hlediska určující výběr nástroje •Co budeme prohledávat; •Kde všude je to rozptýleno; •Jak často budeme toto pomocné hledání potřebovat; •Konfigurace HW; •Kdo nám zaplatí za kvalitnější vyhledávání nejasných termínů = lepší vyhledávací nástroje = vyšší kvalita cílového překladu. V současné tržní situaci většina odběratelů chce překlad co možno nejlevněji, kvalitu by chtěli, ale platit pokud možno ani floka. •Připojení k Internetu = majitelů pevných linek se následující přednáška týká jen zčásti.

Druhy nástrojů •Prohledávání jediného souboru (P1S) •Prohledávání jediného adresáře (P1A) –Přímo na HD –Pomocí vyhledávací tabulky (search table, ST) •Prohledávání více adresářů (PMA) –Přímo na HD –Pomocí vyhledávací tabulky •Prohledávání celého HD počítače (PT) – musí vždy použít vyhledávací tabulku •Některé nástroje umožňují omezit hledání na určité typy souborů podle rozšíření názvu (DOC, CSV, TXT...)

Co budeme prohledávat •Staré „slovníčky“ (dvojjazyčné) vytvořené k předchozím projektům/překladům (nejčastěji tabulka DOC, XLS, event. CSV nebo TXT) •Materiály jednojazyčné, vysvětlující glosáře (od klientů, z webu) •Zapomětliví budou hledat: –nějaký konkrétní soubor, ať již překladu nebo podkladu od klienta, který mají, ale neví kde; –mail s objednávkou nebo jiným potřebným obsahem. •Publikace stažené z webu, bohužel, nejčastěji ve formátu PDF.

Co budeme prohledávat (2) •Uživatelé libovolného CAT SW budou chtít prohledávat překladové paměti (TM): –Mají-li (starší) CAT obsluhující on-line jen 1 TM, další TM z téhož CAT –Pokud kvůli klientovi pracují v konkrétním CAT a při tom tématicky příbuzné projekty překládali v jiném (nejčastěji TRADOS x Transit, popř. DejaVue) –Pokud mají smůlu a klient vyžaduje IBM Translation Manager, který nemá „concordance search“, musí kvůli této funkci použít externí vyhledávací SW

Co budeme prohledávat (3) •Jak??? •Chceme jen sousloví uzavřené v uvozovkách („bleeding valve“), nebo •Potřebujeme použít logických operátorů (AND, NOT, OR...) •Či dokonce další omezující atributy (datum, priorita...)

Kde jsou data rozptýlena •Nejjednodušší – vlastní glosáře (GLS) + dodané klientem neustále přidáváme do jednoho dlouhého XLS souboru •GLS v jediném adresáři, jediné úrovni •GLS ve strukturovaném adresáři nebo více adresářích •Hledání v blíže neurčeném adresáři

Hledání v jediném XLS •Ukázka hledání v XLS souboru, cca 4200 záznamů, •I na relativně pomalých počítačích rychlá odezva •Hledá fulltextově •Duplicitu záznamů si ale musí ošetřit uživatel manuálně

Jak často hledáme •Uživatel CAT hledá relativně zřídka – historické překlady mu prohledává překladová paměť, nejčastější výrazy má ve vestavěném GLS (popř. více) = vystačí s typem BEZ ST •Uživatelé bez CAT mající velké elektronické slovníky umožňující doplňování uživatelského slovníku dávkovým způsobem také nemusí hledat tak často = vystačí s typem BEZ ST •Čím častěji hledáme, tím více vystupuje do popředí rychlost hledání = nutnost použít typu s ST

Ukázka použití elektronického slovníku •Millennium dovoluje import z TAB-delimited TXT souboru (přidáno 4245 záznamů). Musíme tedy být schopni výchozí terminologický zdroj převést do tohoto formátu. •Při importu hlídá duplicity •Po importu nutná komprese databáze = přidání 4200 záznamů „nafouklo“ databázi, kompresí se zmenší o 190 MB •Výhoda = současné hledání se slovníkem •Rozhraní lze použít i v případě, že vlastní slovník Mill7 je jen základní. (Stojí něco okolo 300,- Kč)

Konfigurace HW •Velikost pevného disku dnes již prakticky nerozhoduje, i ty nejchudší konfigurace mají většinou HD > 20 GB •Může být rozhodující velikost RAM = čím větší RAM, tím větší část ST v ní může být, tím vyšší rychlost hledání

WinGrep •Konstrukčně nejstarší prohledávač, ale dodnes jeden z nejvýkonnějších

WinGrep ( Typ PMA ) •Výhody –Velmi skromný na prostředky – prohledává přímo na HD a při tom velmi rychle. Způsobeno skutečností, že využívá takřka výhradně vnitřní služby systému. –Z více adresářů umožní vybírat po jednotlivých souborech •Nevýhody –Musí se opisovat, nelze kopírovat –Soubory výhradně TXT + CSV –Historické zobrazení názvů souboru 8.3, špatně se vybírají, musí být pomocná tabulka –Zobrazuje pouze prvních 256 znaků ze záznamu –Nepamatuje si ani jedno předchozí nastavení

QuickSearch (typ P1A) •Je z Webu, ale nevím odkud – používá se u IBM dodavatelů

QuickSearch (typ P1A) •Výhody –Hledá přímo na HD –Zabere jen 6,5 MB RAM –Zobrazuje celý název souboru –Zobrazí celý nalezený záznam –Lze z něj kopírovat –Umožňuje následné hledání (podmnožinu) •Nevýhody –Velmi pomalý – pokus o prohledávání více než 30 MB vede již na čekání, 60 MB je na koukání z okna –Soubory výhradně TXT + CSV –V rámci daného adresáře výběr jen hvězdičkovou konvencí –Pamatuje si jediné poslední nastavení

Search + Replace (typ PMA) •Shareware = •Slouží nejen k vyhledávání, ale také hromadným úpravám TXT/CSV souborů.

Search + Replace •Výsledky hledání lze zobrazit ve volitelné délce (důležité při prohledávání překladových pamětí •Umí prohledávat i ZIP archivy •Hledání lze omezit na soubory v intervalu dat nebo velikostí (vhodné k vyloučení velkých překladových pamětí, aby se nezdržovalo

Search + Replace •Z vyhledávacích programů prohledávajících disk v zadané části je nejvhodnějším kompromisem •I pro rozsáhlé adresáře = přijatelný: 269 MB TXT + CSV souborů prohledá za méně než 10 vteřin •Rychlejší i obsáhlejší než QuickSearch (má historii dotazů i prohledávaných míst) •Je pomalejší než WinGrep, ale v porovnání s ním má mnohem větší luxus práce •Poměrně skromný na RAM = pouhých 6 MB •Dovoluje prohledávání nalezené množiny •Nevýhoda = kopírování je nepřímé (přes Notepad, TextPad atp.)

Search Within (typ PMA, s ST) •Freeware = m; pokud uživatele otravuje nabíhání reklamní HTML stránky, za 9,90 USD je „čistá“ verze m •Umí indexovat nejen TXT, ale i DOC, XLS, PDF, PPT a Wordperfect soubory

Search Within (typ PMA, s ST) •Nabízí boolovské operátory AND a OR, hledání fráze •Nevýhoda = viz předchozí slide = ve výsledku vidíme jen název souboru, musí se dohledávat otevřením příslušného souboru •Zatím však jediný program umožňující současné prohledávání více PDF souborů najednou Dovoluje spouštět indexování na pozadí v určitou hodinu dne – kdy to nebude rušit

Search Within (typ PMA, s ST) •Vzhledem k nutnosti otevírat soubory v nativní aplikaci (Acrobat Reader = pomalé hledání) je vhodný jako poslední záchrana, když ostatní vyhledávače nic nenajdou, nebo to není to pravé ořechové.

Find Personal (typ PMA, s ST)

Find Personal •Komerční produkt, cena cca 1500,- Kč, mezi překladatelské prohledavače patří spíše okrajově; hlavní nasazení v místech, kde se filtruje příchozí pošta a směřuje do různých míst. •Je schopen (viz předchozí slide) indexovat více formátů •Pro všechny nalezené soubory je nutno otevřít buď v originální aplikaci nebo dedikovaném prohlížeči

FileHand •Shareware – první měsíc funguje naplno, potom už jen dává výsledky bez výpisu, nelze indexovat • •Nejpřitažlivější je množství formátů, které umí indexovat •Určitý nedostatek = TXT soubory, které obsahují znakové sady CE, se musí ukládat v UNICODE, aby se zobrazily správně •PDF soubory zobrazí správně pouze pro Latin1 – tím je takřka degradován na úroveň SearchWithin •Indexování trvá poměrně dlouho – 6,5 MB se indexovalo 3:45. ST vzrostla o více než 8 MB

FileHand •Přednosti –Schopnost indexace i velmi dlouhých souborů (6,5 MB úspěšně) –Zobrazí místo prvního výskytu hledaného řetězce a následně je možné pojíždět po souboru na další výskyty –Široká paleta možností rozšířeného hledání –Filtrace podle typu souboru, částečného názvu souboru nebo data

XBench Client •Je ZDARMA ke stažení na adrese: •Je vhodný pro všechny překladatele počítačových textů, kteří musí zohledňovat terminologii Microsoft (ať již dobrovolně nebo z doporučení klienta) •Bleskurychle prohledává až 96 MB kompletní terminologické databáze publikované Microsoftem na: ftp://ftp.microsoft.com/developr/msdn/newup/Glo ssary ftp://ftp.microsoft.com/developr/msdn/newup/Glo ssary

XBench Client •Lze přímo kopírovat •Ze souborů lze vybrat do 3 priorit – podle překládaného tématu •Má historii dotazů •Lze definovat několik projektů, z nichž každý prohledává nějakou podmnožinu •Spolupracuje přímo na horké klávesy s MS Office, MS Internet Explorer + některými dalšími aplikacemi (tyto horké klávesy lze přeprogramovat)

XBench Client -Výhoda -Nevytváří ST na HD, ale v RAM -Nevýhoda – jen 1 ale velká -Potřebuje minimálně 210 MB RAM; to znamená že fyzická RAM + odkládací systémová oblast na HD musí mít (pro rozumnou práci s dalšími SW) minimálně 800 MB; swapování pochopitelně zdržuje, takže doporučená fyzická RAM = minimálně 512 MB.

XBench Professional •V tuto chvíli beta verze, ke stažení jen pro přihlášené a schválené beta testery, po dokončení bude v prodeji za ??? USD. •Vlastnosti (výhody/nevýhody) stejné jako verze Client •Podstatný rozdíl = prohledávatelná množina formátů •V případě nenalezení v oindexovaných souborech možnost navázání na Google (nebo jiný webový prohledávací engine)

XBench Professional •Při indexaci eliminuje duplikáty •Podíváme-li se na seznam formátů, je to jediná aplikace, která zejména uživateli CAT SW umožňuje využívání terminologických zdrojů z předchozích projektů, aniž by musel velmi složitě konvertovat •V současné době je to nejdokonalejší nástroj v této kategorii

LookOut Není univerzální prohledávač, ulehčuje práci uživatelům MS Outlook Freeware =

LookOut •Umí indexovat i přílohy pošty (DOC, XLS, PPT,HTML,TXT) •Lze omezovat hledání datem OD-DO •Okno na tvorbu dotazu dovoluje filtraci kterýmkoliv parametrem, který MS Outlook obhospodařuje •Ve srovnání s vlastním hledáním MS Outlook je bleskurychlé •Pamatuje si předchozí hledání (historii)

Google Desktop

-Představovat rozhraní = nošení dříví do lesa, webový Google zná snad každý -Se stejnou obsluhou je k dispozici prohledavač vašeho vlastního počítače -V tuto chvíli ke stažení zdarma na desktop.google.com/dc.html -Neuvěřitelně malá ST = cca 233 MB na celý 27 GB HD -Zobrazí v případě vícejazyčného slovníku místo prvního výskytu = vidíme hned překlad -Jediná nevýhoda = indexuje jen asi prvních 2000 slov – pouze odhad podle míst, která již nenašel

Google Desktop -Prohledává nejen celý počítač, ale zaznamenáv á také navštívené webové stránky

Závěr Jak se tedy vybavit? -Kromě majitelů geniální paměti, kteří nikdy nehledají zapomenuté soubory, je pro všechny ideální Google Desktop. De facto mapa celého počítače, že nechytá dlouhé soubory nevadí. ZADARMO -Pokud je terminologie jen trochu rozstrkaná, je vhodný některý typ PMA (nejspíše Search + Replace) -Pokud se musí prohledávat PDF – pro Latin 1 = FileHand, pro Latin 2 (Win CE) = SearchWithin nebo Find Personal -Pro CAT uživatele = XBench