Petr Čech
Elektronická pošta: Nízké provozní náklady a možnost téměř okamžitého doručení: ▪ Elektronická pošta je ideální nástroj předávání nevyžádaných informací. ▪ Tak zvaná nevyžádaná pošta. Nevyžádaná pošta dnes tvoří více jak 60 % všech přenášených zpráv. 2Petr Čech: Antispamový filtr
Problémy: Snížení pracovních výkonů – nutnost třídit poštu Zvýšení zatížení poštovních serverů Zvýšení provozních nákladů Zhoršení výhodných vlastností elektronické pošty jako služby …to vše vyžaduje nalezení nějakého řešení 3Petr Čech: Antispamový filtr
Legislativní opatření: Na vládní úrovni definované právní normy (neefektivní) Obchodní opatření: zpoplatněním elektronické pošty nějakou minimální částkou (efektivní ale nepopulární) Chování uživatelů: správným chováním v prostředí internetu můžeme množství přijatých nevyžádaných správ výrazně snížit Technická opatření 4Petr Čech: Antispamový filtr
Naivní metody – Černé listiny Na internetu existuje několik tzv. černých listin odesilatelů Při příchodu každého dopisu je zaslán dotaz, zda stroj, od kterého je zpráva přijímána, nemá záznam v některé černé listině V kladném případě je taková pošta odmítnuta Např. projekt MAPS (Mail Abuse Prevention System) 5Petr Čech: Antispamový filtr
Metody identifikace nevyžádané pošty bez analýzy obsahu zpráv Rozpoznání podezřelé zprávy, aniž by bylo třeba analyzovat obsah Např. metoda Greylisting: ▪ Poštovní server při neúspěšném doručení zařadí zprávu do fronty a po určitém čase se ji pokusí doručit znovu (oproti tomu rozesílače nevyžádané pošty zprávy rozesílají jednorázově). ▪ Přijímací server si z každého dopisu zjistí IP adresu odesílajícího stroje, adresu odesilatele a adresu příjemce. ▪ V případě, že tuto trojici IP adres již nalezne ve své databázi, zprávu normálně do ručí. ▪ V opačném případě dopis odmítne, informuje o tom odesílající server a novou trojici si zapíše do databáze s příznakem, že po předem určenou dobu nebude dopisy se shodnými parametry přijímat. 6Petr Čech: Antispamový filtr
Identifikace nevyžádané zprávy na základě analýzy obsahu zpráv Na základě výskytu určitých slov, nebo frází. Dokonalejší metody využívají heuristické postupy a snaží se “učit“ na základě předkládaných příkladů. Spolehlivost: ▪ u nejlepších kolem 60 – 70% ▪ Při určení spolehlivosti je důležitá nejen schopnost rozpoznat nevyžádanou poštu, ale také počet tzv. “falešných poplachů“, kdy program mezi spam zařadí legitimní zprávu. Petr Čech: Antispamový filtr7
elektronická adresa odesilatele předmět ové zprávy tělo elektronické zprávy: čistě textový obsah (plain text) webový obsah (html kód) Názvy souborů ▪ Obrázky uvnitř webového obsahu ▪ Přílohy Petr Čech: Antispamový filtr8
nepoužívání klíčových slov častá změna adresy odesilatele nepoužívání nestandardních příznaků (již se neobjevují zprávy nevyžádané pošty např. s vysokou prioritou) obsah zprávy již nemá čistě textový charakter multimédia maskování (text, který má spamerský charakter je maskován jiným textem) textové triky Petr Čech: Antispamový filtr9
jednotlivé znaky, ze kterých se klíčové slovo skládá, lze oddělovat nějakým jiným znakem: v.i.a.g.r.a, v_i_a_g_r_a, v-i-a-g-r-a, … Petr Čech: Antispamový filtr10
nahrazování abecedních znaků znakem jiným, který je opticky velmi podobný, různá slova tak lze například zapsat: v1agra (viagra) \ / (viagra) w4tch (watch) ord3r (order) … Petr Čech: Antispamový filtr11
Již klasickým trikem se také stalo znásobení některého znaku v klíčovém slově: viiiagra (viagra) ooorder (order) … Petr Čech: Antispamový filtr12
některé znaky v klíčovém slově lze snadno prohodit, pro počítačový program je pak text obtížné čitelný, pro člověka ale nikoliv: vaigra vigara Viagar … Petr Čech: Antispamový filtr13
autor nevyžádané zprávy záměrně rozdělí klíčové slovo nahodilým vkládáním mezer, například slovo viagra lze pak zapsat jako: v i a g r a, …. Petr Čech: Antispamový filtr14
všechny již uvedené triky lze vzájemně kombinovat, vždy však jen do určité míry spameři se musí držet pravidla, že příjemce zprávy musí být schopen původní text zprávy přečíst Petr Čech: Antispamový filtr15
Velké množství vykřičníků – například vykřičník v textu předmětu není u běžných ových zpráv příliš obvyklý Apostrofy – více jak jeden apostrof v anglickém slově je podezřelé Detekce kritických slov – vyhledávání řetězců, které se velmi často vyskytují ve zprávách nevyžádané pošty Petr Čech: Antispamový filtr16
Výstupem aplikace je xml soubor, který popisuje analyzovaný s_id_0_details.xml s_id_0_details.xml Petr Čech: Antispamový filtr17
Sestavuji kolekci spamových zpráv pro další testování: Nejlépe soubory typu *.eml a zabalené Petr Čech: Antispamový filtr18