DATAKON Chování uživatelů elektronické pošty Kamil Malinka Dan Cvrček
DATAKON Úvod Motivace Anonymitní systémy I. Chování uživatelů elektronické pošty ●Charakteristiky ové komunikace ●Zkoumání vlivu vzorů ové komunikace na anonymitu II. Základní vlastnosti sociálních sítí ●Scale free sítě Závěr
DATAKON Motivace současné problémy v počítačové bezpečnosti: ●zachování soukromí ●zajištění důvěry Anonymitní systémy (AS) zajišťují komunikační soukromí Znalost bezpečnostních limitů u AS je na vysoké úrovni Žádný platný koncept týkající se chování uživatelů ●Porovnání oproti agregovanému chování ostatních uživatelů Využití modelů chování ●Analýza síťového provozu ●Agentní systémy Problém: potřeba velkého množství dat
DATAKON Mixery, mixnety a spol. První návrh mixu publikován r David Chaum Mix = “router” který se snaží ukrýt vztah mezi vstupem a výstupem Kombinace různých technik: ●Dělení zpráv, náhodná zpoždění, různé trasy apod. Typy mixů: ●časovaný mix – každá zpráva je náhodně zpožděna ●prahový mix – čekaní na přijetí určitého počtu zpráv ●zásobníkový mix – specializace prahového, je mixována podmnožina přijatých zpráv ●kaskádový mix – dva výstupy
DATAKON Cíle práce Demonstrace vlastností skutečné ové komunikace Ukázání identifikovatelných sociálních sítí a vlivu komunikačních vzorů na AS Konfrontace teoretických útoků s reálnými daty ●Využívají nedokázané předpoklady o chování uživatelů Zdrojem dat jsou reálné SMTP záznamy Zaznamenaná ová komunikace několika fakult VUT v Brně přibližně 10 millionů záznamů (více než 5 mil. spam)
DATAKON Struktura dat Základní množina dat z období cca 40 dní – léto 2006 Záznamy byly před zpracováním anonymizovány Struktura záznamů: ●MD5 haš ové adresy odesilatele a příjemce ●MD5 haš domény adresy odesilatele a příjemce ●přesný čas, odeslání ové zprávy, ●MD5 haš z “message ID”, pokud existuje (součást hlavičky u), ●SpamAssassin scoring – pouze zprávy menší, než cca 100 kB jsou hodnoceny, větší zprávy mají hodnotu nastavenou na 0 ●Příznak o virovosti či spamu ●velikost u v bajtech.
DATAKON Předmět analýzy časová zpoždění mezi zprávami počet zpráv odeslaných určitým uživatelem velikost ových zpráv sociální sítě Výsledky mají zlepšit porozumnění bezpečnostních (anonymitních) možností anonymitních systémů v reálných aplikacích. Též mohou být zajímavé i z hlediska studia sociálních struktur a jejich vlivu na chování uživatelů informačních systémů.
DATAKON Výsledky analýz I. Pravděpodobnost příchodu další zpráv v sekundách ●neodpovídá Poissonovu rozložení Rozložení velikosti zpráv ●Ideální velikost bloku je okolo 30KB Počet zpráv v časových oknech o velikosti 10, 20 a 60 minut
DATAKON Výsledky analýz II. Zpoždění na mixu pro okna 128 a 1024 zpráv. Časové zpoždění na mixu v závislosti na denní hodině
DATAKON Pravděpodobnostní rozdělení příjemců zpráv pravidlo (80/20) – 80% zpráv jsou doručeny 20% potenciálních příjemců daného uživatele Výsledek očekáván, ale v reálných datech nezjištěn… Nalezena v podstatě pouze lineární závislost se skoky Pečlivý výběr uživatelů vedl přinejlepším k pravidlu 40/20 nebo 75/50
DATAKON Sociální sítě Struktura komunikace uvnitř domén ●8 domén s více než 500 různými ovými adresami ●Velká grafová komponenta skládající se z více než 50% všech uzlů, výskyt v každé doméně ●Útočník může velmi úspěšně snížit anonymitu uživatelů v menší sociální síti ●Anonymita ve hlavním grafu je snížena též, i když méně ●Existence „administrátorů“ v každé doméně ●Jejich komunikace způsobuje velké deformace v distribuci zpráv
DATAKON Scale-free sítě data obsahují relativně hodně detailů ohledně chování uživatelů v analytických modelech můžeme sociální sítě nahradit tzv. scale-free sítěmi: P(x) = x -α ● x… mohutnost uzlu ● P(x) … pravděpodobnost výskytu uzlu s danou mohutností ● α.. konstantní parametr korektní hodnota parametru α je mezi 2.3 – 2.5 tyto hodnoty odpovídají grafům mezi-doménové komunikace i grafu popisující celkovou komunikaci
DATAKON
DATAKON Závěr Popsali jsme několik základních vlastností sociálních sítí a ové komunikace Možnost využití získaných dat pro reálnější simulační modely Ukázali jsme existenci sociálních sítí a diskutovali možnost jejich využití u různých útoků na soukromí Na základě předložených dat je možné odhadnout, jak moc se zhorší vlastnosti mixu – buď s ohledem na zpoždění, nebo s ohledem na anonymitu jeho uživatelů v závislosti na denní hodině, nebo dni v týdnu.
DATAKON Děkuji za pozornost! Otázky?
DATAKON Intersection attack Intersection attack – spojení odesílatele a příjemce Předpokládá vytvoření profilu popisující chování vybraného uživatele Profil je využit pro výpočet průniku s anonymizovaným provozem Množina možných příjemců je proniknuta s uživatelským profilem Pokládán za silný útok, kvůli existenci stereotypů v chování
DATAKON Profilování uživatelů několik přístupů profilování uživatelů finální přístup: ● vytvoření obecného profilu celé domény ● porovnání uživatelských profilů oproti obecnému profilu nejzajímavější – použití geometrické vzdálenosti ● čtverec vzdáleností/ čtverec počtu všech zpráv ● pěkné rozprostření uživatelů
DATAKON Dlouhodobé profilování provoz největší domény rozdělen po 2 měsíčních intervalech kvůli hledání změn v chování uživatelů limit na minimální počet zpráv poslaných daným uživatelem graf – uživatelé setříděni podle rozdílů mezi minimálními a maximálními hodnotami okolo 2/3 uživatelů má variace v chování menší 10% možné vytváření dlouhodobých uživatelských profilů potřeba hlubší analýza