Úvod do klasických a moderních metod šifrování Jaro 2008, 2. přednáška
Vernamova šifra Dne 13.9.1918 Gilbert Vernam požádal o americký patent na údajně zcela bezpečnou šifru. Vernamova šifra je vlastně Vigenerovo šifrou, u které je klíč stejně dlouhý jako otevřený text, a je navíc náhodně generovaný. Jinak řečeno, velikosti posunutí jednotlivých písmen jsou náhodné a navzájem nezávislé. Formálně můžeme Vernamovu šifru definovat následovně: Je-li p1p2…..pn otevřený text (kódovaný čísly 0,1,…,25 ), a k1k2…..kn náhodně generovaný klíč (tvořený čísly 0,1,…,25), pak šifrový text c1c2…..cn je definován jako ci = pi+ki mod 26 pro i=1,2,…,n. Praktická využitelnost Vernamovy šifry je značně omezená nutností mít k dispozici bezpečný kanál pro výměnu klíče téže délky jako je otevřený text.
Bezpečnost Vernamovy šifry Intuitivně můžeme bezpečnost Vernamovy šifry nahlédnout následovně. Odposlechneme-li znak ci šifrového textu, pak vzhledem ke skutečnosti, že každá z 26 možností pro ki je stejně pravděpodobná a nezávislá na předchozích hodnotách klíče k1…ki-1, jsou všechny možnosti pro pi=ci - ki mod 26 stejně pravděpodobné. Stručně řečeno, ze znalosti šifrového textu nemůžeme usoudit vůbec nic o otevřeném textu. Claude Shannon dokázal, že Vernamova šifra je dokazatelně bezpečná, tj. že při použití Vernamovy šifry je pravděpodobnost P(p), že byl vyslán otevřený text p, rovná podmíněné pravděpodobnosti P(p|c), že byl vyslán otevřený text p za podmínky, že jeho šifrová podoba je c. Dále dokázal, že jde o jedinou dokazatelně bezpečnou šifru.
Horká linka Washington-Moskva Vernamova šifra byla použita u horké linky mezi Bílým domem a Kremlem po kubánské krizi v roce 1961. Horká linka měla za cíl zabránit náhodnému vzniku jaderné války. Klíče byly distribuovány v diplomatických zavazadlech v podobě děrných pásek. Podmínkou bezpečnosti Vernamovy šifry je to, že žádná část klíče není použita dvakrát k šifrování dvou různých textů. Celý klíč je nutno po použití zničit. Dvojí použití klíče totiž vede na takzvanou knižní šifru, kterou lze snadno vyřešit.
Dvojí použití klíče Použijeme-li jeden klíč k1k2…kn k zašifrování otevřeného textu p1p2…pn, dostaneme šifrový text c1c2…cn, kde ci = pi + ki mod 26 pro i=1,2,…,n. Použijeme-li stejný klíč k1k2…kn k zašifrování jiného otevřeného textu q1q2…qn, dostaneme šifrový text d1d2…dn, kde di = qi + ki mod 26 pro i=1,2,…,n. Odečtením obou šifrových textů dostaneme ci – di = pi – qi mod 26 pro i=1,2,…,n. Odečtením obou šifrových textů dostaneme rozdíl dvou otevřených textů (v přirozeném jazyce). To je knižní šifra kdysi používaná zejména špiony.
Řešení knižní šifry K šifrovému textu pi – qi mod 26, i=1,2,…,n postupně přičítáme ve všech možných polohách nejčastější slova otevřeného jazyka, ve kterém je text napsán. Například w1w2…w6. Pokud je slovo použito v otevřeném textu q od místa i+1, pak qi+1=w1, qi+2=w2,…,qi+6=w6. Po přičtení tak dostaneme část otevřeného textu pi+1pi+2…pi+6. Z ní můžeme uhádnout pokračování otevřeného textu p doleva a doprava, odtud pak odpovídající část otevřeného textu q, u něhož zase můžeme uhádnout prodloužení doleva a doprava, a tak střídavě rekonstruujeme oba otevřené texty p a q. Proto dálnopis, do kterého se vkládaly pásky s klíčem u horké linky Moskva – Washington, po skončení rozhovoru použitou pásku odsekl a skartoval.
Knihy o historii kryptologie Expanze klíče U moderních šifer se potřeba dlouhého náhodného klíče řešení pomocí expanze klíče. Z krátkého tajného klíče se generuje dlouhý klíč potřebné délky pomocí nějakého generátoru pseudonáhodných čísel. Původní tajný klíč slouží k počátečnímu nastavení generátoru. Knihy o historii kryptologie David Kahn, The Codebreakers, Macmillan, New York, 1967, podrobné historické pojednání, Simon Singh, The Code Book, Fourth Estate Limited, 1999, česky Kniha kódů a šifer, nakladatelství Dokořán a Argo, 2003, populární úvod do šifrování,
Literatura ke klasické kryptologii F.L.Bauer, Decrypted Secrets, Methods and Maxims of Cryptology, Springer Verlag 1997, 2003, mnohem odbornější kniha než předchozí. Mnoho dalších odkazů je uvedeno v Bauerově knize. O významu kryptologie se lze dočíst také v knize The Kama Sutra, translated by Sir Richard Burton, 1883 Chapter Three, On the arts and sciences to be studied Singing Dancing The art of understanding writing in cypher, and the writing of words in a peculiar way Art of applying perfumed ointments to the body, and of dressing the hair with unguents and perfumes and braiding it Solution of riddles, enigmas, covert speeches, verbal puzzles and enigmatical questions
Klasická kryptoanalýza Jednoduchá záměna Pomocí frekvenční analýzy jednotlivých znaků (monogramů), bigramů, trigramů, atd. Nejstarší dochovaný text o této metodě: al-Kindí, Rukopis o dešifrování kryptografických zpráv, 9. století, objevené roku 1987 v Sülajmanově osmanském archivu v Istanbulu Plné jméno autora: Abú Jusúf Jaqúb ibn Ishád ibn as-Sabbáh ibn `omrán ibn Ismail al-Kindí Srovnání frekvencí jednotlivých písmen v angličtině a němčině v procentech a b c d e f g h i j k l m 8,04 1,54 3,06 3,99 12,51 2,30 1,96 5,49 7,26 0,16 0,67 4,14 2,53 6,47 1,93 2,68 4,83 17,48 1,65 3,06 4,23 7,73 0,27 1,46 3,49 2,58 n o p q r s t u v w x y z 7,09 7,60 2,00 0,11 6,12 6,54 9,25 2,71 0,99 1,92 0,19 1,73 0,09 9,84 2,98 0,96 0,02 7,54 6,83 6,13 4,17 0,94 1,48 0,04 0,08 1,14
Frekvenční analýza Frekvence jednotlivých znaků závisí na typu textu, jiná je u novinových článků, jiná u románů nebo u odborných textů v závislosti na oboru. Pořadí písmen od nejčastějšího k nejméně častému v angličtině: atoanirshdlufcmpywgbvkxzjq L.Sacco, 1951 etaonirshdlucmpfywgbvjkqxz D.Kahn, 1967 etaonrishdlfcmugpywbvkxjqz A.G. Konheim, 1981 v němčině: enirsahtudlcgmwfbozkpjvqxy F. Kasiski, 1863 enirstudahgolbmfczwkvpjqxy A. Figl, 1926 enirsatdhulgocmbfwkzpvjyxq F.L. Bauer, 1993 ve francouzštině: enirsahtudlcgmwfbozkpjvqxy F. Kasiski, 1863 eaistnrulodmpcvqgbfjhzxykw H.F. Gaines, 1939 etainroshdlcfumgpwbyvkqxjz Ch. Eyraud, 1953
Frekvence bigramů Nejčastější bigramy v angličtině podle A. Sinkova: th he an in er re on es ti at st en or nd 270 257 152 194 179 160 154 115 108 127 103 129 108 95 to nt ed is ar 95 93 111 93 96 Čísla znamenají průměrný počet výskytů v textech o 10 000 znacích Nejčastější bigramy v němčině takové, že obrácené bigramy se téměř nevyskytují: th he ea nd nt ha ou ng hi eo ft sc rs Následující dvojice bigramů mají prakticky stejnou frekvenci v němčině: ar,re es,se an,na ti,it on,no in,ni en,ne at,ta te,et or,ro to,ot ar,ra st,ts is,si ed,de of,fa
Frekvence trigramů Nejčastější trigramy v angličtině jsou the ing and ion tio ent ere her ate ver ter tha ati for hat ers his res ill are průměrná délka slov frekvence samohlásek frekvence hlásek lnrst angličtina 4,5 francouzština 4,4 němčina 5,9 ruština 6,3 40% 45% 39% 33% 34% 39% nejčastější slova angličina: the of and to a in that it is I for as němčina: die der und den am in zu ist daß es francouzština: de il le et que je la ne on les en ce
Řešení Vigenérovy šifry Nezávisle Friedrich W. Kasiski a Charles Babbage v druhé polovině 19. stol. Jejich řešení je založené na následujícím pozorování: Vyskytuje-li se nějaký bigram xy v otevřeném textu dvakrát a vzdálenost mezi oběma výskyty je násobkem délky klíče, pak je v obou případech zašifrován stejným bigramem cd. V obou případech jsou totiž posunutí definována stejným bigramem kl klíče. klíč otevřený text šifrový text kl . . . . kl xy . . . . xy pq . . . . pq Nejdříve tedy odhadneme délku klíče tak, že v šifrovém textu najdeme všechny bigramy, které se vyskytují aspoň dvakrát a spočteme jejich vzdálenosti. Poté najdeme číslo, které je nejčastěji dělitelem těchto vzdáleností. To je pravděpodobnou délkou klíče. Opakovaný bigram v šifrovém textu může vzniknout i náhodně, ne všechny vzdálenosti opakovaných bigramů musí být násobkem délky klíče.
Odhad velikosti posunutí Máme-li odhad délky klíče, můžeme pak odhadnout velikost jednotlivých posunutí následovně. Šifrový text pak napíšeme do tolika sloupců, kolik je odhadovaná délka klíče, a spočítáme frekvenci jednotlivých znaků v každém sloupci zvlášť. Poté pro každý sloupec najdeme takové posunutí abecedy, které nejlépe odpovídá frekvenci jednotlivých písmen v (přirozeném) jazyce otevřeného textu. Pak už zbývá pouze dešifrovat text pomocí odhadnutých velikostí posunutí. Řešení Vigenérovy šifry lze jednoduše algoritmizovat pomocí pojmu index koincidence.
Index koincidence Zavedl William F. Friedman v roce 1925. Neformálně je index koincidence dvou textů S a T nad stejnou abecedou A definovaný jako pravděpodobnost, že se v obou textech vyskytne stejný znak na stejném místě. Definice. Jsou-li S = s1s2…sn a T = t1t2…tn dva texty téže délky nad stejnou abecedou A, pak definujeme index koincidence těchto dvou textů jako Kappa(S,T) = Σ i δ(si,ti) / n, sčítáme pro i = 1,2,…,n, δ(si,ti) je Kroneckerův symbol rovný 1 pokud si=ti a rovný 0 v opačném případě. Očekávaná hodnota Kappa(S,T). Jsou-li pravděpodobnosti výskytů jednotlivých znaků abecedy A v textu S rovné p0p1…pk a pravděpodobnosti výskytů těchto znaků v textu T jsou rovné q0q1…qk, pak očekávaná hodnota indexu koincidence Kappa(S,T) = Σ j pjqj , sčítáme pro j = 1,2,…,n.
Očekávaná hodnota indexu koincidence jazyka Jsou-li frekvence jednotlivých písmen abecedy v nějakém jazyce L rovné p0,p1,…p25 pak očekávaná hodnota indexu koincidence dvou textů v tomto jazyce se rovná Kappa(S,T) = Σ j pj2 , sčítáme pro j = 0,2,…,25. Toto číslo nezávisí na textech S a T, ale pouze na pravděpodobnostech pj, nazývá se proto očekávaný index koincidence jazyka L. Zde jsou hodnoty očekávaného indexu koincidence nejčastějších jazyků podle Kullbacka, 1976: angličtina 6,61% němčina 7,62% francouzština 7,78% španělština 7,75% ruština 5,29% (32 znaků v abecedě) náhodný text 1/26 = 3,85% . Tyto hodnoty samozřejmě závisí na použitých tabulkách frekvencí jednotlivých písmen a u různých autorů se mohou lišit.
Invariance indexu koincidence Tvrzení. Jsou-li dva texty S a T zašifrované polyalfabetickou šifrou za použití stejného klíče K, a označíme-li takto obdržené šifrové texty C a D, pak platí Kappa (C,D) = Kappa (S,T) . Důkaz. Označme si symbol na i-tém místě textu S, a ti symbol na i-tém místě textu T. Protože je při šifrování použit stejný klíč pro oba texty, jsou symboly si a ti zašifrovány za použití stejné permutace πi. Na i-tém místě šifrového textu C je tedy symbol ci = πi(si) a na i-tém místě šifrového textu D je symbol di = πi(si). Protože πi je permutace, platí si = ti právě když ci = di pro každý index i. Odtud a z definice indexu koincidence pak vyplývá rovnost Kappa (C,D) = Kappa (S,T).
Průměrné indexy koincidence Pro text T délky n a r přirozené číslo označme T r text, který dostaneme z T cyklickým posunutím o r míst doprava. Definice. Průměrný index koincidence dvou textů S a T téže délky n nad stejnou abecedou A definujeme jako číslo Chi(S,T) = Σ r Kappa(S,T r) / n, sčítáme přes r = 0,1,…, n – 1. Definice. Průměrný index koincidence jednoho textu T délky n definujeme jako Phi(T) = Σ r Kappa(T,T r) / (n-1), sčítáme přes r = 1,…, n – 1.
Použití pro nalezení délky klíče Máme-li daný šifrový text C délky n zašifrovaný nějakou polyalfabetickou šifrou, a chceme najít pravděpodobnou délku klíče, postupně pro každé d = 2,3,…,n-1 napíšeme šifrový text do d sloupců, texty ve sloupcích označíme C1, C2,…,Cd , spočítáme průměrné indexy koincidence Phi(Cj) pro j = 1,2,…,d, a pak jejich průměr Σ j Phi(Cj) / d . To d, pro které se tato průměrná hodnota nejvíce blíží očekávanému indexu koincidence jazyka, ve kterém byl napsán otevřený text, je nejpravděpodobnější délka klíče. Obvykle to vychází tak, že tato průměrná hodnota se blíží očekávanému indexu koincidence jazyka otevřeného textu pro násobky délky klíče, zatímco pro ostatní hodnoty d se blíží hodnotě indexu náhodného jazyka, který je mnohem menší.
Řešení transpozičních šifer Jednoduchá transpozice. Máme-li k dispozici pouze jeden šifrový text dané délky, nezbývá než jej přehazovat za použití častých bigramů tak, abychom dostali smysluplný text. Máme-li k dispozici více textů téže délky zašifrované stejnou permutací, napíšeme si je pod sebe, rozstříháme do sloupců a přehazujeme je opět tak, abychom ve všech řádcích současně dostali smysluplné texty. To je obvykle mnohem snazší než v případě pouze jednoho textu. V případě úplné tabulky můžeme její rozměr najít tak, že vyzkoušíme všechny možné tabulky, které lze celé vyplnit šifrovým textem dané délky. Pro každou možnost spočítáme poměr samohlásek a souhlásek v jednotlivých řádcích. Tabulka, pro kterou se tyto poměry nejvíce blíží poměru samohlásek a souhlásek v přirozeném jazyce otevřeného textu, je ta nejpravděpodobnější. Text si potom rozstříháme do sloupců a pokračujeme stejně jako u více textů téže délky.
Dvojitá transpozice Při více textech téže délky postupujeme na počátku stejně jako u jednoduché transpozice. Pokud uspějeme, je třeba najít ještě obě hesla, abychom mohli luštit i zprávy jiných délek.
Identifikace šifer Transpoziční šifry. Frekvence jednotlivých písmen je stejná jako u otevřeného textu v daném jazyce. Jednoduchá záměna. Rozložení frekvencí písmen je stejné jako u přirozeného jazyka. Polyalfabetická šifra s periodickým klíčem. Pomocí indexu koincidence.