Index koincidence Metoda, která umožní zjistit bez dešifrování textu, zda byl text zašifrován monoalfabetickou šifrou, a popřípadě v jakém jazyce byl text napsán. 1
Statistika výskytu znaků v češtině 2
Po použití Cézarovské šifry 3
Po použití monoalfabetické šifry 4
Graf vypadá pořád stejně Jen sloupce jsou přeházené Jak to vyjádřit číselně? Nabízí se rozptyl veličiny, tedy průměrná odchylka od střední hodnoty 5
Rozptyl Var (X) = E (X - E(X))2 6
Pro výskyt znaků v textu n*Var (p) = ∑(p(i)-1/n)2 = = ∑p(i)2 - ∑2*p(i)/n + ∑1/n2 = = ∑p(i)2 - 2/n + 1/n = = ∑p(i)2 - 1/n -= 7
Index koincidence IC(T) = ∑p(i)2 = n*var(T)+1/n Vždy větší nebo roven 1/n = 1/26 = 0,03846. Blízký hodnotě 0,03846 je pro náhodně generovaný text se stejnou hustotou výskytu jednotlivých znaků. Čím větší, tím více nerovnoměrný je výskyt písmen. Je zachován při monoalfabetické šifře. 8
Indexy koincidence vybraných jazyků Čeština 0,0577 Slovenština 0,0581 Angličtina 0,0676 Francouzština 0,0801 Němčina 0,0824 Italština 0,0754 Španělština 0,0769 Ruština 0,0470 Náhodný text 0,0385 9
Úkol Najděte texty v češtině (26 znaků), „odborné počítačové“ češtině angličtině a ještě alespoň jenom jazyce a spočítejte jejich indexy koincidence. Zašifrujte tyto texty monoalfabetickou šifrou a ověřte, že se jejich index koincidence nemění. 10