Jiří Rybička rybicka@mendelu.cz Textové vstupy UIS Jiří Rybička rybicka@mendelu.cz Univerzitní informační systém VI., Karlov 2007
Obsah Kódování textů Vstup editovaného textu z formuláře Zpracování znaků Výstupy
Kódování textů Jednobytová kódování: kód s 256 hodnotami (ASCII + kódy 128 až 255); ISO Latin 2, Windows 1250, PC Latin 2, Kamenický, KOI8… Problém: Počet národních znaků je omezený Vícebytová kódování (UCS – ISO 10646), UTF Problém: některé programové vybavení s tím neumí pracovat Problém překódování: 1B ↔ 1B; 2B ↔ 1B
Jak vyjádřit národní znak Binárně – jedním, dvěma (i více) byty; zpracovávající SW musí správně interpretovat příslušný kód Textově – například znakové entity Á nebo �A0; apod. Obě podoby se různě prolínají Jednu z možností bychom měli vybrat v UIS a systematicky ji používat
Výstupy HTML – zde se hodí vyjádření pomocí entit TeX – zde je již centrálně ošetřena množina binárně vyjádřených znaků Výstup v TeXu lze doplnit i o práci s entitami
Problém 1: Jaký způsob vyjádření národních znaků zvolit? Jak půjdou do této podoby konvertovat všechny vstupy? Jak dobře půjde tato podoba zpracovat na výstupu?
Editace ve formuláři Značka input type=text Značka textarea Vkládání z klávesnice Kopie ze schránky Ovlivnění kódování nastavením charset v dokumentu Jak probíhá konverze při vkládání ze schránky?
Problém 2: Jak poznat znak zadaný v nevhodném kódu? V kterém okamžiku jej konvertovat? Jak to udělat centrálně, aby se daly postupně upravovat a doplňovat další náhrady? Problém přetrvá, i kdybychom přešli na Unicode
Možnosti Vstupy ošetřit ještě před vložením Vstupy ošetřit ještě před odesláním Vstupy ošetřit ještě před zpracováním Vstupy ošetřit před výstupem
Závěr? No a teď... babo, raď...