Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Command line nástroje Jednoúčelové, ale mocné nástroje pro transformace textu Jak získat: Linux (a Mac) – součást operačního systému Windows – musí se.

Podobné prezentace


Prezentace na téma: "Command line nástroje Jednoúčelové, ale mocné nástroje pro transformace textu Jak získat: Linux (a Mac) – součást operačního systému Windows – musí se."— Transkript prezentace:

1 Command line nástroje Jednoúčelové, ale mocné nástroje pro transformace textu Jak získat: Linux (a Mac) – součást operačního systému Windows – musí se doinstalovat: cmder.net nebo cygwin

2 Příklad – Skákal pes https://czechitas.geneea.com/tree/data
Kolik má text řádek, slov a znaků? První příkaz: wc <jménosouboru> Jak vypsat obsah souboru: cat <jménosouboru> (vypíše celý soubor) less <jménosouboru> (po stránkách, použijte space, potom „q“) head / tail <jménosouboru> Všechny příkazy lze spustit s parametrem --help

3 Kódování https://en.wikipedia.org/wiki/Character_encoding
ASCII – 7bitů Nepokrývalo znaky z různých jazyků Více kódování češtiny (windows-1250, iso , utf-8) V našem případě: konverze z iso do utf-8 iconv -f iso t utf-8 skakalpes-il2.txt > pes_utf8.txt

4 Další příkazy a principy
sort Zkuste setřídit abecedně řádky Každý příkaz má vstup a výstup Je možné je zřetězit (výstup jednoho je vstupem dalšího) Pomocí znaku | (pipe, pajpa) cat pes_utf8.txt | sort Jak poslat výstup do souboru? Pomocí znaku > cat pes_utf8.txt | sort > pes_sorted.txt

5 Další příkazy – tr, uniq, cut
Nahradí znak jiným znakem, příklady: tr 'a' 'b' tr ' ' '\n' tr '[:punct:]' '\n' uniq Vyháže opakující se řádky Je potřeba mít vstup setříděný cat pes_uf8.txt | tr '[:punct:]' '\n' | tr ' ' '\n' | sort | uniq -c | sort cut Vyřízne z každého vstupu určité znaky nebo slova. cut –f 1 –d “ “ Pracuje dobře s tsf

6 Další příkazy - grep Filtrování podle obsahu grep ‘mysli’
Regulární výrazy: Šablona vyhovující více možnostem [a-z] … znaky od a do z Další úlohy: Vypište řádky obsahující číslo Kolik je v souboru unikátních slov Nejčastější slova začínající na určité písmeno

7 Další příkazy wget echo sed dos2unix, unix2dos
Stahování souborů z webu echo Vypíše vstup na konzoli sed Komplexnější nástroj na náhradu textů echo "kafe" | sed -e 's/kafe/pivo/‚ dos2unix, unix2dos Kódování konců řádek

8 Další nástroje Notepad++ S pluginem TextFX


Stáhnout ppt "Command line nástroje Jednoúčelové, ale mocné nástroje pro transformace textu Jak získat: Linux (a Mac) – součást operačního systému Windows – musí se."

Podobné prezentace


Reklamy Google