Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
Zveřejnil准与 羊
1
Command line nástroje Jednoúčelové, ale mocné nástroje pro transformace textu Jak získat: Linux (a Mac) – součást operačního systému Windows – musí se doinstalovat: cmder.net nebo cygwin
2
Příklad – Skákal pes Kolik má text řádek, slov a znaků? První příkaz: wc <jménosouboru> Jak vypsat obsah souboru: cat <jménosouboru> (vypíše celý soubor) less <jménosouboru> (po stránkách, použijte space, potom „q“) head / tail <jménosouboru> Všechny příkazy lze spustit s parametrem --help
3
Kódování https://en.wikipedia.org/wiki/Character_encoding
ASCII – 7bitů Nepokrývalo znaky z různých jazyků Více kódování češtiny (windows-1250, iso , utf-8) V našem případě: konverze z iso do utf-8 iconv -f iso t utf-8 skakalpes-il2.txt > pes_utf8.txt
4
Další příkazy a principy
sort Zkuste setřídit abecedně řádky Každý příkaz má vstup a výstup Je možné je zřetězit (výstup jednoho je vstupem dalšího) Pomocí znaku | (pipe, pajpa) cat pes_utf8.txt | sort Jak poslat výstup do souboru? Pomocí znaku > cat pes_utf8.txt | sort > pes_sorted.txt
5
Další příkazy – tr, uniq, cut
Nahradí znak jiným znakem, příklady: tr 'a' 'b' tr ' ' '\n' tr '[:punct:]' '\n' uniq Vyháže opakující se řádky Je potřeba mít vstup setříděný cat pes_utf8.txt | tr '[:punct:]' '\n' | tr ' ' '\n' | sort | uniq -c | sort cut Vyřízne z každého vstupu určité znaky nebo slova. cut –f 1 –d “ “ Pracuje dobře s tsv
6
Další příkazy - grep Filtrování podle obsahu grep ‘mysli’
Regulární výrazy: Šablona vyhovující více možnostem [a-z] … znaky od a do z Další úlohy: Vypište řádky obsahující číslo Kolik je v souboru unikátních slov Nejčastější slova začínající na určité písmeno
7
Další příkazy wget echo sed dos2unix, unix2dos
Stahování souborů z webu echo Vypíše vstup na konzoli sed Komplexnější nástroj na náhradu textů echo "kafe" | sed -e 's/kafe/pivo/‚ dos2unix, unix2dos Kódování konců řádek
8
Další nástroje Notepad++ S pluginem TextFX
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.