Speciální struktury číslicových systémů ASN – P9

Slides:



Advertisements
Podobné prezentace
Základy teorie řízení 2010.
Advertisements

Zvuk v počítači.
Ústav technologie, mechanizace a řízení staveb
Ústav technologie, mechanizace a řízení staveb
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
Algoritmy a struktury neuropočítačů ASN – P7
Measurement of electromagnetic oscillations of yeast cells in kHz and GHz region PhD student: Michal CIFRA Školitel: Jan VRBA Školitel specialista: Jiří.
Elektrotechnika Automatizační technika
Otázky k absolutoriu HW 1 - 5
Algoritmy a struktury neuropočítačů ASN - P1 Prof.Ing. Jana Tučková,CSc. Katedra teorie.
Automatizační technika
Tato prezentace byla vytvořena
Analogový a digitální zvuk a jejich rozdíly
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou I NFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE Ing. Jan Roubíček.
Digitální zpracování obrazu
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Základní vlastnosti A/D převodníků
Tato prezentace byla vytvořena
ZPRACOVÁNÍ A ANALÝZA BIOSIGNÁLŮ
Základy mobilních systémů a GSM II
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
 Matematik, pedagog, teoretik, překladatel  Univerzity v Paříži a Lyonu  ESIT Sorbonne Nouvelle  2014 emeritní profesor Sorbonne Nouvelle.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Realtime identifikace osob podle hlasu
D S P V D I A G N O S T I C E A Ř Í Z E N Í AUTOR : Ing. Zdeněk Macháček PROJEKT : Digitální signálové procesory v diagnostice a řízení.
Analogově digitální převodník
ZPRACOVÁNÍ A ANALÝZA BIOSIGNÁLŮ III.
Určení parametrů elektrického obvodu Vypracoval: Ing.Přemysl Šolc Školitel: Doc.Ing. Jaromír Kijonka CSc.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
CW01 - Teorie měření a regulace © Ing. Václav Rada, CSc. cv ZS – 2010/2011 Ústav technologie, mechanizace a řízení staveb.
Modulace.
Tato prezentace byla vytvořena
Fáze a modely tlumočení
Experimentální metody (qem)
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_ENI-2.MA-05_Modulace a Modulátory Název školyStřední odborná škola a Střední odborné.
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
Elektronické signály Co si lze představit pod pojmem signál ?
Střídavé napětí a střídavý proud
Návrh a implementace algoritmů pro údržbu,
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Multimédia Žlutířová Eva.
Struktura měřícího řetězce
Ústav technických zařízení budov MĚŘENÍ A REGULACE Ing. Václav Rada, CSc. ZS – 2003/
Ústav technologie, mechanizace a řízení staveb CW01 - Teorie měření a regulace © Ing. Václav Rada, CSc. ZS – 2009/ reg.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Geografické informační systémy pojetí, definice, součásti
Počítačové sítě Přenos signálu
PROGRAMY PRO ZPRACOVÁNÍ ZVUKU MARTIN BÁRTA. Obsah tématu  Rozdělení funkcí v nahrávacím řetězci  Nahrávání a editace  Postprodukce  Mastering  Software.
Studijní obor AUTOMATIZACE a ŘÍDICÍ TECHNIKA Bc.Ing. Bc. a navazujícího Ing. studijního programu Chemické a procesní inženýrství PROČ? Automatizace a řídicí.
Elektrofony Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblast Komunikace hudebního umění se znakovými systémy uměleckých.
Katedra řídicí techniky FEL ČVUT1 11. přednáška. Katedra řídicí techniky FEL ČVUT2 Diskrétní regulační obvod Předpoklad: v okamžiku, kdy se na vstup číslicového.
JAZYK: POPIS, ZÁKLADNÍ PRVKY A VLASTNOSTI PERCEPCE ŘEČI: PERCEPCE SLOV POROZUMĚNÍ VĚTÁM, TEXTU PRODUKCE ŘEČI JAZYK A MYŠLENÍ OSVOJOVÁNÍ JAZYKA Jazyk a.
Zvuk. Co je to zvuk Zvuk - jedná se o mechanické vlnění, které je schopen člověk vnímat a také rozlišovat. – Základní vlastností je frekvence, kterou.
Katedra řídicí techniky FEL ČVUT1 5. Přednáška. Katedra řídicí techniky FEL ČVUT2 Regulační obvod S … regulovaná soustava R … regulátor (řídicí systém)
Lekce 3. Linkový kód ● linkový kód je způsob vyjádření digitálních dat (jedniček a nul) signálem vhodným pro přenos přenosovým kanálem: – optický kabel.
Programy pro zpracování zvuku
Ondřej Pavlas, Tomáš Karhut
MM2 – úvodní cvičení.
Softwarové rádio cesta k moderní komunikační technice
T 3 / 1 Zesilovače -úvod (Amplifiers).
Číslicové měřící přístroje
harmonický signál – amplitudová, kmitočtová a fázová modulace
Úvod do počítačových sítí - Linková úroveň
Střední škola obchodně technická s. r. o.
ZÁKLADY SDĚLOVACÍ TECHNIKY
Transkript prezentace:

Speciální struktury číslicových systémů ASN – P9 Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech synthesis) Proč ? Komunikace člověk - počítač řízení výrobních procesů a výzkumných úloh v nepřístupném nebo nebezpečném prostředí pomoc handicapovaným lidem podávání informací (doprava, kultura, sport) Nač je třeba se soustředit ? volba fonetických a lingvistických jednotek způsob zpracování vlastní syntéza akustických kmitů

Speciální struktury číslicových systémů ASN – P9 Postup: Segmentace - volba akustické jednotky (foném, difón, trifón, …) Čím menší jednotka, tím větší vliv nesprávné koartikulace mezi slovy plynulost řeči mezi slabikami srozumitelnost Čím větší jednotka, tím více variant promluv Uložení segmentů v paměti (vytvoření inventáře) Spojování segmentů - řetězení (concatenation) Modelování prozodie - základní kmitočet hlasivek trvání řečové jednotky intonace intenzita tempo hlasitost

Speciální struktury číslicových systémů ASN – P9 Zpracování v časové oblasti digitalizace řečového signálu uložení v paměti řetězení editace digitálních dat (inventář kratších jednotek) řetězení Poznámka: u větších jednotek po řetězení (rekonstrukci signálu) zůstává více informací - i o prozodii, barvě hlasu … náročné na paměť; u kratších jednotek je špatná prozodie Zpracování v kmitočtové oblasti modelování procesu vytváření řeči LPC analýza, kepstrální parametry, … uchování charakteristik pro řízení modelu (nezávislé řízení F0 , zesílení, …)

Speciální struktury číslicových systémů ASN – P9 Konverze textu na řeč - TTS (Text - to - Speech Synthesis ) Nejsložitější úloha syntézy !!! Postup: zpracování textu (fonetická transkripce) navržení prozodických charakteristik vyhledání odpovídajících řečových jednotek generování syntetického akustického signálu Jazykově závislá syntéza !!! Výhody: operativní oborově nezávislá pracuje v reálném čase malé nároky na paměť vysoká srozumitelnost Nevýhoda: problémy s prozodií nezachovává charakteristické rysy mluvčího

Speciální struktury číslicových systémů ASN – P9 TTS systém pro češtinu ÚFE spolupráce ÚRE AV ČR a fonetického ústavu FF UK (modelování prozodie pomocí gramatických pravidel) katedra teorie obvodů FEL ČVUT (modelování prozodie pomocí umělých neuronových sítí ) laboratorně Původní určení: pro nevidomé (TTS s prozodií řízenou pravidly, SPEKTRA, s.r.o) Charakteristika: pracuje v reálném čase vzorkovací kmitočet 8 kHz, 16 kHz difónové řetězení LPC syntéza resp. kepstrální menší zkreslení, modeluje nuly i póly (formanty i antiformanty)

Speciální struktury číslicových systémů ASN – P9 Princip: segmentace - 12 ms ( překrytí 1/4 ) výpočet LPC koeficientů ( 8 ) do syntezátoru vstupuje 10 parametrů 8 koef. LPC zbytková energie F0 ( pro určení znělá / neznělá resp. hodnoty F0) informace o difónu - průměrná hodnota F0m pro celou větu (průměrná hodnota) diference mezi F0m a F0dif mikrointonace modelování základního kmitočtu pravidly pomocí NN A) Prozodie podle pravidel F0m na začátku a konci věty násobeno konstantou např. 1.2, 1.3, … snižování resp. zvyšování F0 podle typu věty F0 = F0m + F0dif … pouze mírné kolísání

Speciální struktury číslicových systémů ASN – P9 B) Prozodie modelovaná neuronovými sítěmi F0m … neužívá se násobná konstanta … neužívá se F0 = F0NN + F0dif ze signálu využívané informace prozodické číslicový filtr 8.řádu - simulace hlasového traktu signál pro znělé buzení šum pro neznělé (neexistence F0 ) řeč = ovlivňování sousedních znělých a neznělých elementů => mísení signál / šum syntéza - interpolace F0 přes difón (automaticky) energie pro ovlivnění hlasitosti (ručně) pitchsynchronnost - celočíselné násobky pitch periody (ne pro konstantní 12 ms úseky) eliminuje nespojitosti preemfáze - odstranění ss-složky signálu před LPC syntézou (na konci řetězce je opět přidána)

Syntéza řeči v časové oblasti Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v časové oblasti převod spojitého akustického signálu na digitální kód s možností jeho rekonstrukce zachování charakteristik mluvčího (v mnoha případech, není-li editován) 1) kódování kmitů řeči, digitalizace, uložení 2) dekódování na analogový tvar řeč A/D paměť D/A filtr dekódování kódování 3) vytvoření inventáře kratších jednotek (slova, slabiky, fonémy) 4) řetězení

Speciální struktury číslicových systémů ASN – P9 Druhy PCM (pulsně kódová modulace) vzorkovací rychlosti kvalita závisí na počtu bitů A/D a D/A dynamika řeči: 60 dB šířka kmit.spektra: 10 kHz kvalitní záznam Fv >= 20 kHz 12 bitové převodníky uchování 1 min. řeči 1, 8 Mbyt paměti méně kvalitní záznam Fv = 8 kHz 8 bitové převodníky uchování 1 min. řeči 0,48 Mbyt paměti Zlepšení: DPCM - diferenční PCM ADPCM - adaptivní diferenční PCM 240 kbyt paměti úspora 25% paměti

Syntéza řeči v kmitočtové oblasti Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v kmitočtové oblasti matematický model kmitočtového spektra analýza řečového signálu parametry buzení lze měnit prozodii druhy: 1) formantová syntéza - sériové (paralelní) spojení rezonančních (antirezonančních) obvodů 2 000 bitů/sec (15 kbit/min) dobrá kvalita, technicky náročné 2) konkatenační syntéza LPC - 10-30 ms, řád filtrů 8-12 neomezený slovník LP-PSOLA - parametrický model LP + PSOLA kepstrální 3) artikulační syntéza – modelování produkce řeči