Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Speciální struktury číslicových systémů ASN – P9

Podobné prezentace


Prezentace na téma: "Speciální struktury číslicových systémů ASN – P9"— Transkript prezentace:

1 Speciální struktury číslicových systémů ASN – P9
Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech synthesis) Proč ? Komunikace člověk - počítač řízení výrobních procesů a výzkumných úloh v nepřístupném nebo nebezpečném prostředí pomoc handicapovaným lidem podávání informací (doprava, kultura, sport) Nač je třeba se soustředit ? volba fonetických a lingvistických jednotek způsob zpracování vlastní syntéza akustických kmitů

2 Speciální struktury číslicových systémů ASN – P9
Postup: Segmentace - volba akustické jednotky (foném, difón, trifón, …) Čím menší jednotka, tím větší vliv nesprávné koartikulace mezi slovy plynulost řeči mezi slabikami srozumitelnost Čím větší jednotka, tím více variant promluv Uložení segmentů v paměti (vytvoření inventáře) Spojování segmentů - řetězení (concatenation) Modelování prozodie - základní kmitočet hlasivek trvání řečové jednotky intonace intenzita tempo hlasitost

3 Speciální struktury číslicových systémů ASN – P9
Zpracování v časové oblasti digitalizace řečového signálu uložení v paměti řetězení editace digitálních dat (inventář kratších jednotek) řetězení Poznámka: u větších jednotek po řetězení (rekonstrukci signálu) zůstává více informací - i o prozodii, barvě hlasu … náročné na paměť; u kratších jednotek je špatná prozodie Zpracování v kmitočtové oblasti modelování procesu vytváření řeči LPC analýza, kepstrální parametry, … uchování charakteristik pro řízení modelu (nezávislé řízení F0 , zesílení, …)

4 Speciální struktury číslicových systémů ASN – P9
Konverze textu na řeč - TTS (Text - to - Speech Synthesis ) Nejsložitější úloha syntézy !!! Postup: zpracování textu (fonetická transkripce) navržení prozodických charakteristik vyhledání odpovídajících řečových jednotek generování syntetického akustického signálu Jazykově závislá syntéza !!! Výhody: operativní oborově nezávislá pracuje v reálném čase malé nároky na paměť vysoká srozumitelnost Nevýhoda: problémy s prozodií nezachovává charakteristické rysy mluvčího

5 Speciální struktury číslicových systémů ASN – P9
TTS systém pro češtinu ÚFE spolupráce ÚRE AV ČR a fonetického ústavu FF UK (modelování prozodie pomocí gramatických pravidel) katedra teorie obvodů FEL ČVUT (modelování prozodie pomocí umělých neuronových sítí ) laboratorně Původní určení: pro nevidomé (TTS s prozodií řízenou pravidly, SPEKTRA, s.r.o) Charakteristika: pracuje v reálném čase vzorkovací kmitočet 8 kHz, 16 kHz difónové řetězení LPC syntéza resp. kepstrální menší zkreslení, modeluje nuly i póly (formanty i antiformanty)

6 Speciální struktury číslicových systémů ASN – P9
Princip: segmentace ms ( překrytí 1/4 ) výpočet LPC koeficientů ( 8 ) do syntezátoru vstupuje 10 parametrů 8 koef. LPC zbytková energie F0 ( pro určení znělá / neznělá resp. hodnoty F0) informace o difónu - průměrná hodnota F0m pro celou větu (průměrná hodnota) diference mezi F0m a F0dif mikrointonace modelování základního kmitočtu pravidly pomocí NN A) Prozodie podle pravidel F0m na začátku a konci věty násobeno konstantou např. 1.2, 1.3, … snižování resp. zvyšování F0 podle typu věty F0 = F0m + F0dif … pouze mírné kolísání

7 Speciální struktury číslicových systémů ASN – P9
B) Prozodie modelovaná neuronovými sítěmi F0m … neužívá se násobná konstanta … neužívá se F0 = F0NN + F0dif ze signálu využívané informace prozodické číslicový filtr 8.řádu - simulace hlasového traktu signál pro znělé buzení šum pro neznělé (neexistence F0 ) řeč = ovlivňování sousedních znělých a neznělých elementů => mísení signál / šum syntéza - interpolace F0 přes difón (automaticky) energie pro ovlivnění hlasitosti (ručně) pitchsynchronnost - celočíselné násobky pitch periody (ne pro konstantní 12 ms úseky) eliminuje nespojitosti preemfáze - odstranění ss-složky signálu před LPC syntézou (na konci řetězce je opět přidána)

8 Syntéza řeči v časové oblasti
Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v časové oblasti převod spojitého akustického signálu na digitální kód s možností jeho rekonstrukce zachování charakteristik mluvčího (v mnoha případech, není-li editován) 1) kódování kmitů řeči, digitalizace, uložení 2) dekódování na analogový tvar řeč A/D paměť D/A filtr dekódování kódování 3) vytvoření inventáře kratších jednotek (slova, slabiky, fonémy) 4) řetězení

9 Speciální struktury číslicových systémů ASN – P9
Druhy PCM (pulsně kódová modulace) vzorkovací rychlosti kvalita závisí na počtu bitů A/D a D/A dynamika řeči: dB šířka kmit.spektra: 10 kHz kvalitní záznam Fv >= 20 kHz 12 bitové převodníky uchování 1 min. řeči , 8 Mbyt paměti méně kvalitní záznam Fv = 8 kHz 8 bitové převodníky uchování 1 min. řeči ,48 Mbyt paměti Zlepšení: DPCM diferenční PCM ADPCM - adaptivní diferenční PCM 240 kbyt paměti úspora 25% paměti

10 Syntéza řeči v kmitočtové oblasti
Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v kmitočtové oblasti matematický model kmitočtového spektra analýza řečového signálu parametry buzení lze měnit prozodii druhy: 1) formantová syntéza - sériové (paralelní) spojení rezonančních (antirezonančních) obvodů 2 000 bitů/sec (15 kbit/min) dobrá kvalita, technicky náročné 2) konkatenační syntéza LPC ms, řád filtrů 8-12 neomezený slovník LP-PSOLA parametrický model LP + PSOLA kepstrální 3) artikulační syntéza – modelování produkce řeči


Stáhnout ppt "Speciální struktury číslicových systémů ASN – P9"

Podobné prezentace


Reklamy Google