Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Speciální struktury číslicových systémů ASN – P9 Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech.

Podobné prezentace


Prezentace na téma: "Speciální struktury číslicových systémů ASN – P9 Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech."— Transkript prezentace:

1 Speciální struktury číslicových systémů ASN – P9 Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech synthesis) Proč ? Komunikace člověk - počítač řízení výrobních procesů a výzkumných úloh v nepřístupném nebo nebezpečném prostředí pomoc handicapovaným lidem podávání informací (doprava, kultura, sport) Nač je třeba se soustředit ? volba fonetických a lingvistických jednotek způsob zpracování vlastní syntéza akustických kmitů

2 Uložení segmentů v paměti (vytvoření inventáře) Spojování segmentů - řetězení (concatenation) Modelování prozodie - základní kmitočet hlasivek trvání řečové jednotky intonace intenzita tempo hlasitost Speciální struktury číslicových systémů ASN – P9 Postup: Segmentace - volba akustické jednotky (foném, difón, trifón, …) Čím menší jednotka, tím větší vliv nesprávné koartikulace mezi slovy plynulost řeči mezi slabikami srozumitelnost Čím větší jednotka, tím více variant promluv

3 Speciální struktury číslicových systémů ASN – P9 Zpracování v časové oblasti digitalizace řečového signálu uložení v paměti řetězení editace digitálních dat (inventář kratších jednotek) řetězení Poznámka: u větších jednotek po řetězení (rekonstrukci signálu) zůstává více informací - i o prozodii, barvě hlasu … náročné na paměť; u kratších jednotek je špatná prozodie Zpracování v kmitočtové oblasti modelování procesu vytváření řeči LPC analýza, kepstrální parametry, … uchování charakteristik pro řízení modelu (nezávislé řízení F 0, zesílení, …)

4 Speciální struktury číslicových systémů ASN – P9 Konverze textu na řeč - TTS (Text - to - Speech Synthesis ) Nejsložitější úloha syntézy !!! Postup: zpracování textu (fonetická transkripce) navržení prozodických charakteristik vyhledání odpovídajících řečových jednotek generování syntetického akustického signálu Jazykově závislá syntéza !!! Výhody: operativní oborově nezávislá pracuje v reálném čase malé nároky na paměť vysoká srozumitelnost Nevýhoda: problémy s prozodií nezachovává charakteristické rysy mluvčího

5 TTS systém pro češtinu ÚFE spolupráce ÚRE AV ČR a fonetického ústavu FF UK (modelování prozodie pomocí gramatických pravidel) katedra teorie obvodů FEL ČVUT (modelování prozodie pomocí umělých neuronových sítí ) laboratorně Speciální struktury číslicových systémů ASN – P9 Původní určení: pro nevidomé (TTS s prozodií řízenou pravidly, SPEKTRA, s.r.o) Charakteristika: pracuje v reálném čase vzorkovací kmitočet 8 kHz, 16 kHz difónové řetězení LPC syntéza resp. kepstrální menší zkreslení, modeluje nuly i póly (formanty i antiformanty)

6 Speciální struktury číslicových systémů ASN – P9 Princip: segmentace - 12 ms ( překrytí 1/4 ) výpočet LPC koeficientů ( 8 ) do syntezátoru vstupuje 10 parametrů 8 koef. LPC zbytková energie F 0 ( pro určení znělá / neznělá resp. hodnoty F 0 ) informace o difónu - průměrná hodnota F 0 m pro celou větu (průměrná hodnota) diference mezi F 0 m a F 0 dif mikrointonace modelování základního kmitočtu pravidly pomocí NN A) Prozodie podle pravidel F 0 m na začátku a konci věty násobeno konstantou např. 1.2, 1.3, … snižování resp. zvyšování F 0 podle typu věty F 0 = F 0 m + F 0 dif … pouze mírné kolísání

7 Speciální struktury číslicových systémů ASN – P9 B) Prozodie modelovaná neuronovými sítěmi F 0 m … neužívá se násobná konstanta … neužívá se F 0 = F 0 NN + F 0 dif ze signálu využívané informace prozodické číslicový filtr 8.řádu - simulace hlasového traktu signál pro znělé buzení šum pro neznělé (neexistence F 0 ) řeč = ovlivňování sousedních znělých a neznělých elementů => mísení signál / šum syntéza - interpolace F 0 přes difón (automaticky) energie pro ovlivnění hlasitosti (ručně) pitchsynchronnost - celočíselné násobky pitch periody (ne pro konstantní 12 ms úseky) eliminuje nespojitosti preemfáze - odstranění ss-složky signálu před LPC syntézou (na konci řetězce je opět přidána)

8 Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v časové oblasti převod spojitého akustického signálu na digitální kód s možností jeho rekonstrukce zachování charakteristik mluvčího (v mnoha případech, není-li editován) 1) kódování kmitů řeči, digitalizace, uložení 2) dekódování na analogový tvar řečA/Dpaměť D/Afiltr kódování dekódování 3) vytvoření inventáře kratších jednotek (slova, slabiky, fonémy) 4) řetězení

9 Speciální struktury číslicových systémů ASN – P9 Druhy PCM (pulsně kódová modulace) vzorkovací rychlosti kvalita závisí na počtu bitů A/D a D/A dynamika řeči: 60 dB šířka kmit.spektra: 10 kHz kvalitní záznam F v >= 20 kHz 12 bitové převodníky uchování 1 min. řeči 1, 8 Mbyt paměti méně kvalitní záznam F v = 8 kHz 8 bitové převodníky uchování 1 min. řeči 0,48 Mbyt paměti Zlepšení: DPCM - diferenční PCM ADPCM - adaptivní diferenční PCM 240 kbyt paměti úspora 25% paměti

10 Speciální struktury číslicových systémů ASN – P9 Syntéza řeči v kmitočtové oblasti matematický model kmitočtového spektra analýza řečového signálu parametry buzení lze měnit prozodii druhy: 1) formantová syntéza - sériové (paralelní) spojení rezonančních (antirezonančních) obvodů bitů/sec (15 kbit/min) dobrá kvalita, technicky náročné 2) konkatenační syntéza LPC ms, řád filtrů 8-12 neomezený slovník LP-PSOLA - parametrický model LP + PSOLA kepstrální 3) artikulační syntéza – modelování produkce řeči


Stáhnout ppt "Speciální struktury číslicových systémů ASN – P9 Syntéza řeči - úvod Konverze textu na řeč Syntéza řeči v časové a kmitočtové oblasti Syntéza řeči (speech."

Podobné prezentace


Reklamy Google