Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Statistika.
Deník veřejné knihovny na rok 2009 Změny v evidenci činnosti knihoven.
Procenta Výpočet procentové části
Přijímací zkoušky na SŠ MATEMATIKA Připravil PhDr. Ivo Horáček, PhD.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Dualita úloh lineárního programování a analýza citlivosti
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Redukce textů, obsahová analýza, anotace
Aplikace teorie grafů Základní pojmy teorie grafů
PROGRAM PRO VÝUKU T ČLÁNKU
9 CELÁ ČÍSLA
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Porovnání hodnotících škál bolesti v závislosti na kognitivní funkci
Algoritmy I Cvičení č. 4.
Dynamické rozvozní úlohy
Procenta Výpočet počtu procent
Lineární algebra.
Výzkumy volebních preferencí za ČR a kraje od
Bibliografická a rešeršní činnost
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Dělitelnost přirozených čísel
Josef Keder Hana Škáchová
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
LOGISTICKÉ SYSTÉMY 7/14.
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Získávání informací Získání informací o reálném systému
Hodnocení vědy a výzkumu za využití InCites
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Jazyk vývojových diagramů
Josef Keder Hana Škáchová
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Únorové počítání.
Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
IV. ELEKTRONOVÁ KONFI- GURACE a PSP
Test D-1 je sociometrická diagnostická metoda diagnostikující třídní kolektiv. Je zadávána prostřednictvím dotazníku, který je předložen všem jednotlivým.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel,
Pojmy a interpretace.
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Jazyk vývojových diagramů
Matice.
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Přednost početních operací
Slovní úlohy řešené soustavou rovnic
Autor: Ondřej Šimeček Verze: 1.1.3
Porovnání výroby a prodejů vozidel ve světě
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Realtime identifikace osob podle hlasu
Získávání informací z webu (Information Retrieval on the Web)
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Automatická sumarizace textů 1

Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r Počet webových stránek 7,51 miliardy (web pages) -březen 2012, Počet webových míst 550 milionů (web sites) -prosinec

Text & Web Mining (information retrieval) Web content mining (analýza obsahu) Vyhledávání textů (dokumentů) Filtrace textů Klasifikace textů Shlukování textů Sumarizace textů Web structure mining (analýza topologie, využití linked data) Web usage mining(analýza logů, využití údajů o přístupech)

Obsah Úvod Taxonomie sumarizačních metod Klasické a pokročilé sumarizační metody Vlastní výsledky Naše metoda použití LSA pro sumarizaci Vícedokumentová sumarizace Aktualizační sumarizace Další řešené sumarizační úlohy 4

Typy souhrnů a sumarizačních metod Podle formy výsledku: – Extrakty – Abstrakty Podle úrovně zpracování: – Povrchní (používají povrchní vlastnosti, např. termy významné pozičně, frekvenčně, doménově, z dotazu). – Hlubší (používají syntaktické či tezaurové relace, rétorickou strukturu apod.) Podle účelu: – Indikativní (mají umožnit rozhodnutí, zda dokument stojí za to číst, délka do 10% originálu, součást vyhledávačů). – Informativní (20-30% originálu, nahrazují čtení plného textu zběžným seznámením s tématem). – Hodnotící (kritiky, recenze, posudky – nejsou automaticky generované).... 5

Klasické sumarizační metody - Heuristické Luhn: The Automatic Creation of Literature Abstracts. In IBM Journal of Research and Development významný term t : tf(t) * idf(t) > threshold 1.Najdi významné termy (klíčová slova). 2.Vypočti váhy vět na základě v nich obsažených klíčových slov. 3.Požadovaný počet vět s největšími váhami představují výsledek sumarizace. 6 Inverse document frequency (důležité termy se ale nesmí vyskytovat ve většině dokumentů) term frequency (důležité termy se vyskytují v dokumentu častěji)

Klasické sumarizační metody - Heuristické Edmundson : New Methods in Automatic Extraction. In Journal of the ACM, 1969 Důležité informace: 1.Vyskytují se ve specifických pozicích (začátek, konec), 2.Vyskytují se ve specifických odstavcích textu (název, úvod, závěr), 3.Jsou indikovány zdůrazňujícími slovy (hlavní, důležitý, výsledek, cíl, …), 4.Jsou indikovány klíčovými slovy. Kombinace vlastností 1-4 určuje důležitost (váhu) věty s. Weigh(s) = a*Title(s)+b*Cue(s)+c*Keyword(s)+d*Position (s) 7

Klasické sumarizační metody - Statistické Bayesův klasifikátor (?zařadit větu s do souhrnu S: ano/ne) P(F1,F2,…,Fn|s  S) P(s  S) P(s  S|F1,F2,…,Fn) = P(F1,…,Fn) za předpokladu nezávislosti příznaků Fi (Kupiec at all 1995)  j=1…n P(Fj|s  S) P(s  S ) P(s  S|F1,F2,…,Fn)≈  j=1…n P(Fj) P(s  S|F1,F2,…,Fn) pravděpodobnost, že věta s je v souhrnu S při daných příznacích. P(s  S) pravděpodobnost, že věta s je v souhrnu S nepodmíněně P(Fj|s  S) pravděpodobnost hodnoty příznaku Fj ve větě souhrnu P(Fj) pravděpodobnost hodnoty příznaku Fj nepodmíněně 8

Klasické sumarizační metody – Statistické (příklad) Máme 1000 trénovacích vět a manuální 20% extrakt. Ze statistik příznaků zjistíme: Příznak F1 výskyt v 10% (100 s.) P(F1)=0.1 P(notF1)=0.9 -“- F2 -“- 10% (100 s.) P(F2)=0.1 P(notF2)=0.9 -“- F3 -“- 20% (200 s ) P(F3)=0.2 P(notF3)=0.8 P(F1|s  S)=0.4 (tj 80 z 200) P(F2|s  S)=0.25 (tj. 50 z 200) P(F3|s  S)=0.5 (tj.100 z 200) P(F1|s  S)=0.025 (tj. 20 z 800) P(F2|s  S)= (tj. 50 z 800) P(F3|s  S)=0.125 (tj.100 z 800) P(notF1|s  S)=0.6 (tj. 120 z 200) P(notF2|s  S)=0.75 (tj. 150 z 200) P(notF3|s  S)=0.5 (tj. 100 z 200) P(notF1|s  S)=0.975 (tj. 780 z 800) P(notF2|s  S)= (tj. 750 z 800) P(notF3|s  S)=0.875 (tj.700 z 800) P(s  S) je konstanta k, tzn pro 20 % extract je 0.2, lze ji pominout 9

Klasické sumarizační metody – Statistické (příklad) Mějme 4 věty textu s1,s2,s3,s4. Pro sumarizaci spočteme P(s  S|F1,F2,F3) Bude-li v s1:F1=yes, F2=yes, F3=yes  P(s1  S|F1=yes,F2=yes,F3=yes)=k*.4*.25*.5/.1/.1/.2= = k* 25 P(s1  S|F1=yes,F2=yes,F3=yes)=(1-k)*.025*.0625*.125/.1/.1/.2 = (1-k)* Bude-li v s2:F1=no, F2=no, F3=no  P(s2  S|F1=no,F2=no,F3=no)= k*.6*.75*.5/.9/.9/.8 = =k* P(s2  S|F1=no,F2=no,F3=no) = (1-k)*.975*.9375*.875 /.9/.9/.8 = (1-k)*

Klasické sumarizační metody – Statistické (příklad) Bude-li v s3:F1=yes, F2=no, F3=no  P(s3  S|F1=yes,F2=no,F3=no) = k*.4*.75*.5 /.1/.9/.8= k* 2.08 Bude-li v s4:F1=yes, F2=yes, F3=no  P(s4  S|F1=yes,F2=yes,F3=no) = k*.4*.25*.5 /.1/.1/.8= k* 6.25 Do souhrnu bychom zařazovali věty s největší podmíněnou pravděpodobností. Tzn v pořadí: s1, pro25% souhrn 50% souhrn s4, 75% souhrn s3, s2 11

Pokročilé sumarizační metody - grafové 12 Vychází z metody hodnocení důležitosti web stránek Důležitá stránka- vede k ní mnoho odkazů, - odkazují na ní vysoce ohodnocené stránky Nechť PR(u) je hodnocení (rank) webové stránky u, F u je množina stránek, na které stránka u odkazuje a B u je množina stránek, které odkazují na u, N u =  F u  je počet odkazů z u c je konstanta používaná pro normalizaci, zajištující konstantní součet ohodnocení všech stránek

Pokročilé sumarizační metody - grafové PageRank G = (V, E) je orientovaný graf V je množina vrcholů V i, i = 1..N E je podmnožinou VxV Počítá PageRank skóre (významnost) uzlů: d je faktor tlumení In(V i ) je množinou vrcholů, ze kterých vede větev do V i Out(V i ) je množina vrcholů do nichž vede větev z V i 13

Pokročilé sumarizační metody - grafové Vrcholy grafu reprezentují věty textu, Větve reprezentují vazby mezi větami – Jsou neorientované – Jsou ohodnocené mírou svázanosti vět w ij Spočítá se PR skóre vět: Věty s nejvyšším PR jsou vybrány do souhrnu. 14

Pokročilé sumarizační metody - grafové K ohodnocení větví mírou podobnosti vět používají: buď – Počet společných (příbuzných) slov ve větách, nebo – Kosinové podobnosti vět X a Y v prostoru slov V prostoru slov lze každou větu (nebo i celý dokument) reprezentovat vektorem a jejich podobnost měřit cosinem. 15

0,17 0,47věta3 věta1 věta2 voyage Armstrong cosmonaut věta1věta2věta3df i idf i =log(počet_vět/df i ) termtf 1.věta tf 2.věta tf 3.věta cosmonaut ,47 Armstrong ,17 voyage ,17

Latentní sémantická analýza LSA – dovoluje analyzovat vztahy mezi termy a částmi textů pomocí algebraické metody singulární dekompozice (SVD), – na základě kontextu nalezne skryté dimenze sémantické reprezentace termů, vět a dokumentů, – umožňuje redukovat data jejich zobrazením v prostoru vhodnějších dimenzí, – LSA je použitelné pro vyhledávání, klasifikaci, shlukování i sumarizaci dokumentů. Princip SVD rozkladu probereme nejprve pro sumarizaci jednoho dokumentu. 17

Latentní sémantická analýza Vytvoříme matici A termů proti větám A = [A 1, A 2, …, A n ], sloupcové vektory A 1, A 2, …, A n reprezentují váhy termů v jednotlivých větách, SVD rozkládá matici A na tři matice 18

Latentní sémantická analýza LSA najde nejlepší k-rozměrnou aproximaci matice A, kde k<n Slovo1Slovo2Slovo3...Slovo n koncept1 koncept2...koncept k Vytvoří nové dimenze reprezentující témata (koncepty) dokumentu kombinací původních dimenzí. Redukovaná matice U mapuje termy do k nejvýznamnějších témat. Redukovaná matice V T mapuje věty do k nejvýznamnějších témat. Udává významnost vět v tématech. Důležitost tématu je určena odpovídající singulární hodnotou, platí: σ 1 > σ 2 >…> σ n > 0 a klesá s jejím kvadrátem. Lze inkrementálně spočítat jen k nejdůležitějších dimenzí. 19

Latentní sémantická analýza a sumarizace Gong&Liu postup: Pro j=1,2,…, délka souhrnu provádí – Při hledání j-té věty souhrnu vybere j-tý pravý singulární vektor z V T, tj. [v j1, v j2, …, v jk ] T. – Do souhrnu dá větu i s největší indexovou hodnotou v ji. Nevýhodou je považování všech témat za stejně důležitá Náš nápad: Rozdílnost důležitosti témat indikuje matice Σ. Vylepšit souhrn zařazením vět, jejichž vektorová reprezentace v matici součinu Σ a V T má největší délku vektoru d r. Důležité téma pak může být zastoupeno více větami 20

Latentní sémantická analýza Hlavní publikace: Two Uses of Anaphora Resolution in Summarization. Information Processing & Management, Elsevier Ltd, Vol.43, Issue 6, November 2007, pp , ISSN (13 citací). Text Summarization and Singular Value Decomposition. ADVIS 2005, Lecture Notes in Comp.Sc.2457 pp , Springer-Verlag 2004, ISSN (7 citací) Using Latent Semantic Analysis in Text Summarization and Summary evaluation, Proc. of 7th International Conference ISIM 04, pp , ISBN (13 citací). Použití LSA pro hodnocení kvality souhrnů publikováno v: Evaluation Measures for Text Summarization. In Computing and Informatics, volume 28, number 2, pages , Slovak Academy of Sciences, ISSN , Text Summarization: An Old Challenge and New Approaches. In Foundations of Computational Intelligence Vol.6, pages , Data Mining Book Series, Springer, ISSN X,

Vícedokumentová sumarizace Vytváří souhrn z kolekce dokumentů C = {D 1, D 2, …, D d }, obvykle pojednávajících o stejném tématu. Pracujeme se všemi větami i termy dokumentů. Nový problém: Dokumenty obsahují velmi podobné věty s redundantní informací. Postup řešení: 1.Ohodnotíme věty LSA skórem vhodnosti (lze i jinou metodou), 2.Před jejím zařazením do souhrnu ověříme, zda již neobsahuje podobnou větu. Např. nepřesahuje práh kosinové podobnosti v prostoru témat Publikace: Web Topic Summarization, Proceedings of the 12th International Conference on Electronic Publishing, ISBN , pp , Toronto, Canada

Aktualizační sumarizace Uživatel má předchozí znalosti z kolekce dokumentů C old Uživatel chce být seznámen s dokumenty z kolekce C new. Nechce informace z C new, které již byly obsaženy v C old. Náš postup: Z C old a C new vytvoříme matice A new a A old, na kterých provedeme separátně SVD. Získáme redukované matice U new a U old. Jejich sloupce představují k témat množin dokumentů vyjádřené v lineárních kombinacích termů. Pro každé „nové“ téma t, (t je index sloupce matice U new ), vyhledáme nejpodobnější staré téma (sloupec matice U old ). 23

Aktualizační sumarizace Kosinová podobnost těchto vektorů udává míru redundance red(t) nového tématu t. Kde k je počet témat v redukovaném prostoru sloupců U old Novost tématu t počítáme vztahem 1 – red(t), Zohledníme důležitost jednotlivých témat t v aktualizačním skóre: us(t) = σ(t)*(1- red(t)) Z vypočtených skóre sestavíme diagonální matici US, Vynásobením US.V new T dostaneme matici F, která v sobě agreguje novost i důležitost nových témat ve větách. 24

Aktualizační sumarizace První dáme do souhrnu větu, která má nejdelší vektor f best v matici F, Odečteme informaci z f best od ostatních sloupců matice F, tj. přepočteme F dle vzorce: Proces zařazování do souhrnu probíhá iteračně, až do získání potřebné délky souhrnu. Výsledky: náš LSA sumarizátor v TAC soutěži:r místo z 58, r místo z 52 Update Summarization Based on Novel Topic Distribution. Proceedings of the ACM Symposium on Document Engineering, Munich, Germany, Update Summarization Based on Latent Semantic Analysis. Proceedings of 12th International Conference, TSD 2009, LNAI 5729, Springer-Verlag Berlin Heidelberg New York, ISSN ,

Další aktuální sumarizační úlohy Multijazyková sumarizace Účast na přípravě a vyhodnocení TAC témat po 10 článcích v 7 jazycích. Komparativní sumarizace – cílem je souhrnně informovat o rozdílech v jednotlivých dokumentech, (odlišnosti hlavních témat – probíhá výzkum formou PhD). Cílená sumarizace – ke vstupním datům je přidána informace o uživatelově zájmu (dotazem/tématem). Do výsledku přednostně zařazuje věty, jejichž téma odpovídá přidávané informaci. Sumarizace mínění – zpracovává dokumenty obsahující mínění o entitě a vytváří průměrný názor. 26

Další probíhající a přípravované úlohy z oblasti extrakce informací z textů Získávání znalostí pro personalisty integrováním informací z webových zdrojů (F solutions, s.r.o. Praha a TextKernel NL). Porovnávání náplně výukových kurzů na amerických univerzitách a jejich řazení na základě požadavku klienta (Owen Software USA ). Pre-seed projekt: Získávání informací z textů. Stránky výzkumné skupiny: 27

Děkuji za pozornost 28

Hodnocení kvality sumarizátorů Přímé metody – Porovnání lingvistické kvality (ručně) Gramatická správnost Neredundantnost Struktura, souvislost, srozumitelnost – Porovnání obsahu textu s ideálním souhrnem Ko-selekční přístupy Podobnostní míry Nepřímé metody – Kategorizace dokumentů – Vyhledávání informací – Zodpovídání dotazů 29

Hodnocení kvality sumarizátorů – přímé metody 30

Hodnocení kvality sumarizátorů – přímé metody Podobnostní míry - Také základ v IR ale použitelné k porovnání jak s ideálním standardem tak s originálem Kosinová podobnost v prostoru slov s využitím tf-idf vah. Kosinová podobnost v latentním prostoru témat. Po SVD hledá – Podobnost hlavního tématu = kosinus uhlu mezi jejich prvými levými singulárními vektory souhrnu i originálu jsou normalizované – Podobnost n hlavních témat. Pro souhrn i originál po SVD spočteme a Pro každý řádkový vektor matice B S (resp B O ) spočteme jeho délku d kS (d kO ). Ta odpovídá důležitosti k-ho termu v latentním prostoru. Z délek d kS, d kO vytvoříme vektory d S d O. Kosinus jejich úhlu je mírou kvality souhrnu. 31

Hodnocení kvality sumarizátorů – přímé metody ROUGE (Recall-Oriented Understudy for Gisting Evaluation) automatická, založena na podobnosti n-gramů výpočet skóre RSS - referenční souhrny od anotátorů je počet n-gramů v referenčním souhrnu je maximální počet n-gramů, které se společně vyskytují jak v hodnoceném, tak i v referenčním souhrnu Pyramids Semi-automatická metoda založená na tzv. sumarizačních jednotkách SCU. SCU (věty nebo fráze) to jsou části souhrnů tvořených anotátory SCU které jsou v více souhrnech se přiřadí vyšší váha, vzniká SCU pyramida V hodnoceném souhrnu se hledají shody s SCU a sčítají se jejich váhy. 32

Hodnocení kvality sumarizátorů – nepřímé metody Kriteriem je uplatnění souhrnu ve zvolené úloze Kvalita vyhledávání na souhrnech versus na plných textech 1.Vyhledávači se zadá stejný dotaz jak nad kolekcí souhrnů S tak kolekcí plnotextovou D. Pak seřadí výsledky podle jejich relevance. 2.K porovnání pořadí lze použít např. Kendall’s tau nebo Spearman’s rank correlation. Také lze využít údaj o relevanci z vyhledávače a spočítat korelaci relevance Kde x i je relevance dokumentu D i ϵ D k dotazu Q, y i je relevance souhrnného dokumentu S i ϵ S k dotazu Q. a je průměrná relevance dokumentů z D (resp. z S) k dotazu Q. Kvalita kategorizace podle souhrnů namísto plných textů Mírou kvality je přesnost a úplnost či F-skóre zatřídění souhrnů do tříd proti známému správnému zatřídění původních textů 33

Latentní sémantická analýza - poznámky Pokud dokument obsahuje m termů a n vět je matice A o rozměru m × n U = [u ij ] je m × n sloupcově ortonormální matice, jejíž sloupce se nazývají levé singulární vektory Σ = diag(σ 1, σ 2, …,σ n ) je n × n diagonální matice, jejíž diagonální prvky jsou nezáporné singulární hodnoty seřazené sestupně V = [v ij ] je n × n ortonormální matice, jejíž sloupce se nazývají pravé singulární vektory Rozměr matic je redukován na k dimenzí, kde k < n, takže U je redukována na m×k, Σ na k×k a V T k×n Pozn. ortonormální matice má všechny sloupcové vektory délky 1 a navzájem kolmé. Σ 2 je matice vlastních hodnot matice AA T a také A T A. Sloupce U jsou vlastními vektory AA T a sloupce V jsou vlastními vektory A T A. 34

Latentní sémantická analýza 35 termv1v2v3v4v5v6 cosmonaut Armstrong voyage moon track Matice A: Latentní prostor redukovaný na 2 dimenze: dim1 dim2 v1 v2 v5 v4 v3 v6 cosmonautArmstrong voyage moon track

Latentní sémantická analýza a sumarizace Další možnosti modifikace výběru vět do souhrnu s použitím LSA: Pracovat jen se singul. čísly, která jsou větší než zvolený zlomek σ 1 Zařadit počty vět na základě procentního podílu singulárního čísla k součtu singulárních čísel. Kombinace grafové a LSA sumarizační metody: 1.Zkonstruuj matici A (slova proti větám) 2.Proveď SVD faktorizaci matice A 3.Redukuj rozměr matic U,Σ,V na U’Σ’V’ 4.Rekonstruuj odpovídající matici A’=U’Σ’V’ T. Její sloupce představují sémanticky reprezentované věty 5.Z takto reprezentovaných vět vytvoř graf, který zachycuje strukturu textu obdobně jako graf vytvořený z vět vyjádřených na bázi frekvence termů. 6.Na graf aplikuj ranking algoritmus 7.Do výsledku zařaď věty odpovídající nejvýše ohodnoceným uzlům 36