Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek.

Automatická sumarizace textů 1

Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek 7,51 miliardy (web pages) -březen 2012, Počet webových míst 550 milionů (web sites) -prosinec 2011. 2

Text & Web Mining (information retrieval) Web content mining (analýza obsahu) Vyhledávání textů (dokumentů) Filtrace textů Klasifikace textů Shlukování textů Sumarizace textů Web structure mining (analýza topologie, využití linked data) Web usage mining(analýza logů, využití údajů o přístupech)

Obsah Úvod Taxonomie sumarizačních metod Klasické a pokročilé sumarizační metody Vlastní výsledky Naše metoda použití LSA pro sumarizaci Vícedokumentová sumarizace Aktualizační sumarizace Další řešené sumarizační úlohy 4

Typy souhrnů a sumarizačních metod Podle formy výsledku: – Extrakty – Abstrakty Podle úrovně zpracování: – Povrchní (používají povrchní vlastnosti, např. termy významné pozičně, frekvenčně, doménově, z dotazu). – Hlubší (používají syntaktické či tezaurové relace, rétorickou strukturu apod.) Podle účelu: – Indikativní (mají umožnit rozhodnutí, zda dokument stojí za to číst, délka do 10% originálu, součást vyhledávačů). – Informativní (20-30% originálu, nahrazují čtení plného textu zběžným seznámením s tématem). – Hodnotící (kritiky, recenze, posudky – nejsou automaticky generované).... 5

Klasické sumarizační metody - Heuristické Luhn: The Automatic Creation of Literature Abstracts. In IBM Journal of Research and Development. 1958 významný term t : tf(t) * idf(t) > threshold 1.Najdi významné termy (klíčová slova). 2.Vypočti váhy vět na základě v nich obsažených klíčových slov. 3.Požadovaný počet vět s největšími váhami představují výsledek sumarizace. 6 Inverse document frequency (důležité termy se ale nesmí vyskytovat ve většině dokumentů) term frequency (důležité termy se vyskytují v dokumentu častěji)

Klasické sumarizační metody - Heuristické Edmundson : New Methods in Automatic Extraction. In Journal of the ACM, 1969 Důležité informace: 1.Vyskytují se ve specifických pozicích (začátek, konec), 2.Vyskytují se ve specifických odstavcích textu (název, úvod, závěr), 3.Jsou indikovány zdůrazňujícími slovy (hlavní, důležitý, výsledek, cíl, …), 4.Jsou indikovány klíčovými slovy. Kombinace vlastností 1-4 určuje důležitost (váhu) věty s. Weigh(s) = a*Title(s)+b*Cue(s)+c*Keyword(s)+d*Position (s) 7

Klasické sumarizační metody - Statistické Bayesův klasifikátor (?zařadit větu s do souhrnu S: ano/ne) P(F1,F2,…,Fn|s  S) P(s  S) P(s  S|F1,F2,…,Fn) = P(F1,…,Fn) za předpokladu nezávislosti příznaků Fi (Kupiec at all 1995)  j=1…n P(Fj|s  S) P(s  S ) P(s  S|F1,F2,…,Fn)≈  j=1…n P(Fj) P(s  S|F1,F2,…,Fn) pravděpodobnost, že věta s je v souhrnu S při daných příznacích. P(s  S) pravděpodobnost, že věta s je v souhrnu S nepodmíněně P(Fj|s  S) pravděpodobnost hodnoty příznaku Fj ve větě souhrnu P(Fj) pravděpodobnost hodnoty příznaku Fj nepodmíněně 8

Klasické sumarizační metody – Statistické (příklad) Máme 1000 trénovacích vět a manuální 20% extrakt. Ze statistik příznaků zjistíme: Příznak F1 výskyt v 10% (100 s.) P(F1)=0.1 P(notF1)=0.9 -“- F2 -“- 10% (100 s.) P(F2)=0.1 P(notF2)=0.9 -“- F3 -“- 20% (200 s ) P(F3)=0.2 P(notF3)=0.8 P(F1|s  S)=0.4 (tj 80 z 200) P(F2|s  S)=0.25 (tj. 50 z 200) P(F3|s  S)=0.5 (tj.100 z 200) P(F1|s  S)=0.025 (tj. 20 z 800) P(F2|s  S)=0.0625 (tj. 50 z 800) P(F3|s  S)=0.125 (tj.100 z 800) P(notF1|s  S)=0.6 (tj. 120 z 200) P(notF2|s  S)=0.75 (tj. 150 z 200) P(notF3|s  S)=0.5 (tj. 100 z 200) P(notF1|s  S)=0.975 (tj. 780 z 800) P(notF2|s  S)=0.9375 (tj. 750 z 800) P(notF3|s  S)=0.875 (tj.700 z 800) P(s  S) je konstanta k, tzn pro 20 % extract je 0.2, lze ji pominout 9

Klasické sumarizační metody – Statistické (příklad) Mějme 4 věty textu s1,s2,s3,s4. Pro sumarizaci spočteme P(s  S|F1,F2,F3) Bude-li v s1:F1=yes, F2=yes, F3=yes  P(s1  S|F1=yes,F2=yes,F3=yes)=k*.4*.25*.5/.1/.1/.2= = k* 25 P(s1  S|F1=yes,F2=yes,F3=yes)=(1-k)*.025*.0625*.125/.1/.1/.2 = (1-k)*0.0976562 Bude-li v s2:F1=no, F2=no, F3=no  P(s2  S|F1=no,F2=no,F3=no)= k*.6*.75*.5/.9/.9/.8 = =k*0.34687 P(s2  S|F1=no,F2=no,F3=no) = (1-k)*.975*.9375*.875 /.9/.9/.8 = (1-k)* 1.123 10

Klasické sumarizační metody – Statistické (příklad) Bude-li v s3:F1=yes, F2=no, F3=no  P(s3  S|F1=yes,F2=no,F3=no) = k*.4*.75*.5 /.1/.9/.8= k* 2.08 Bude-li v s4:F1=yes, F2=yes, F3=no  P(s4  S|F1=yes,F2=yes,F3=no) = k*.4*.25*.5 /.1/.1/.8= k* 6.25 Do souhrnu bychom zařazovali věty s největší podmíněnou pravděpodobností. Tzn v pořadí: s1, pro25% souhrn 50% souhrn s4, 75% souhrn s3, s2 11

Pokročilé sumarizační metody - grafové 12 Vychází z metody hodnocení důležitosti web stránek Důležitá stránka- vede k ní mnoho odkazů, - odkazují na ní vysoce ohodnocené stránky Nechť PR(u) je hodnocení (rank) webové stránky u, F u je množina stránek, na které stránka u odkazuje a B u je množina stránek, které odkazují na u, N u =  F u  je počet odkazů z u c je konstanta používaná pro normalizaci, zajištující konstantní součet ohodnocení všech stránek

Pokročilé sumarizační metody - grafové PageRank G = (V, E) je orientovaný graf V je množina vrcholů V i, i = 1..N E je podmnožinou VxV Počítá PageRank skóre (významnost) uzlů: d je faktor tlumení In(V i ) je množinou vrcholů, ze kterých vede větev do V i Out(V i ) je množina vrcholů do nichž vede větev z V i 13

Pokročilé sumarizační metody - grafové Vrcholy grafu reprezentují věty textu, Větve reprezentují vazby mezi větami – Jsou neorientované – Jsou ohodnocené mírou svázanosti vět w ij Spočítá se PR skóre vět: Věty s nejvyšším PR jsou vybrány do souhrnu. 14

Pokročilé sumarizační metody - grafové K ohodnocení větví mírou podobnosti vět používají: buď – Počet společných (příbuzných) slov ve větách, nebo – Kosinové podobnosti vět X a Y v prostoru slov V prostoru slov lze každou větu (nebo i celý dokument) reprezentovat vektorem a jejich podobnost měřit cosinem. 15

0,17 0,47věta3 věta1 věta2 voyage Armstrong cosmonaut věta1věta2věta3df i idf i =log(počet_vět/df i ) termtf 1.věta tf 2.věta tf 3.věta cosmonaut 0 0 1 1 0,47 Armstrong 0 1 1 2 0,17 voyage 1 1 0 2 0,17

Latentní sémantická analýza LSA – dovoluje analyzovat vztahy mezi termy a částmi textů pomocí algebraické metody singulární dekompozice (SVD), – na základě kontextu nalezne skryté dimenze sémantické reprezentace termů, vět a dokumentů, – umožňuje redukovat data jejich zobrazením v prostoru vhodnějších dimenzí, – LSA je použitelné pro vyhledávání, klasifikaci, shlukování i sumarizaci dokumentů. Princip SVD rozkladu probereme nejprve pro sumarizaci jednoho dokumentu. 17

Latentní sémantická analýza Vytvoříme matici A termů proti větám A = [A 1, A 2, …, A n ], sloupcové vektory A 1, A 2, …, A n reprezentují váhy termů v jednotlivých větách, SVD rozkládá matici A na tři matice 18

Latentní sémantická analýza LSA najde nejlepší k-rozměrnou aproximaci matice A, kde k<n Slovo1Slovo2Slovo3...Slovo n koncept1 koncept2...koncept k Vytvoří nové dimenze reprezentující témata (koncepty) dokumentu kombinací původních dimenzí. Redukovaná matice U mapuje termy do k nejvýznamnějších témat. Redukovaná matice V T mapuje věty do k nejvýznamnějších témat. Udává významnost vět v tématech. Důležitost tématu je určena odpovídající singulární hodnotou, platí: σ 1 > σ 2 >…> σ n > 0 a klesá s jejím kvadrátem. Lze inkrementálně spočítat jen k nejdůležitějších dimenzí. 19

Latentní sémantická analýza a sumarizace Gong&Liu postup: Pro j=1,2,…, délka souhrnu provádí – Při hledání j-té věty souhrnu vybere j-tý pravý singulární vektor z V T, tj. [v j1, v j2, …, v jk ] T. – Do souhrnu dá větu i s největší indexovou hodnotou v ji. Nevýhodou je považování všech témat za stejně důležitá Náš nápad: Rozdílnost důležitosti témat indikuje matice Σ. Vylepšit souhrn zařazením vět, jejichž vektorová reprezentace v matici součinu Σ a V T má největší délku vektoru d r. Důležité téma pak může být zastoupeno více větami 20

Latentní sémantická analýza Hlavní publikace: Two Uses of Anaphora Resolution in Summarization. Information Processing & Management, Elsevier Ltd, Vol.43, Issue 6, November 2007, pp. 1669-1680, ISSN 0306-4573 (13 citací). Text Summarization and Singular Value Decomposition. ADVIS 2005, Lecture Notes in Comp.Sc.2457 pp.245-254, Springer-Verlag 2004, ISSN 0302-9743 (7 citací) Using Latent Semantic Analysis in Text Summarization and Summary evaluation, Proc. of 7th International Conference ISIM 04, pp. 93-100, ISBN 80-85988-99-2 (13 citací). Použití LSA pro hodnocení kvality souhrnů publikováno v: Evaluation Measures for Text Summarization. In Computing and Informatics, volume 28, number 2, pages 251-275, Slovak Academy of Sciences, ISSN 1335-9150, 2009. Text Summarization: An Old Challenge and New Approaches. In Foundations of Computational Intelligence Vol.6, pages 127- 149, Data Mining Book Series, Springer, ISSN 1860-949X, 2009 21

Vícedokumentová sumarizace Vytváří souhrn z kolekce dokumentů C = {D 1, D 2, …, D d }, obvykle pojednávajících o stejném tématu. Pracujeme se všemi větami i termy dokumentů. Nový problém: Dokumenty obsahují velmi podobné věty s redundantní informací. Postup řešení: 1.Ohodnotíme věty LSA skórem vhodnosti (lze i jinou metodou), 2.Před jejím zařazením do souhrnu ověříme, zda již neobsahuje podobnou větu. Např. nepřesahuje práh kosinové podobnosti v prostoru témat Publikace: Web Topic Summarization, Proceedings of the 12th International Conference on Electronic Publishing, ISBN 978-0-7727-6315-0, pp 322-334, Toronto, Canada 2008. 22

Aktualizační sumarizace Uživatel má předchozí znalosti z kolekce dokumentů C old Uživatel chce být seznámen s dokumenty z kolekce C new. Nechce informace z C new, které již byly obsaženy v C old. Náš postup: Z C old a C new vytvoříme matice A new a A old, na kterých provedeme separátně SVD. Získáme redukované matice U new a U old. Jejich sloupce představují k témat množin dokumentů vyjádřené v lineárních kombinacích termů. Pro každé „nové“ téma t, (t je index sloupce matice U new ), vyhledáme nejpodobnější staré téma (sloupec matice U old ). 23

Aktualizační sumarizace Kosinová podobnost těchto vektorů udává míru redundance red(t) nového tématu t. Kde k je počet témat v redukovaném prostoru sloupců U old Novost tématu t počítáme vztahem 1 – red(t), Zohledníme důležitost jednotlivých témat t v aktualizačním skóre: us(t) = σ(t)*(1- red(t)) Z vypočtených skóre sestavíme diagonální matici US, Vynásobením US.V new T dostaneme matici F, která v sobě agreguje novost i důležitost nových témat ve větách. 24

Aktualizační sumarizace První dáme do souhrnu větu, která má nejdelší vektor f best v matici F, Odečteme informaci z f best od ostatních sloupců matice F, tj. přepočteme F dle vzorce: Proces zařazování do souhrnu probíhá iteračně, až do získání potřebné délky souhrnu. Výsledky: náš LSA sumarizátor v TAC soutěži:r.2008 9.místo z 58, r.2009 2.místo z 52 Update Summarization Based on Novel Topic Distribution. Proceedings of the ACM Symposium on Document Engineering, Munich, Germany, 2009. Update Summarization Based on Latent Semantic Analysis. Proceedings of 12th International Conference, TSD 2009, LNAI 5729, Springer-Verlag Berlin Heidelberg New York, ISSN 0302-9743, 2009. 25

Další aktuální sumarizační úlohy Multijazyková sumarizace Účast na přípravě a vyhodnocení TAC 2011 10 témat po 10 článcích v 7 jazycích. Komparativní sumarizace – cílem je souhrnně informovat o rozdílech v jednotlivých dokumentech, (odlišnosti hlavních témat – probíhá výzkum formou PhD). Cílená sumarizace – ke vstupním datům je přidána informace o uživatelově zájmu (dotazem/tématem). Do výsledku přednostně zařazuje věty, jejichž téma odpovídá přidávané informaci. Sumarizace mínění – zpracovává dokumenty obsahující mínění o entitě a vytváří průměrný názor. 26

Další probíhající a přípravované úlohy z oblasti extrakce informací z textů Získávání znalostí pro personalisty integrováním informací z webových zdrojů (F solutions, s.r.o. Praha a TextKernel NL). Porovnávání náplně výukových kurzů na amerických univerzitách a jejich řazení na základě požadavku klienta (Owen Software USA ). Pre-seed projekt: Získávání informací z textů. Stránky výzkumné skupiny: http://www.textmining.zcu.cz/ 27

Děkuji za pozornost 28

Hodnocení kvality sumarizátorů Přímé metody – Porovnání lingvistické kvality (ručně) Gramatická správnost Neredundantnost Struktura, souvislost, srozumitelnost – Porovnání obsahu textu s ideálním souhrnem Ko-selekční přístupy Podobnostní míry Nepřímé metody – Kategorizace dokumentů – Vyhledávání informací – Zodpovídání dotazů 29

Hodnocení kvality sumarizátorů – přímé metody 30

Hodnocení kvality sumarizátorů – přímé metody Podobnostní míry - Také základ v IR ale použitelné k porovnání jak s ideálním standardem tak s originálem Kosinová podobnost v prostoru slov s využitím tf-idf vah. Kosinová podobnost v latentním prostoru témat. Po SVD hledá – Podobnost hlavního tématu = kosinus uhlu mezi jejich prvými levými singulárními vektory souhrnu i originálu jsou normalizované – Podobnost n hlavních témat. Pro souhrn i originál po SVD spočteme a Pro každý řádkový vektor matice B S (resp B O ) spočteme jeho délku d kS (d kO ). Ta odpovídá důležitosti k-ho termu v latentním prostoru. Z délek d kS, d kO vytvoříme vektory d S d O. Kosinus jejich úhlu je mírou kvality souhrnu. 31

Hodnocení kvality sumarizátorů – přímé metody ROUGE (Recall-Oriented Understudy for Gisting Evaluation) automatická, založena na podobnosti n-gramů výpočet skóre RSS - referenční souhrny od anotátorů je počet n-gramů v referenčním souhrnu je maximální počet n-gramů, které se společně vyskytují jak v hodnoceném, tak i v referenčním souhrnu Pyramids Semi-automatická metoda založená na tzv. sumarizačních jednotkách SCU. SCU (věty nebo fráze) to jsou části souhrnů tvořených anotátory SCU které jsou v více souhrnech se přiřadí vyšší váha, vzniká SCU pyramida V hodnoceném souhrnu se hledají shody s SCU a sčítají se jejich váhy. 32

Hodnocení kvality sumarizátorů – nepřímé metody Kriteriem je uplatnění souhrnu ve zvolené úloze Kvalita vyhledávání na souhrnech versus na plných textech 1.Vyhledávači se zadá stejný dotaz jak nad kolekcí souhrnů S tak kolekcí plnotextovou D. Pak seřadí výsledky podle jejich relevance. 2.K porovnání pořadí lze použít např. Kendall’s tau nebo Spearman’s rank correlation. Také lze využít údaj o relevanci z vyhledávače a spočítat korelaci relevance Kde x i je relevance dokumentu D i ϵ D k dotazu Q, y i je relevance souhrnného dokumentu S i ϵ S k dotazu Q. a je průměrná relevance dokumentů z D (resp. z S) k dotazu Q. Kvalita kategorizace podle souhrnů namísto plných textů Mírou kvality je přesnost a úplnost či F-skóre zatřídění souhrnů do tříd proti známému správnému zatřídění původních textů 33

Latentní sémantická analýza - poznámky Pokud dokument obsahuje m termů a n vět je matice A o rozměru m × n U = [u ij ] je m × n sloupcově ortonormální matice, jejíž sloupce se nazývají levé singulární vektory Σ = diag(σ 1, σ 2, …,σ n ) je n × n diagonální matice, jejíž diagonální prvky jsou nezáporné singulární hodnoty seřazené sestupně V = [v ij ] je n × n ortonormální matice, jejíž sloupce se nazývají pravé singulární vektory Rozměr matic je redukován na k dimenzí, kde k < n, takže U je redukována na m×k, Σ na k×k a V T k×n Pozn. ortonormální matice má všechny sloupcové vektory délky 1 a navzájem kolmé. Σ 2 je matice vlastních hodnot matice AA T a také A T A. Sloupce U jsou vlastními vektory AA T a sloupce V jsou vlastními vektory A T A. 34

Latentní sémantická analýza 35 termv1v2v3v4v5v6 cosmonaut101000 Armstrong011000 voyage110010 moon100110 track000111 Matice A: Latentní prostor redukovaný na 2 dimenze: dim1 dim2 v1 v2 v5 v4 v3 v6 cosmonautArmstrong voyage moon track

Latentní sémantická analýza a sumarizace Další možnosti modifikace výběru vět do souhrnu s použitím LSA: Pracovat jen se singul. čísly, která jsou větší než zvolený zlomek σ 1 Zařadit počty vět na základě procentního podílu singulárního čísla k součtu singulárních čísel. Kombinace grafové a LSA sumarizační metody: 1.Zkonstruuj matici A (slova proti větám) 2.Proveď SVD faktorizaci matice A 3.Redukuj rozměr matic U,Σ,V na U’Σ’V’ 4.Rekonstruuj odpovídající matici A’=U’Σ’V’ T. Její sloupce představují sémanticky reprezentované věty 5.Z takto reprezentovaných vět vytvoř graf, který zachycuje strukturu textu obdobně jako graf vytvořený z vět vyjádřených na bázi frekvence termů. 6.Na graf aplikuj ranking algoritmus 7.Do výsledku zařaď věty odpovídající nejvýše ohodnoceným uzlům 36

Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek.

Podobné prezentace

Prezentace na téma: "Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek.

Podobné prezentace

Prezentace na téma: "Automatická sumarizace textů 1. Motivace Počet uživatelů Internetu 2,2 miliardy -prosinec 2011, nárůst z 360 milionů v r. 2000. Počet webových stránek."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář