Počítače a porozumění textu

Slides:



Advertisements
Podobné prezentace
ON-LINE TESTY PRO DOKTORANDY NA UK FF PRAHA
Advertisements

Specializovaná databáze pro výzkum astronomie a astrofyziky Mgr. Radka Svaškova, Astronomický ústav AVČR, v. v.i.
Příklady citací v textu
Bakalářská práce FFMU v Brně, Ústav české literatury a knihovnictví
VY_32_INOVACE_4.3.IVT1.15/Oc Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jaroslav Ochodek CZ.1.07/1.5.00/ Tvorba webových.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Komunikace v malé neziskové organizaci AIESEC ČZU Praha Ondřej Fišer, Markéta Klucová.
1 ASOCIACE INOVAČNÍHO PODNIKÁNÍ ČR SPOLEČNOST VĚDECKOTECHNICKÝCH PARKU ČR Mezinárodní spolupráce AIP ČR a SVTP ČR v rámci programu INGO Pavel Švejda řešitel.
Větná polarita v češtině Kateřina Veselovská Žďárek – Hořovice,
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
Strojové učení a přirozený jazyk Luboš Popelínský Fakulta informatiky Masarykova universita v Brně, Botanická 68a, Brno
Historie UML Bc. Lukáš Ščurek. Historie UML 70. léta Vznik prvních objektově orientovaných jazyků První objektově orientové metody anylýzy a návrhu Polovina.
Lego Mindstorms Martin Flusser.
Průzkum stavu projektového řízení v organizacích a státní správě Odpovědný řešitel Doc. Ing. Klára Antlová, Ph.D. Katedra informatiky EF TUL.
Testovací techniky PhDr. Eva Složilová, MA Katedra jazyků
Projekt Podpora stáží a odborných aktivit při inovaci oblasti terciárního vzdělávání na DFJP a FEI Univerzity Pardubice CZ.1.07/2.4.00/ TENTO PROJEKT.
Induktivní logické programování
© 2013 Association for Computing Machinery Introduction to the ACM Digital Library.
PA164 Strojové učení a přirozený jazyk
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , ,
Elektronická pošta Elektronická pošta ( ) je obdobou běžné pošty a umožňuje přijímat a distribuovat dokumenty v textové podobě na jednu nebo více.
Systémy pro zpřístupňování eVŠKP 2008, Brno Ing. Jan Mach, CIKS Vysoká škola ekonomická v Praze Přenos VŠKP pomocí protokolu OAI-PMH.
Rektor Zdroj:
VY_32_INOVACE_4.3.IVT1.11/Oc Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jaroslav Ochodek CZ.1.07/1.5.00/ Tvorba webových.
Karel Dyba, Přednáška pro Liberální institut, Praha OECD a ČR: mezi minulostí a budoucností 1.Historické ohlédnutí 2.Současnost OECD: základní.
Informatika Internet.
Úvod do korpusové lingvistiky 8
Jednoduché vyhledávání – Jednoduchý uživatel Bc. Helena Selucká Knihovna Jiřího Mahena v Brně sekce IVU: Čtenářská gramotnost.
N OVINKY V O FFICE 2010 Miroslav Drška. Historie Office pro Windows Word 1.0 pro MS- DOS – první textový editor, který používal myš Uveden.
Systémy pro podporu managementu 2
Informatika - prezentace
The map scale Mathematical Game 7th grade. Metodické pokyny  Autor: Mgr. Markéta Drobečková  Vytvořeno:  Určeno pro 7.ročník  Matematika.
 Hlavním smyslem citování je zachytit myšlenkové vazby mezi originálním textem a použitými myšlenkami z jiných zdrojů [Boldiš, 2002].  dokázat vlastní.
Sociokulturní struktura populace ČR
Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
Procesní řízení realizace projektů (praxe)
Dokumentace objektů a zveřejnění funkcí
Spolupráce ČR - Slovinsko v aplikované výpočetní geometrii v rámci projektů Kontakt v l Řešitelé : Doc.dr.ing.Ivana Kolingerová, Západočeská univerzita,
KASKÁDOVÉ STYLY 1. 2 PRVNÍ STANDARD (CSS1) BYL PŘEDSTAVEN V ROCE 1996, PROTO STARŠÍ PROHLÍŽEČE ("ČTYŘKOVÉ" VERZE) IE A NN KASKÁDOVÉ STYLY NEPODPORUJÍ.
Výpočetní technika Ing. Jan Popelka, Ph.D. odborný asistent katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
Rozbor nejčastějších chyb v odborných pracích 12. Seminář BW.
Šedá literatura Zuzana Janušová.
Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk a literatura Ročník: 9. ročník Anotace: Daniel Keyes životopis, výklad románu.
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
Výsledky k domácímu úkolu 10: Testování nezávislosti Testování homogenity.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Souběžný návrh hardware a software (Language for Instruction Set Simulator-Oriented Model) MPO ČR, FT-TA3/128, Jazyk a vývojové prostředí pro.
Jak mravenč í kolonie dobývaj í znalosti Daniel Vodák a Luboš Popelínský Laboratoř dobývání znalostí Fakulta informatiky MU Brno
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
CPVŠK 2006, UP Olomouc jde do světa … Iva Prochásková, UK UPa.
Nové technologie pro webové aplikace v cestovním ruchu Nové technologie pro webové aplikace v cestovním ruchu Pavel Čech Unverzita Hradec Králové.
PŘÍSTUPNOST WEBU (ACCESSIBILITY) Filip Rubáček, 2013.
S CENARIO - BASED METHODOLOGY FOR COMPARISON OF THE SOFTWARE TRAFFIC CONTROL AGENTS Seminář DSS – Richard Lipka.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
ELIZA Josef Weizenbaum, 1966.
Vícerozměrný přístup pro indexování XML dat
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
Evoluční algoritmy Info k předmětu Literatura Závěrečná práce.
Umělá inteligence Robin Horniak. Definice Umělá inteligence (Artificial Intelligence), zkráceně UI (AI) věda, která se zabývá tím, jak přinutit stroje.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
7. STRUKTURA ODBORNÉHO TEXTU Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Klára Osolsobě, Hana Žižková
Jiří Svoboda Gymnázium dr. A. Hrdličky v Humpolci
Big Data-Analytics.
Strojové učení a přirozený jazyk
BEZPEČNĚ NA INTERNETU VY_32_INOVACE_13
Z8119 Vyhledávání znalostí v prostorových datech
Citlivost kořenů polynomů
Transkript prezentace:

Počítače a porozumění textu Luboš Popelínský Fakulta informatiky MU popel@fi.muni.cz http://www.fi.muni.cz/~popel http://www.fi.muni.cz/kd Brno 4. ledna 2007

Obsah Historie - umělá inteligence Automatická klasifikace textů Porozumění textu Historie - umělá inteligence Automatická klasifikace textů Rozpoznání nevyžádaných elektronických zpráv (spamů) Komunikace s počítačem v přirozeném jazyce

Všichni muži jsou stejní. V JAKÉM SMYSLU? Pořád nás nčím obtěžují. MUŽETE UVÉST NĚJAKÝ PŘÍKLAD? Ano, poslal mne sem můj přítel. VÁŠ PŘÍTEL VÁS SEM POSLAL? Říká, že jsem skoro pořád sklíčená. JE MI LÍTO, ŽE JSTE SKLÍČENÁ. Je to pravda. Jsem nešťastná. MYSLÍTE, ŽE VÁM TATO NÁVŠTĚVA POMUŽE? Potřebuji nějakou pomoc, to je jisté. ….

Sněhu je málo i v Alpách, lyžuje se hlavně na ledovci (MF Dnes dnes) Praha - Evropa prožívá jednu z nejteplejších zim a sníh chybí lyžařům nejenom v Česku. V Alpách sice většina středisek funguje, ale mají často omezený provoz a musí se spoléhat na technický sníh. Lidé by si tak před cestou měli ověřit, jaké podmínky lyžařské areály nabízejí. „Největší jistotou jsou ledovce,“ říká Ingrid Siederová z pražské pobočky Rakouské národní turistické centrály. V italských střediscích se v současné době lyžuje zhruba na třech čtvrtinách sjezdovek. Podobná je situace i ve Francii.

Porozumění textu Různé úrovně porozumění Zdroj Jazyk Styl - zpráva, úvaha Autor Postoj Téma „Kam jet lyžovat?“

Dartmouth College, Hannover, New Hampshire 1956 John McCarthy et al. V roce 1970 počítač Odhalí nové významné matematické věty Bude velmistrem v šachu Bude schopen komponovat vážnou hudbu na úrovni klasiků Porozumí přirozenému jazyku a bude umět překládat

Dokazování vět 1976 potvrzení důkazu „čtyř barev“ V rámci dokazování bylo třeba klasifikovat určitý počet map. Úkol přesahoval lidské možnosti, počítače jej však již tehdy zvládly Důkaz ale přesto provázejí určité "filozofické" pochybnosti Regulérní matematický důkaz by se neměl dělat výčtem prvků - a řada důkazů takto udělat opravdu nejde. V téže době – základy logického programování, jazyk Prolog

Deep Blue „… počítač bude velmistrem v šachu“ 1996 Gary Kasparov prohrál s šachovým počítačem IBM Deep Blue v simultánní hře

ELIZA Joseph Weizenbaum 1966 Komunikace s počítačem v přirozeném jazyce typu lékař (psychiatr) - pacient

Sněhu je málo i v Alpách, lyžuje se hlavně na ledovci (MF Dnes dnes) Praha - Evropa prožívá jednu z nejteplejších zim a sníh chybí lyžařům nejenom v Česku. V Alpách sice většina středisek funguje, ale mají často omezený provoz a musí se spoléhat na technický sníh. Lidé by si tak před cestou měli ověřit, jaké podmínky lyžařské areály nabízejí. „Největší jistotou jsou ledovce,“ říká Ingrid Siederová z pražské pobočky Rakouské národní turistické centrály. V italských střediscích se v současné době lyžuje zhruba na třech čtvrtinách sjezdovek. Podobná je situace i ve Francii.

Příklad: vícevýznamová slova čeština: koruna (stromu, platidlo, na hlavě), strana, … portugalština: Ela me contou tudo. Ela contou pelo menos vinte pessoas. Ela contou comigo.

Příklad: vícevýznamová slova Ele contou pelo menos vinte pessoas. Ele contou mais que vinte pessoas. Ele contou mais que 10 hommes. O diretor contou com 12 cavalos. A profesora countou com o Luis. 1. Ela me contou tudo. 2. Ela contou pelo menos vinte pessoas. 3. Ela contou comigo.

Klasifikace textu určení autora, žánru, tématu na základě příkladů a protipříkladů články z českých novin

Klasifikace českých novinových článků převážně Mladá fronta určení autora – rubrika Názory, Steigerwald, Komárek, Bendová určení rubriky – titulní strana, Názory, Lidé určení tématu/postoje – jaderné elektrarny, pro/proti vstupu do EU, pro/proti Klausovi

Metoda Vytvoř seznam všech (důležitých) slov v sadě dokumentů Reprezentuj dokument jako seznam dvojic (slovo,výskyt), kde výskyt=, pokud se slovo v dokumentu vyskytuje, jinak 0. Označ dokumenty daného autora (pozitivní příklady) A dokumenty ostatních autorů jako negativní příklady Použij učící algoritmus

Výsledky počet správně klasifikovaných dokumentů > 90% při rozpoznávání autora a rubriky ~ 70% při rozpoznávání tématu nebo postoje

Diskuse Rozumí počítač těmto textům? Proč to funguje? Kdy to fungovat nebude?

Je to vůbec k něčemu užitečné? filtrování zajímavých odborných článků filtrování „závadných“ webovských stránek A především filtrování nevyžádané elektronické pošty - spamů

Filtrování nevyžádané elektronické pošty Spam = pošta nabízející nevyžádané produkty a služby Filtrování obvykle: člověkěm vytvořená pravidla (SpamAssassin) Hlavní nevýhoda: stejná pravidla pro každého Alternativa: použít učící program Např. DSPAM http://dspam.nuclearelephant.com Posílat mu obdržené spamy a možná hamy (tj. ne-spamy) Program analyzuje obsah těchto zaslaných zpráv Přesnost 99.5\% - 99.95\%, = 1 chyba na každých 200 to 2000 zpráv

Příklad 1 „počítačová hra“ Příklad 1 „počítačová hra“. Můžeme se naučit roboty rozlišit na základě krátké zkušenosti? přátelští nepřátelští

Příklad 1 „počítačová hra“ Příklad 1 „počítačová hra“. Můžeme se naučit roboty rozlišit na základě krátké zkušenosti? přátelští nepřátelští

Příklad 1: Roboti a atributový popis tvar hlavy úsměv ozdoba krku tvar těla předmět v ruce přátelský Kruh ne kravata čtverec šavle Čtverec ano motýlek nic Trojúhelník balón trojúhelník květina balon

Příklad 1: hypotéza a její testování

ELIZA Joseph Weizenbaum http://en.wikipedia.org/wiki/Joseph_Weizenbaum http://jerz.setonhill.edu/if/canon/eliza.htm

Další informace Association of Computational Linguistics SIG on Natural Language Learning corpora mailling list http://www.hit.uib.no/corpora/ konference CoNLL; ACL,EACL,NAACL, COLING; TSD Text Mining Ws KDD Conf. D.Mladenič http://www-ai.ijs.si/DunjaMladeNone/home.html J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering, http://ecmlpkdd.cs.helsinki.fi/tutorials.html

Děkuji Janu Blaťákovi a Peterovi Krutému za pomoc. Díky za pozornost. Děkuji Janu Blaťákovi a Peterovi Krutému za pomoc.

Literature (Agrawal93) Agrawal R., Imielinski T., Swami A.:Mining association rules between sets of items in large databases.Proc. of ACM SIGMOD Conference on Management of Data, 1993. (Aleph) http://web.comlab.ox.ac.uk/oucl/research/areas/machlearn/Aleph/aleph.html (Bennett00) K. P. Bennett and C. Campbell: Support Vector Machines: Hype or Hallelujah? SIGKDD Explorations Newsletter of the ACM Special Interest Group on Knowledge Discovery And Data Mining December 2000. Volume 2, Issue 2 pp 1-13 http://www.acm.org/sigs/sigkdd/explorations/issue2-2/contents.htmBennett (Cristianini00) Cristianini N., Shawe-Taylor J.:An Introduction to Support Vector Machines and other kernel-base learning methods. Cambridge University Press,2000. (Cussens97). Cussens J. : Part­of­speech tagging using Progol. In Inductive Logic Programming: Proceedings of the 7th Intl.Ws(ILP­97). LNAI 1297, pages 93–108, 1997 Cussens J., Džeroski S.(Eds.) Learning Language in Logic, Springer 2000 (Einborg 98) Eineborg, M. and Lindberg, N. Induction of constraint grammar­rules using Progol. In Inductive Logic Programming: Proceedings of the 8th International Con­ ference (ILP­98). LNCS Spinger 1998

(Feldman99) Feldman R. :Mining unstructured data (Feldman99) Feldman R.:Mining unstructured data.Tutorial 5th ACM SIGKDD conference 1999, http://doi.acm.org/10.1145/312179.312192 (Hajic98)Hajič J., Hladká B.:Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In Proceedings of EACL 1998. (Forman02) Forman G.: Choose Your Words Carefully: An Empirical Study of Feature Selection Metrics for Text Classification. Proc of 6th Conf PKDD 2002, LNAI 2413, Springer. (Hajič01)Hajič J., Krbec P., Květoň P., Oliva K., Petkevič V.: Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of ACL/EACL 2001, Toulouse}, pages 260--267, 2001. (Hassoun95) M.Hassoun: Fundamentals of Artificial Neural Network. MIT Press, 1995. (Jelinek97) Jelinek F.: Statistical Methods for Speech Recognition. MIT Press 1997 (Křivánková02) Křivánková, L., Očko, M., Popelínský, L., Boček, P.: Fast choice of separation conditions for analyses by capillary zone electrophoresis using an information system Xemic. Electrophoresis 2002, 23, 3364-3371. (LLL99) Cussens J., Džeroski S.(eds.) Proceedings of the 1st Ws on LLL,Bled, Slovenia, 1999.

(LLL00) Nedellec C.(ed.) Proceedings of the 2nd Ws on LLL, Lisboa, Portugal, 2000. (LLL01) Nepil M., Popelínský L. (eds.) Proceedings of the 3rd Ws on LLL, Strasbourg, 2001. (Mitchell97) Mitchell T.M.: Machine Learning. McGraw Hill, New York, 1997. (Mjartan et al.) (Mugleton94) Muggleton S. and De Raedt L.:Inductive Logic Programming: Theory And Methods. J. Logic Programming 1994:19,20:629-679. (Nepil 01) Nepil M., Popelinsky L., Zackova E.:Part-of-Speech Tagging by Means of Shallow Parsing, ILP and Active Learning. In Proc. of 3rd Ws on Learning Language in Logic(LLL), Strasbourg, 2001. (Pala et al. 97) Pala, K., Rychlý P., Smrž, P. (1997). DESAM - annotated corpus for czech. In Plášil F., Jeffery K.G.(eds.): Proceedings of SOFSEM'97, LNCS 1338, pages 60–69.

(Pavelek00) Pavelek, T. , Popelínský L. , Ptacnik, T (Pavelek00) Pavelek, T., Popelínský L., Ptacnik, T. :On Disambiguation in Czech Corpora.TR Faculty of Informatics MU, 2000 (Sedláček01) Sedláček R., Smrž P.:Automatic Processing of Czech Inflectional and Derivative Morphology. In Proc. of 4th Intl. Conf. TSD 2001, LNAI 1902, 2001, (Šmerk03) Šmerk P.: Aktivní učení pravidel pro morfologickou desambiguaci. Dipl.práce FI MU Brno 2003 (Tkach98) Tkach D.: Text Mining Technology. Turning Information Into Knowledge. A White Paper from IBM. IBM Software Solutions, Feb 17, 1998. (Žáčková00) Žáčková00 E., Popelinsky L.,Nepil M.:Recognition and tagging of compound verb groups in Czech.Proc. of 2nd Ws LLL-2000 (Žáčková 02) Žáčková E.: Parciální syntaktická analýza (češtiny). Dizertace FI MU Brno, 2002 (Žižka et al.02) Žižka J., Bourek A.: Automated Selection of Interesting Medical Text Documents by the TEA Text Analyzer. 3rd Conf.on Intelligent Text Processing and Computational Linguistics (CICLing), Mexico City,Springer-Verlag, 2002, LNCS.

Additional references Cussens, J., Džeroski, S., and Erjavec, T. (1999). Morphosyntactic tagging of Slovene using Progol. In Deroski, S. and Flach, P., editors, Inductive Logic Programming: Proc. of the 9th International Workshop (ILP­99), Bled, Slovenia. Springer­Verlag. Džeroski, S. and Erjavec, T. (1997). Induction of Slovene nominal paradigms. In Inductive Logic Programming: Proceedings of the 7th International Workshop (ILP­ 97). LNAI 1297, pages 141–148. Springer. Popelínský L. and Pavelek T. Mining lemma disambiguation rules from Czech corpora In Proc. of 3rdEur. Conf. PKDD'99, Prague Czech Republic 1999. LNCS 1704 pp.498–503, 1999. Popelínský L. and Pavelek T. Ptáčník. T. Towards disambiguation in Czech corpora. In Proc. of the 1st Learning Language in Logic Workshop LLL’99, Bled, 1999. Zavrel, J. and Daelmans, W. (1998). Recent advances in memory­based part­of­speech tagging. TechNoneal report, ILK/Computaional Linguistics, Tilburg University.