Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Projektové zadania.

Podobné prezentace


Prezentace na téma: "Projektové zadania."— Transkript prezentace:

1 Projektové zadania

2 Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API
Projekty - otázky Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API Používa sociálnu sieť, akú? (facebook, linkedin, delicious, orkut, hi5) Member of mailinglists Gmail account? Google služby iné ako web search ... aké? Edituje wikipédiu alebo iné wiki. Aké? Programuje v akom programovacom jazyku ... Kto ovláda na nejakej úrovni regexes? Graové algoritmy? Vyhľadávanie informácií Bratislava, 19.september 2011

3 Čoho sa vyvarovať Zabudnite na databázu (nepoužívať) nepoužívať rar
Sme na IR Ak potrebujete nejaký zoznam, uložiť do text fajlu alebo XML a natiahnuť do pamäti. Väčšie dáta treba indexovať nepoužívať rar Zip nepoužívať XPath alebo metódy na extrakciu podľa presnej štruktúry stránky Vyhľadávanie informácií Bratislava, 19.september 2011

4 Čo je dôležité !Dáta, dáta a ešte raz dáta! Vyhodnotenie
Treba riešiť hneď od začiatku Už na prvej konzultácii treba mať príklady 3-5 dokumentov/textov na ktorých chcem problém riešiť. Vyhodnotenie Treba vyhodnotiť úspešnosť riešenia Recall, precision, .... Vyhľadávanie informácií Bratislava, 19.september 2011

5 Projekty irLessons gSemSearch Ontea
k témam výučby Regex, crawl, segmentácia, extrakcia gSemSearch Grafy spread of activation Ontea Regex (editor, groups) NE stanford Segmentacia Vyhľadávanie informácií Bratislava, 19.september 2011

6 Projekty súvisiace s tvorbou učebného textu (1)
Jednoduchá implementácia problému (témy), ktorá funguje aspon pre zadané príklady Oprava, prepis, doladenie existujúceho kódu Dôkladne odladený a komentovaný kód, naprogramovateľný rozšíriteľným spôsobom, extendovatelne classy, interfejsy ... Témy: Sťahovanie Indexovanie Spracovanie liniek Segmentácia Extrakcia Regulárne výrazy Vyhľadávanie PageRank ... Na každú tému učebného textu môžu byť po 2 projekty = cca projektov. Vyhľadávanie informácií Bratislava, 19.september 2011

7 Projekty súvisiace s tvorbou učebného textu (2)
Kód sa bude vytvárať na sourceforge.net Treba sa zaregistrovať Cez SVN treba updatovať projekt Projekt sa vola irLessons Základné dáta Vyhľadávanie informácií Bratislava, 19.september 2011

8 Projekt: Regex editor Oprava/úprava/rozšírenie existujúceho regex v Ontea a irLessons vytvorenie jednoduchého editora na regulárne výrazy keď bude môcť užívateľ cez Java aplikáciu testovať regulárne výrazy na načítanom txt súbore.  Vypísanie extrahovaných údajov aj skupín (groups) Integracia makier z ontea aj s prikladmi textov a spustenim na nich v description. Vytvaranie a editacia makier pomocou nastroja. Vyhľadávanie informácií Bratislava, 19.september 2011

9 Projekt: Štatistický prekladač
Na základe rôznych jazykových verzií stránok vytvoriť prekladač na základe štatistických údajov.  Alebo vytvorenie prekladača slov na základe spracovania anchor textov. Je možné riešiť nasledovné projekty: prekladač slovenčina <=> angličtina na základe anchor textov prekladač slovenčina <=> čeština na základ hociakých textov. Pri podobných jazykoch by mohol byť menší problém s tým že nevieme rozpoznať slovné druhy (POS taging) Systém MOSES Príprava dát Vyhľadávanie informácií Bratislava, 19.september 2011

10 Projekt: Gazetteer Vytvorenie podobného gazeteera (slovnika) pre information extraction ako ma GATE. Vlastnosti: lineárna zlozitosť (iba jeden prechod textom) definovanie oddeľovača slov (tokenizatora) na základe písmen a načítanie gazeteera do stromu v pamäti v tejto forme generovanie aliasov pomocou regularneho vyrazu. Napr. v slovniku je "Meno Priezvisko" a bude hľadať aj "M. Priezvisko" Vyhľadávanie informácií Bratislava, 19.september 2011

11 Projekt: Podpora slovenskeho vyhladávania
analyzer ktorý rieši diakritiku (napr vyhadzuje), spellcheck aj bez diakritiky - urobiť nad lucene Lematizator/stemer tvoreny podla ruskeho pre lucene Vyhľadávanie informácií Bratislava, 19.september 2011

12 Projekt: Extrakcia faktov
Extrakcia faktov zo slovenského webu alebo iných textových dokumentov. Niečo na spôsob knowItAll ale pre slovenčinu. Napríklad zo stránky FIIT vytiahnuť zoznam učiteľov, predmetov alebo študentov. Možno jednoduchý príklad. Proste vytiahnuť fakty ktoré sa nedajú nájsť z jedného dokumentu. Iný príklad je napríklad vytiahnuť zoznam sklenárstiev v Bratislave. zoznam ľudí zo stránok ústavou SAV, automatické porovnanie so SAV.sk Vyhľadávanie informácií Bratislava, 19.september 2011

13 Projekt: Iný index Použiť lucene na indexovanie iných ako textových dát. Tvorba termov z hudby, videa, obrázkov, slov? Podobne ako na mobiloch pri použití T9, slovo „ahoj“ je v indexe reprezentované termom „2465“ Vyhľadávanie informácií Bratislava, 19.september 2011

14 Projekt: Jednoduchý sťahovač
Úprava projektu v irLessons reimplementacia Java, začne z + definovanej URL. Vyhladava linky a stahuje cez jeden zasobnik pomocou algoritmov do hlbky alebo sirky.  Ulozi dokumenty do adresara a nazve ich podla <title> v <head> tagu + time stamp alebo podla URL transformovanej na nieco.html Ukladac dat sa da extendnut Objavovac liiek sa da extendnut algoritmus na poradie sa da extendnut implementacia musi byt cista jednoducha, zopar java classov Vyhľadávanie informácií Bratislava, 19.september 2011

15 Projekt: Rozpoznávanie slovných druhov
Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, OpenOffice a pod.) alebo založený na štatistickom princípe. Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. Vyhľadávanie informácií Bratislava, 19.september 2011

16 Projekt: Fazetový a fultextový prehliadač
Kto má prístup k databáze nejakých produktov alebo nejaký rozsiahlejší web. Treba urobiť fultext toho webu s kombináciou fazetového prehliadača. (Podobne ako na amazon.com a iných) Je to možné urobiť pomocou systému Apache Sorl. Ide najmä o konfiguráciu a napojenie systému a jeho odladenie. Vyhľadávanie informácií Bratislava, 19.september 2011

17 Projekt: Spread Activation
spread activation algoritmus (pozri wikipediu) treba naprogramovať a použiť na nejakých dátach. Napr na extrakcii z ov.  Vyhľadávanie informácií Bratislava, 19.september 2011

18 Projekt: Tag Cloud Generovanie Tag cloudu (pozri wikipediu) z webstránky a jej podstránok. Teória okolo TF-IDF, stop slová, lematizácia.... Vyhľadávanie informácií Bratislava, 19.september 2011

19 Projekt: Name Entity Recognition
Machine Learning Rozpoznávanie mien (osoby, mesta, organizácie, ...) pomocou OpenNLP 2 projekty - jeden rozpoznávanie na Slovenskom a anglickom texte, druhý trénovanie na Slovenskom Extrakcia Anchor Text Pomocou extrakcie anchor textov liniek (text v ramci Tagu <a href>TEXT</a>) robiť Named Entity recognition a Aliasy. Vyhľadávanie informácií Bratislava, 19.september 2011

20 Projekt: Analyzer and Search
Analyzer ktorý vyhodí diakritiku použitie vo vyhľadávači ov alebo fajlov na disku spolu so spell checkom. Analyzer ktorý vie analyzovať takéto LuceneAnalyzer, lucene_analyzer, lucene-analyzer, Testovacia sada premenné zo zdrojového kódu tak aby sa dali nájsť aj podľa jednotlivých slov Ontológia Dáta z LinkedData Vyhľadávanie informácií Bratislava, 19.september 2011

21 LinkedData Hľadanie relácií Indexovanie a vyhľadávanie entít
Textovo Grafovo Treba si vziať časť dát DBLP Wikipédia Geo dáta Vyhľadávanie informácií Bratislava, 19.september 2011

22 Projekt: Advanced email search
Vyhladavac pomocou socialnej siete-grafu extrahovaneho z u. Pomocou existujuceho softveru (Ontea alebo acoma =  SocNet)  sa extrahuje graph. Nad nim urobit vyhladavanie pomocou spread activation ?+lucene kde budu fazety podla objavenych typov objektov. Existuje prototyp ktory treba prekopat a extendnut Vyhľadávanie informácií Bratislava, 19.september 2011

23 Graph SGDB neo4j Vyhľadávanie informácií Bratislava, 19.september 2011

24 Projekt: Vyhľadávanie s využitím anotácií (tagov)
V systémoch ako delicious.com, twiter alebo youtube uzivatelia generujú množstvo tagov ktoré v kombinácii s klasickými technikami vyhľadávanie (indexovanie) možu priniesť lepšie výsledky.  Úlohou je vytvoriť vyhľadávač ktorý tieto tag-y využije. Vyhľadávanie informácií Bratislava, 19.september 2011

25 Projekt: Extrakcia udalostí
extrahovanie udalostí z ov alebo webových stránok. dátum, čas miesto názov udalosti Vyhľadávanie informácií Bratislava, 19.september 2011

26 Projekt: Odkazový vyhľadávač
Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup. Vyhľadávanie informácií Bratislava, 19.september 2011

27 Projekt: Distance Search
Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov. Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL  Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok využitie ontológie Slovenska, Sesame Google Maps Extrakcia informácií – ulice, PSC, GPS súradnice Môže byť rozdelené na viac projektov: Iba extrakcia Riešenie spätného geokódovania Nutch + Hadoop Vyhľadávanie informácií Bratislava, 19.september 2011

28 Projekt: Triedenie a zoraďovanie
Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. OPIC, PageRank, HITS Vytvorenie vlastného grafu odkazov na objekty v dokumentoch Vyhľadávanie informácií Bratislava, 19.september 2011

29 Projekt: Triedenie a zoraďovanie
Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie iných dát ako stránok, zdôvodnenie, vyhodnotenie. Vyhľadávanie v archívoch Spread of activation alebo iné grafové algoritmy. Vyhľadávanie informácií Bratislava, 19.september 2011

30 Projekt: Indexovanie PDF a Word dokumentov
Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu. PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word  Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu Napríklad indexovanie PDF a Word súborov z časopisov SAV , sú tp dostatočne heterogénne dáta. Zistenie názvu článku z linky. Vyhľadávanie informácií Bratislava, 19.september 2011

31 Projekt: Textové operácie
Slovenský Lematizér alebo Stemmer Egothor, Stempel, JULŠ, Tvaroslovník, ... Snowball => java => pre lucene Google approach pre slovenský stemmer Zistiť čo najviac experimentovať len napísať a vyhodnotiť Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská Tu budú možné iba projekty ktoré pôjdu ďalej ako projekty v minulých rokoch. Riešenie stemovania zaujímavými metódami napr. štatistické metódy so spracovaním predlôh textu vyhadzovanie samohlások. Nemôžu byť projekty kde sa bude riešiť stemer pomocou definovania pravidiel Vyhľadávanie informácií Bratislava, 19.september 2011

32 Projekt: Sociálne siete
OpenSocial API ?Prispôsobenie výsledkov vyhľadávania? Vlastný nápad kde bude extrakcia metadát alebo vyhľadávanie a kombinácia so sociálnou sieťou. E.g. vyhľadávanie vo fotkách friendov Gadget pre orkut, hi5 ... Vyhľadávanie informácií Bratislava, 19.september 2011

33 Projekt: Sociálna sieť a email
Extrakcia sociálnej siete z u. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní. Extrakcia viacdimenzionálnej sociálnej siete Ľudia, projekty, geografické lokality, kontaktné údaje Práca so sieťou v IBM Gallaxy Iná navigácia v sieti Zobrazenie 5-10 najčastejších termov v interakciách Tvorba grafu socialnej siete, Xobni, IBM Gallaxy Spojenie semantickeho modelu a Socialnej siete Semanticky search Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy Vyhľadávanie informácií Bratislava, 19.september 2011

34 Indexovanie a vyhľadávanie emailov
Projekt: search Indexovanie a vyhľadávanie ov Acoma + lucene + jednoduché JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie Spracovanie mailov pomocou JavaMail library Zameranie na attachmenty, text alebo utrieďovaniu funkciu Overenie! E.g. gmail versus vytvorená implementácia Source: mailing listy, vlastné y, mbox, gmail Tu bude musieť byť nejaká idea navyše oproti doterajším projektom. Doplním nabudúce alebo treba prísť s nápadom. Vyhľadávanie informácií Bratislava, 19.september 2011

35 Projekt: Extrakcia informácií
Geografické dáta Kontaktné info ( , tel) Osoby Firmy a organizácie Udalosti – kalendár, Doodle Zdrojové dáta y Správy Web Regulárne výrazy GATE, Ontea, IBM Gallaxy Gazzeters Vyhľadávanie informácií Bratislava, 19.september 2011

36 Projekt: Slovenské domény
Spracovanie slovenských domén Zoradit podla poctu vlastnikov, registratorov Aj zmeny v registratoroch, vlastnikoch ... Spracovanie historie – stiahnute subory za urcite obdobie. Web aplikácia s výstupom Max 1 projekt s dobrým napadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011

37 Projekt: Prieskum Trhu
Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle) Porovnanie podla ceny napr. Vybrat konkretnu domenu. Napr. Webhosting, cena, veľkosť priestoru, počet ov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL .... Môžem poskytnúť kód extrakcie Texttu z HTML pomocou NekoHTML Vyhľadávanie informácií Bratislava, 19.september 2011

38 Projekt: Informácie o firmách
Extrakcia informácií Sídlo, webstránka, obchodný register, Kontaktné údaje, .... oblasť činnosti Max 2 projekty s dobrým nápadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011

39 Projekt: Informácie o ľuďoch
Extrakcia informácií Sídlo, webstránka, sociálne siete, Kontaktné údaje, .... Zamestnanie. Graf vzťahov k objektom (firmy, ľudia, geografické miesta ...) projekty s dobrým nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011

40 Projekt: Logs and GeoIP
Spracovanie log suborov pomocou extrakcie informacii. Zistit co najviac udajov. E.g. IP => Geo, Krajiny Užívatelia - rozdelenie Typy logov: mailserver, web server, DNS server POP3 server IMAP Výstup tabuľky alebo RRD database, grafy projekty s inovatívnym nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011

41 Projekt: MapReduce Hadoop, HDFS, Htable, Hive, Pig
Hocaký problém z IR alebo IE portovať na Hadoop Rozbehanie Nutch pod hadoop Extrakcia informácií large scale (e.g. regex) Spracovanie logov Použitie HTable Testovanie na Hadoop Clusteri na UISAV Vyhľadávanie informácií Bratislava, 19.september 2011

42 Anotácia textu pomocou sémantického modelu
RDF(S) alebo OWL existujúci semantický model treba rozobrať tak aby sa tokenizovali názvy konceptov a inštancií v ontológií ako aj ich literal vlastností. Názvy by sa mali tokenizovať spôsobom rozdelenia názvu napr. DataIntegrationModel na 3 termy data, integration a model. Tieto by sa indexovali lucenom. Vyhľadávanie informácií Bratislava, 19.september 2011

43 Ontea: Extrakcia Informácií rozšírenia
HTML, PDF, DOC vylepšenie preklápania kódovania a formátovania do plain text Automatické vyhodnocovanie extrakcie Zlepšenie GUI Napr. pri tvorbe a testovaní nového regex-u Release a dokumentácia Tvorba nových metód extrakcie alebo transformerov key-value párov ktoré zlepšujú výsledky Vyhľadávanie informácií Bratislava, 19.september 2011

44 Extrakcia udalostí z emailov
dátum, perióda Čo, názov Miesto ... Pridanie do kalendára Google Udalosti typu Stretnutia Letenky, check-in Ubytovanie ... Vyhľadávanie informácií Bratislava, 19.september 2011

45 Extrakcia, emaily Zistenie dátumu z nejasných časových dát.
Stretneme sa v stredu Zistenie príslušnosti kontaktných údajov (adresy, tel čísla a y) k entitám ako ľudia a organizácie Vyhľadávanie informácií Bratislava, 19.september 2011


Stáhnout ppt "Projektové zadania."

Podobné prezentace


Reklamy Google