Projektové zadania
Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API Projekty - otázky Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API Používa sociálnu sieť, akú? (facebook, linkedin, delicious, orkut, hi5) Member of mailinglists Gmail account? Google služby iné ako web search ... aké? Edituje wikipédiu alebo iné wiki. Aké? Programuje v akom programovacom jazyku ... Kto ovláda na nejakej úrovni regexes? Graové algoritmy? Vyhľadávanie informácií Bratislava, 19.september 2011
Čoho sa vyvarovať Zabudnite na databázu (nepoužívať) nepoužívať rar Sme na IR Ak potrebujete nejaký zoznam, uložiť do text fajlu alebo XML a natiahnuť do pamäti. Väčšie dáta treba indexovať nepoužívať rar Zip nepoužívať XPath alebo metódy na extrakciu podľa presnej štruktúry stránky Vyhľadávanie informácií Bratislava, 19.september 2011
Čo je dôležité !Dáta, dáta a ešte raz dáta! Vyhodnotenie Treba riešiť hneď od začiatku Už na prvej konzultácii treba mať príklady 3-5 dokumentov/textov na ktorých chcem problém riešiť. Vyhodnotenie Treba vyhodnotiť úspešnosť riešenia Recall, precision, .... Vyhľadávanie informácií Bratislava, 19.september 2011
Projekty irLessons gSemSearch Ontea k témam výučby http://irlesons.sourceforge.net/ Regex, crawl, segmentácia, extrakcia gSemSearch http://gsemsearch.sourceforge.net/ Grafy spread of activation http://ikt.ui.sav.sk/esns/ Ontea http://ontea.sourceforge.net/ Regex (editor, groups) NE stanford Segmentacia Vyhľadávanie informácií Bratislava, 19.september 2011
Projekty súvisiace s tvorbou učebného textu (1) Jednoduchá implementácia problému (témy), ktorá funguje aspon pre zadané príklady Oprava, prepis, doladenie existujúceho kódu Dôkladne odladený a komentovaný kód, naprogramovateľný rozšíriteľným spôsobom, extendovatelne classy, interfejsy ... Témy: Sťahovanie Indexovanie Spracovanie liniek Segmentácia Extrakcia Regulárne výrazy Vyhľadávanie PageRank ... Na každú tému učebného textu môžu byť po 2 projekty = cca 20-25 projektov. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekty súvisiace s tvorbou učebného textu (2) Kód sa bude vytvárať na sourceforge.net Treba sa zaregistrovať Cez SVN treba updatovať projekt Projekt sa vola irLessons http://irlesons.sourceforge.net/ Základné dáta http://irlesons.sourceforge.net/data/1.html Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Regex editor Oprava/úprava/rozšírenie existujúceho regex v Ontea a irLessons vytvorenie jednoduchého editora na regulárne výrazy keď bude môcť užívateľ cez Java aplikáciu testovať regulárne výrazy na načítanom txt súbore. Vypísanie extrahovaných údajov aj skupín (groups) Integracia makier z ontea aj s prikladmi textov a spustenim na nich v description. Vytvaranie a editacia makier pomocou nastroja. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Štatistický prekladač Na základe rôznych jazykových verzií stránok vytvoriť prekladač na základe štatistických údajov. Alebo vytvorenie prekladača slov na základe spracovania anchor textov. Je možné riešiť nasledovné projekty: prekladač slovenčina <=> angličtina na základe anchor textov prekladač slovenčina <=> čeština na základ hociakých textov. Pri podobných jazykoch by mohol byť menší problém s tým že nevieme rozpoznať slovné druhy (POS taging) Systém MOSES http://www.statmt.org/moses/ Príprava dát Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Gazetteer Vytvorenie podobného gazeteera (slovnika) pre information extraction ako ma GATE. Vlastnosti: lineárna zlozitosť (iba jeden prechod textom) definovanie oddeľovača slov (tokenizatora) na základe písmen a načítanie gazeteera do stromu v pamäti v tejto forme generovanie aliasov pomocou regularneho vyrazu. Napr. v slovniku je "Meno Priezvisko" a bude hľadať aj "M. Priezvisko" Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Podpora slovenskeho vyhladávania analyzer ktorý rieši diakritiku (napr vyhadzuje), spellcheck aj bez diakritiky - urobiť nad lucene Lematizator/stemer tvoreny podla ruskeho pre lucene Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Extrakcia faktov Extrakcia faktov zo slovenského webu alebo iných textových dokumentov. Niečo na spôsob knowItAll ale pre slovenčinu. Napríklad zo stránky FIIT vytiahnuť zoznam učiteľov, predmetov alebo študentov. Možno jednoduchý príklad. Proste vytiahnuť fakty ktoré sa nedajú nájsť z jedného dokumentu. Iný príklad je napríklad vytiahnuť zoznam sklenárstiev v Bratislave. zoznam ľudí zo stránok ústavou SAV, automatické porovnanie so SAV.sk Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Iný index Použiť lucene na indexovanie iných ako textových dát. Tvorba termov z hudby, videa, obrázkov, slov? Podobne ako na mobiloch pri použití T9, slovo „ahoj“ je v indexe reprezentované termom „2465“ Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Jednoduchý sťahovač Úprava projektu v irLessons reimplementacia Java, začne z + definovanej URL. Vyhladava linky a stahuje cez jeden zasobnik pomocou algoritmov do hlbky alebo sirky. Ulozi dokumenty do adresara a nazve ich podla <title> v <head> tagu + time stamp alebo podla URL transformovanej na nieco.html Ukladac dat sa da extendnut Objavovac liiek sa da extendnut algoritmus na poradie sa da extendnut implementacia musi byt cista jednoducha, zopar java classov Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Rozpoznávanie slovných druhov Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, OpenOffice a pod.) alebo založený na štatistickom princípe. Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Fazetový a fultextový prehliadač Kto má prístup k databáze nejakých produktov alebo nejaký rozsiahlejší web. Treba urobiť fultext toho webu s kombináciou fazetového prehliadača. (Podobne ako na amazon.com a iných) Je to možné urobiť pomocou systému Apache Sorl. Ide najmä o konfiguráciu a napojenie systému a jeho odladenie. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Spread Activation spread activation algoritmus (pozri wikipediu) treba naprogramovať a použiť na nejakých dátach. Napr na extrakcii z emailov. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Tag Cloud Generovanie Tag cloudu (pozri wikipediu) z webstránky a jej podstránok. Teória okolo TF-IDF, stop slová, lematizácia.... Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Name Entity Recognition Machine Learning Rozpoznávanie mien (osoby, mesta, organizácie, ...) pomocou OpenNLP 2 projekty - jeden rozpoznávanie na Slovenskom a anglickom texte, druhý trénovanie na Slovenskom Extrakcia Anchor Text Pomocou extrakcie anchor textov liniek (text v ramci Tagu <a href>TEXT</a>) robiť Named Entity recognition a Aliasy. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Analyzer and Search Analyzer ktorý vyhodí diakritiku použitie vo vyhľadávači emailov alebo fajlov na disku spolu so spell checkom. Analyzer ktorý vie analyzovať takéto LuceneAnalyzer, lucene_analyzer, lucene-analyzer, Testovacia sada premenné zo zdrojového kódu tak aby sa dali nájsť aj podľa jednotlivých slov Ontológia Dáta z LinkedData Vyhľadávanie informácií Bratislava, 19.september 2011
LinkedData Hľadanie relácií Indexovanie a vyhľadávanie entít Textovo Grafovo http://linkeddata.org/ Treba si vziať časť dát DBLP Wikipédia Geo dáta Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Advanced email search Vyhladavac pomocou socialnej siete-grafu extrahovaneho z emailu. Pomocou existujuceho softveru (Ontea alebo acoma = emailSocNet) sa extrahuje graph. Nad nim urobit vyhladavanie pomocou spread activation ?+lucene kde budu fazety podla objavenych typov objektov. Existuje prototyp ktory treba prekopat a extendnut http://ikt.ui.sav.sk/esns/ Vyhľadávanie informácií Bratislava, 19.september 2011
Graph SGDB neo4j Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Vyhľadávanie s využitím anotácií (tagov) V systémoch ako delicious.com, twiter alebo youtube uzivatelia generujú množstvo tagov ktoré v kombinácii s klasickými technikami vyhľadávanie (indexovanie) možu priniesť lepšie výsledky. Úlohou je vytvoriť vyhľadávač ktorý tieto tag-y využije. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Extrakcia udalostí extrahovanie udalostí z emailov alebo webových stránok. dátum, čas miesto názov udalosti Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Odkazový vyhľadávač Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Distance Search Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov. Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok využitie ontológie Slovenska, Sesame Google Maps Extrakcia informácií – ulice, PSC, GPS súradnice Môže byť rozdelené na viac projektov: Iba extrakcia Riešenie spätného geokódovania Nutch + Hadoop Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Triedenie a zoraďovanie Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. OPIC, PageRank, HITS Vytvorenie vlastného grafu odkazov na objekty v dokumentoch Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie iných dát ako stránok, zdôvodnenie, vyhodnotenie. Vyhľadávanie v email archívoch Spread of activation alebo iné grafové algoritmy. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Indexovanie PDF a Word dokumentov Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu. PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu Napríklad indexovanie PDF a Word súborov z časopisov SAV , sú tp dostatočne heterogénne dáta. Zistenie názvu článku z linky. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Textové operácie Slovenský Lematizér alebo Stemmer Egothor, Stempel, JULŠ, Tvaroslovník, ... Snowball => java => pre lucene Google approach pre slovenský stemmer Zistiť čo najviac experimentovať len napísať a vyhodnotiť Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská Tu budú možné iba projekty ktoré pôjdu ďalej ako projekty v minulých rokoch. Riešenie stemovania zaujímavými metódami napr. štatistické metódy so spracovaním predlôh textu vyhadzovanie samohlások. Nemôžu byť projekty kde sa bude riešiť stemer pomocou definovania pravidiel Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Sociálne siete OpenSocial API ?Prispôsobenie výsledkov vyhľadávania? Vlastný nápad kde bude extrakcia metadát alebo vyhľadávanie a kombinácia so sociálnou sieťou. E.g. vyhľadávanie vo fotkách friendov Gadget pre orkut, hi5 ... Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Sociálna sieť a email Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní. Extrakcia viacdimenzionálnej sociálnej siete Ľudia, projekty, geografické lokality, kontaktné údaje Práca so sieťou v IBM Gallaxy Iná navigácia v sieti Zobrazenie 5-10 najčastejších termov v interakciách Tvorba grafu socialnej siete, Xobni, IBM Gallaxy Spojenie semantickeho modelu a Socialnej siete Semanticky search Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy Vyhľadávanie informácií Bratislava, 19.september 2011
Indexovanie a vyhľadávanie emailov Projekt: Email search Indexovanie a vyhľadávanie emailov Acoma + lucene + jednoduché JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie Spracovanie mailov pomocou JavaMail library Zameranie na attachmenty, text alebo utrieďovaniu funkciu Overenie! E.g. gmail versus vytvorená implementácia Source: mailing listy, vlastné emaily, mbox, gmail Tu bude musieť byť nejaká idea navyše oproti doterajším projektom. Doplním nabudúce alebo treba prísť s nápadom. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Extrakcia informácií Geografické dáta Kontaktné info (email, tel) Osoby Firmy a organizácie Udalosti – kalendár, Doodle Zdrojové dáta Emaily Správy Web Regulárne výrazy GATE, Ontea, IBM Gallaxy Gazzeters Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Slovenské domény Spracovanie slovenských domén www.sk-nic.sk/domeny.txt Zoradit podla poctu vlastnikov, registratorov Aj zmeny v registratoroch, vlastnikoch ... Spracovanie historie – stiahnute subory za urcite obdobie. Web aplikácia s výstupom Max 1 projekt s dobrým napadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Prieskum Trhu Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle) Porovnanie podla ceny napr. Vybrat konkretnu domenu. Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL .... Môžem poskytnúť kód extrakcie Texttu z HTML pomocou NekoHTML Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Informácie o firmách Extrakcia informácií Sídlo, webstránka, obchodný register, Kontaktné údaje, .... oblasť činnosti Max 2 projekty s dobrým nápadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Informácie o ľuďoch Extrakcia informácií Sídlo, webstránka, sociálne siete, Kontaktné údaje, .... Zamestnanie. Graf vzťahov k objektom (firmy, ľudia, geografické miesta ...) projekty s dobrým nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: Logs and GeoIP Spracovanie log suborov pomocou extrakcie informacii. Zistit co najviac udajov. E.g. IP => Geo, Krajiny Užívatelia - rozdelenie Typy logov: mailserver, web server, DNS server POP3 server IMAP Výstup tabuľky alebo RRD database, grafy projekty s inovatívnym nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011
Projekt: MapReduce Hadoop, HDFS, Htable, Hive, Pig Hocaký problém z IR alebo IE portovať na Hadoop Rozbehanie Nutch pod hadoop Extrakcia informácií large scale (e.g. regex) Spracovanie logov Použitie HTable Testovanie na Hadoop Clusteri na UISAV Vyhľadávanie informácií Bratislava, 19.september 2011
Anotácia textu pomocou sémantického modelu RDF(S) alebo OWL existujúci semantický model treba rozobrať tak aby sa tokenizovali názvy konceptov a inštancií v ontológií ako aj ich literal vlastností. Názvy by sa mali tokenizovať spôsobom rozdelenia názvu napr. DataIntegrationModel na 3 termy data, integration a model. Tieto by sa indexovali lucenom. Vyhľadávanie informácií Bratislava, 19.september 2011
Ontea: Extrakcia Informácií rozšírenia HTML, PDF, DOC vylepšenie preklápania kódovania a formátovania do plain text Automatické vyhodnocovanie extrakcie Zlepšenie GUI Napr. pri tvorbe a testovaní nového regex-u Release a dokumentácia Tvorba nových metód extrakcie alebo transformerov key-value párov ktoré zlepšujú výsledky Vyhľadávanie informácií Bratislava, 19.september 2011
Extrakcia udalostí z emailov dátum, perióda Čo, názov Miesto ... Pridanie do kalendára Google Udalosti typu Stretnutia Letenky, check-in Ubytovanie ... Vyhľadávanie informácií Bratislava, 19.september 2011
Extrakcia, emaily Zistenie dátumu z nejasných časových dát. Stretneme sa v stredu Zistenie príslušnosti kontaktných údajov (adresy, tel čísla a emaily) k entitám ako ľudia a organizácie Vyhľadávanie informácií Bratislava, 19.september 2011