Projektové zadania.

Slides:



Advertisements
Podobné prezentace
Mgr. Bc. Peter Adamko, PhD. NAT a Proxy.
Advertisements

Predikcia výsledkov futbalových zápasov pomocou NN
Prínos prebiehajúcich partnerstiev 2011, 2012 pre realizátorov projektov Výsledky prieskumu.
NAVIGÁCIA V KNIŽNIČNOM SYSTÉME ARL (Advanced Rapid Library)
Pavol Nečas Gymnázium L. N. Senica Šk. rok 2008/2009 III.A
Ročné zúčtovanie dane za rok 2017
10. Zabezpečenie legislatívnych požiadaviek pre tému "Ortofotosnímky"
Mobilná aplikácia (Predbežná registrácia zamestnancov) júl 2016
Priama úmernosť ISCED 2.
Elektronická výplatná páska
Povinná literatúra pre študentov vo forme e-kníh
Autority a ich úloha pri spracovaní muzejných zbierok
Základné charakteristiky
CORBA Študent: Bc. Juraj Kráľ.
Získavanie a spracovanie informácií
SOČ 3. roč. v prípade, že máme problém, aký výskum ku svojej teoreticke časti použijeme, môžeme vykonať sociologický, psychologický alebo edukačný (napr.
Výber maturitných predmetov
Graficky a prakticky v strojárstve
Mgr. Jozef BARINA, Sales Manager / CRIF – Slovak Credit Bureau
Počítačové systémy.
E-learning Matej Marček.
Etické problémy a dilemy v sociálnej práci
Čo má obsahovať seminárna práca
Plánovanie a príprava hodiny
Aplikačné programy Základné užívateľské programy na prácu s textom a grafikou rozdelenie: TEXTOVÉ EDITORY TABUĽKOVÉ EDITORY DATABÁZOVÉ SYSTÉMY GRAFICKÉ.
Čo je informatika? Je všeobecne veda o informáciách.
POWERPOINT Tvorba prezentácií Mgr. Gabriela Zbojeková, ZŠ Turzovka.
Rozpoznávanie slovných druhov alebo vetnej skladby
Ako implementovať eLearning?
Ako napísať dobrý životopis a motivačný list
Usporiadanie údajov na disku
Ing. Ondrej Kvasnica, PhD
(Digitálny prezentačný materiál)
Grafické formáty.
Ako prispôsobiť webovú lokalitu služby Microsoft SharePoint Online
Balík protokolov TCP/IP ( Protocol Suite )
Úloha Internetu v živote školáka ...
Ako má vyzerať prezentácia v PowerPoint-e?
3D Modelovanie prvkov krajiny
Elektronické bankovníctvo
Súhrnná evidencia o vodách Súčasný stav a ďalší vývoj
Internet Lucia Blahúsová.
Zhodnotenie techník SEO a ich aplikácia na firemnú webstránku
Počítač a zamestnanie Jozef Bubanec, II. D.
Informácie okolo nás Kódovanie znakov.
Distance Search slovenských firiem
Čo je PHP- PHP (PHP: Hypertext Preprocessor) je populárny open source (prístupné zdrojové kódy) skriptovací programovací jazyk Používa najmä na programovanie.
Microsoft Office PowerPoint 2010
Service-oriented Architecture (SOA)
Informatika, údaj, informácia, jednotka informácie, digitalizácia
Vyhodnotenie projektu
Distance search športové a kultúrne podujatia
Ako na vysokú školu?.
Ing. Anita Sáreníková/ Informatika
Využitie pracovných listov pre výučbu služieb Internetu a tvorby WWW
Žiadosť o finančný príspevok FORMULÁR
Mikuláš Galanda: Pieseň
Téma: Tvorba web stránok
NETIKETA.
EBSCOhost Collection Manager ~ Vytváranie vyhľadávacieho profilu
DÁTOVÉ MODELOVANIE analýza a návrh informácií v systéme – oblasť modelovania a projektovania IS dôraz na logické entity a logické závislosti medzi týmito.
Témy 2016/2017 Peter Borovanský veľmi rámcové predstavy
Neinformované procedúry
5 jednoduchých tipov pre viac organických návštev z Google
alebo ako vytvoriť dobrú databázu (rečou normálneho človeka)
Vyhľadávanie informácií
Marian Pavuk Martin Valluš
Informatika Adriana Petríková 1.A.
Hromadná korešpondencia
Regionálne workshopy k tvorbe Akčného plánu OGP 2016 – 2019
Transkript prezentace:

Projektové zadania

Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API Projekty - otázky Kto vie programovať v Jave JSP/Servlety Java Script, ajax, Google API Používa sociálnu sieť, akú? (facebook, linkedin, delicious, orkut, hi5) Member of mailinglists Gmail account? Google služby iné ako web search ... aké? Edituje wikipédiu alebo iné wiki. Aké? Programuje v akom programovacom jazyku ... Kto ovláda na nejakej úrovni regexes? Graové algoritmy? Vyhľadávanie informácií Bratislava, 19.september 2011

Čoho sa vyvarovať Zabudnite na databázu (nepoužívať) nepoužívať rar Sme na IR Ak potrebujete nejaký zoznam, uložiť do text fajlu alebo XML a natiahnuť do pamäti. Väčšie dáta treba indexovať nepoužívať rar Zip nepoužívať XPath alebo metódy na extrakciu podľa presnej štruktúry stránky Vyhľadávanie informácií Bratislava, 19.september 2011

Čo je dôležité !Dáta, dáta a ešte raz dáta! Vyhodnotenie Treba riešiť hneď od začiatku Už na prvej konzultácii treba mať príklady 3-5 dokumentov/textov na ktorých chcem problém riešiť. Vyhodnotenie Treba vyhodnotiť úspešnosť riešenia Recall, precision, .... Vyhľadávanie informácií Bratislava, 19.september 2011

Projekty irLessons gSemSearch Ontea k témam výučby http://irlesons.sourceforge.net/ Regex, crawl, segmentácia, extrakcia gSemSearch http://gsemsearch.sourceforge.net/ Grafy spread of activation http://ikt.ui.sav.sk/esns/ Ontea http://ontea.sourceforge.net/ Regex (editor, groups) NE stanford Segmentacia Vyhľadávanie informácií Bratislava, 19.september 2011

Projekty súvisiace s tvorbou učebného textu (1) Jednoduchá implementácia problému (témy), ktorá funguje aspon pre zadané príklady Oprava, prepis, doladenie existujúceho kódu Dôkladne odladený a komentovaný kód, naprogramovateľný rozšíriteľným spôsobom, extendovatelne classy, interfejsy ... Témy: Sťahovanie Indexovanie Spracovanie liniek Segmentácia Extrakcia Regulárne výrazy Vyhľadávanie PageRank ... Na každú tému učebného textu môžu byť po 2 projekty = cca 20-25 projektov. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekty súvisiace s tvorbou učebného textu (2) Kód sa bude vytvárať na sourceforge.net Treba sa zaregistrovať Cez SVN treba updatovať projekt Projekt sa vola irLessons http://irlesons.sourceforge.net/ Základné dáta http://irlesons.sourceforge.net/data/1.html Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Regex editor Oprava/úprava/rozšírenie existujúceho regex v Ontea a irLessons vytvorenie jednoduchého editora na regulárne výrazy keď bude môcť užívateľ cez Java aplikáciu testovať regulárne výrazy na načítanom txt súbore.  Vypísanie extrahovaných údajov aj skupín (groups) Integracia makier z ontea aj s prikladmi textov a spustenim na nich v description. Vytvaranie a editacia makier pomocou nastroja. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Štatistický prekladač Na základe rôznych jazykových verzií stránok vytvoriť prekladač na základe štatistických údajov.  Alebo vytvorenie prekladača slov na základe spracovania anchor textov. Je možné riešiť nasledovné projekty: prekladač slovenčina <=> angličtina na základe anchor textov prekladač slovenčina <=> čeština na základ hociakých textov. Pri podobných jazykoch by mohol byť menší problém s tým že nevieme rozpoznať slovné druhy (POS taging) Systém MOSES http://www.statmt.org/moses/ Príprava dát Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Gazetteer Vytvorenie podobného gazeteera (slovnika) pre information extraction ako ma GATE. Vlastnosti: lineárna zlozitosť (iba jeden prechod textom) definovanie oddeľovača slov (tokenizatora) na základe písmen a načítanie gazeteera do stromu v pamäti v tejto forme generovanie aliasov pomocou regularneho vyrazu. Napr. v slovniku je "Meno Priezvisko" a bude hľadať aj "M. Priezvisko" Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Podpora slovenskeho vyhladávania analyzer ktorý rieši diakritiku (napr vyhadzuje), spellcheck aj bez diakritiky - urobiť nad lucene Lematizator/stemer tvoreny podla ruskeho pre lucene Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Extrakcia faktov Extrakcia faktov zo slovenského webu alebo iných textových dokumentov. Niečo na spôsob knowItAll ale pre slovenčinu. Napríklad zo stránky FIIT vytiahnuť zoznam učiteľov, predmetov alebo študentov. Možno jednoduchý príklad. Proste vytiahnuť fakty ktoré sa nedajú nájsť z jedného dokumentu. Iný príklad je napríklad vytiahnuť zoznam sklenárstiev v Bratislave. zoznam ľudí zo stránok ústavou SAV, automatické porovnanie so SAV.sk Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Iný index Použiť lucene na indexovanie iných ako textových dát. Tvorba termov z hudby, videa, obrázkov, slov? Podobne ako na mobiloch pri použití T9, slovo „ahoj“ je v indexe reprezentované termom „2465“ Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Jednoduchý sťahovač Úprava projektu v irLessons reimplementacia Java, začne z + definovanej URL. Vyhladava linky a stahuje cez jeden zasobnik pomocou algoritmov do hlbky alebo sirky.  Ulozi dokumenty do adresara a nazve ich podla <title> v <head> tagu + time stamp alebo podla URL transformovanej na nieco.html Ukladac dat sa da extendnut Objavovac liiek sa da extendnut algoritmus na poradie sa da extendnut implementacia musi byt cista jednoducha, zopar java classov Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Rozpoznávanie slovných druhov Part of Speach Tagging (POS) taging pre slovenčinu. Založené na slovníkovom princípe z dostupných slovníkov (aspell, ispell, OpenOffice a pod.) alebo založený na štatistickom princípe. Možné pozrieť princíp OpenNLP. Netreba všetky slovné druhy ani nemusí 100 percentne fungovať. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Fazetový a fultextový prehliadač Kto má prístup k databáze nejakých produktov alebo nejaký rozsiahlejší web. Treba urobiť fultext toho webu s kombináciou fazetového prehliadača. (Podobne ako na amazon.com a iných) Je to možné urobiť pomocou systému Apache Sorl. Ide najmä o konfiguráciu a napojenie systému a jeho odladenie. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Spread Activation spread activation algoritmus (pozri wikipediu) treba naprogramovať a použiť na nejakých dátach. Napr na extrakcii z emailov.  Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Tag Cloud Generovanie Tag cloudu (pozri wikipediu) z webstránky a jej podstránok. Teória okolo TF-IDF, stop slová, lematizácia.... Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Name Entity Recognition Machine Learning Rozpoznávanie mien (osoby, mesta, organizácie, ...) pomocou OpenNLP 2 projekty - jeden rozpoznávanie na Slovenskom a anglickom texte, druhý trénovanie na Slovenskom Extrakcia Anchor Text Pomocou extrakcie anchor textov liniek (text v ramci Tagu <a href>TEXT</a>) robiť Named Entity recognition a Aliasy. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Analyzer and Search Analyzer ktorý vyhodí diakritiku použitie vo vyhľadávači emailov alebo fajlov na disku spolu so spell checkom. Analyzer ktorý vie analyzovať takéto LuceneAnalyzer, lucene_analyzer, lucene-analyzer, Testovacia sada premenné zo zdrojového kódu tak aby sa dali nájsť aj podľa jednotlivých slov Ontológia Dáta z LinkedData Vyhľadávanie informácií Bratislava, 19.september 2011

LinkedData Hľadanie relácií Indexovanie a vyhľadávanie entít Textovo Grafovo http://linkeddata.org/ Treba si vziať časť dát DBLP Wikipédia Geo dáta Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Advanced email search Vyhladavac pomocou socialnej siete-grafu extrahovaneho z emailu. Pomocou existujuceho softveru (Ontea alebo acoma = emailSocNet)  sa extrahuje graph. Nad nim urobit vyhladavanie pomocou spread activation ?+lucene kde budu fazety podla objavenych typov objektov. Existuje prototyp ktory treba prekopat a extendnut http://ikt.ui.sav.sk/esns/ Vyhľadávanie informácií Bratislava, 19.september 2011

Graph SGDB neo4j Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Vyhľadávanie s využitím anotácií (tagov) V systémoch ako delicious.com, twiter alebo youtube uzivatelia generujú množstvo tagov ktoré v kombinácii s klasickými technikami vyhľadávanie (indexovanie) možu priniesť lepšie výsledky.  Úlohou je vytvoriť vyhľadávač ktorý tieto tag-y využije. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Extrakcia udalostí extrahovanie udalostí z emailov alebo webových stránok. dátum, čas miesto názov udalosti Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Odkazový vyhľadávač Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Distance Search Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov. Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL  Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok využitie ontológie Slovenska, Sesame Google Maps Extrakcia informácií – ulice, PSC, GPS súradnice Môže byť rozdelené na viac projektov: Iba extrakcia Riešenie spätného geokódovania Nutch + Hadoop Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Triedenie a zoraďovanie Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie. OPIC, PageRank, HITS Vytvorenie vlastného grafu odkazov na objekty v dokumentoch Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie iných dát ako stránok, zdôvodnenie, vyhodnotenie. Vyhľadávanie v email archívoch Spread of activation alebo iné grafové algoritmy. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Indexovanie PDF a Word dokumentov Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu. PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word  Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu Napríklad indexovanie PDF a Word súborov z časopisov SAV , sú tp dostatočne heterogénne dáta. Zistenie názvu článku z linky. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Textové operácie Slovenský Lematizér alebo Stemmer Egothor, Stempel, JULŠ, Tvaroslovník, ... Snowball => java => pre lucene Google approach pre slovenský stemmer Zistiť čo najviac experimentovať len napísať a vyhodnotiť Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská Tu budú možné iba projekty ktoré pôjdu ďalej ako projekty v minulých rokoch. Riešenie stemovania zaujímavými metódami napr. štatistické metódy so spracovaním predlôh textu vyhadzovanie samohlások. Nemôžu byť projekty kde sa bude riešiť stemer pomocou definovania pravidiel Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Sociálne siete OpenSocial API ?Prispôsobenie výsledkov vyhľadávania? Vlastný nápad kde bude extrakcia metadát alebo vyhľadávanie a kombinácia so sociálnou sieťou. E.g. vyhľadávanie vo fotkách friendov Gadget pre orkut, hi5 ... Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Sociálna sieť a email Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní. Extrakcia viacdimenzionálnej sociálnej siete Ľudia, projekty, geografické lokality, kontaktné údaje Práca so sieťou v IBM Gallaxy Iná navigácia v sieti Zobrazenie 5-10 najčastejších termov v interakciách Tvorba grafu socialnej siete, Xobni, IBM Gallaxy Spojenie semantickeho modelu a Socialnej siete Semanticky search Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy Vyhľadávanie informácií Bratislava, 19.september 2011

Indexovanie a vyhľadávanie emailov Projekt: Email search Indexovanie a vyhľadávanie emailov Acoma + lucene + jednoduché JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie Spracovanie mailov pomocou JavaMail library Zameranie na attachmenty, text alebo utrieďovaniu funkciu Overenie! E.g. gmail versus vytvorená implementácia Source: mailing listy, vlastné emaily, mbox, gmail Tu bude musieť byť nejaká idea navyše oproti doterajším projektom. Doplním nabudúce alebo treba prísť s nápadom. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Extrakcia informácií Geografické dáta Kontaktné info (email, tel) Osoby Firmy a organizácie Udalosti – kalendár, Doodle Zdrojové dáta Emaily Správy Web Regulárne výrazy GATE, Ontea, IBM Gallaxy Gazzeters Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Slovenské domény Spracovanie slovenských domén www.sk-nic.sk/domeny.txt Zoradit podla poctu vlastnikov, registratorov Aj zmeny v registratoroch, vlastnikoch ... Spracovanie historie – stiahnute subory za urcite obdobie. Web aplikácia s výstupom Max 1 projekt s dobrým napadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Prieskum Trhu Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle) Porovnanie podla ceny napr. Vybrat konkretnu domenu. Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL .... Môžem poskytnúť kód extrakcie Texttu z HTML pomocou NekoHTML Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Informácie o firmách Extrakcia informácií Sídlo, webstránka, obchodný register, Kontaktné údaje, .... oblasť činnosti Max 2 projekty s dobrým nápadom - bolo už veľa projektov v minulosti. Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Informácie o ľuďoch Extrakcia informácií Sídlo, webstránka, sociálne siete, Kontaktné údaje, .... Zamestnanie. Graf vzťahov k objektom (firmy, ľudia, geografické miesta ...) projekty s dobrým nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: Logs and GeoIP Spracovanie log suborov pomocou extrakcie informacii. Zistit co najviac udajov. E.g. IP => Geo, Krajiny Užívatelia - rozdelenie Typy logov: mailserver, web server, DNS server POP3 server IMAP Výstup tabuľky alebo RRD database, grafy projekty s inovatívnym nápadom - bolo už veľa projektov v minulosti Vyhľadávanie informácií Bratislava, 19.september 2011

Projekt: MapReduce Hadoop, HDFS, Htable, Hive, Pig Hocaký problém z IR alebo IE portovať na Hadoop Rozbehanie Nutch pod hadoop Extrakcia informácií large scale (e.g. regex) Spracovanie logov Použitie HTable Testovanie na Hadoop Clusteri na UISAV Vyhľadávanie informácií Bratislava, 19.september 2011

Anotácia textu pomocou sémantického modelu RDF(S) alebo OWL existujúci semantický model treba rozobrať tak aby sa tokenizovali názvy konceptov a inštancií v ontológií ako aj ich literal vlastností. Názvy by sa mali tokenizovať spôsobom rozdelenia názvu napr. DataIntegrationModel na 3 termy data, integration a model. Tieto by sa indexovali lucenom. Vyhľadávanie informácií Bratislava, 19.september 2011

Ontea: Extrakcia Informácií rozšírenia HTML, PDF, DOC vylepšenie preklápania kódovania a formátovania do plain text Automatické vyhodnocovanie extrakcie Zlepšenie GUI Napr. pri tvorbe a testovaní nového regex-u Release a dokumentácia Tvorba nových metód extrakcie alebo transformerov key-value párov ktoré zlepšujú výsledky Vyhľadávanie informácií Bratislava, 19.september 2011

Extrakcia udalostí z emailov dátum, perióda Čo, názov Miesto ... Pridanie do kalendára Google Udalosti typu Stretnutia Letenky, check-in Ubytovanie ... Vyhľadávanie informácií Bratislava, 19.september 2011

Extrakcia, emaily Zistenie dátumu z nejasných časových dát. Stretneme sa v stredu Zistenie príslušnosti kontaktných údajov (adresy, tel čísla a emaily) k entitám ako ľudia a organizácie Vyhľadávanie informácií Bratislava, 19.september 2011