Geneea: Textová analytika Jiří Hana
Problém Dobrý den, včera jsem vybíral z bankomatu na Muzeu a asi jsem zadal špatný pin a bankomat mi kartu sebral. Jak jí získám zpět? Kde si můžu obnovit PIN, zapomněl jsem ho. Naprostá spokojenost na pobočce, paní Zuzana byla profesionální a poradila mi s hypotékou. Banka, ktera se vas pri ruseni uctu ani nezepta, co je duvodem, je na nejrychlejsi ceste do pekel. So long ČSOB, hello Air Bank!
Řešení – analyzovat texty strojově Dobrý den, včera jsem vybíral z bankomatu na Muzeu a asi jsem zadal špatný pin a bankomat mi kartu sebral. Jak jí získám zpět? Kde si můžu obnovit PIN, zapomněl jsem ho. Naprostá spokojenost na pobočce, paní Zuzana byla profesionální a poradila mi s hypotékou. Banka, ktera se vas pri ruseni uctu ani nezepta, co je duvodem, je na nejrychlejsi ceste do pekel. So long Citibank, hello Fio!
Řešení – analyzovat texty strojově Dobrý den, včera jsem vybíral z bankomatu na Muzeu a asi jsem zadal špatný pin a bankomat mi kartu sebral. Jak jí získám zpět? Kde si můžu obnovit PIN, zapomněl jsem ho. 1. Vrácení karty 2. Obnova PIN Naprostá spokojenost na pobočce, paní Zuzana byla profesionální a poradila mi s hypotékou. Profesionalita bankéřky Banka, ktera se vas pri ruseni uctu ani nezepta, co je duvodem, je na nejrychlejsi ceste do pekel. So long Citibank, hello Fio! Odchod ke konkurenci
Analytika nad textovými daty Propojení se strukturovanými daty (lokace, CRM, profil) Analýza trendů a anomálií Reporting, vizualizace Zlepšení byznys procesů
Entity: Švejk & Phileas Fogg Characters Places
aaa
Pro srovnání:
Témata v chatu
Témata v chatu
Témata v chatu
Témata v chatu
Interpretor Modules Preparation Grammar Entities Other Discovery Format conversion Language detection Sentence segmentation Tokenization Correction Grammar Lemmatization Morphological tagging Syntax structure Entities Discovery Standardization Disambiguation Other Relations Sentiment Categorization
Production Deployment – AWS Interpretor (Elastic Beanstalk) Knowledgebase PostgreSQL (RDS) Graylog (EC2 instance) REST API HTTPS Virtual Private Cloud Interpretor: Tomcat, Java8, Spring, Hibernate r4.xlarge instances Immutable, rolling release deployments Load balanced, auto-scaling (CPU utilization) RDS: db.t2.medium, SSD 10GB Knowledgebase: Docker, Python 3.6, Flask, Gunicorn, psycopg2 t2.micro instances RDS: db.t2.medium, SSD 128GB, auto-backups
Production Deployment – Azure Virtual Private Network Orion Solr Node Pavo Taurus Lyra Nginx Franz Frida SQL Data Virtual Machines: 2xCPU, 7GB RAM, 128GB SSD, CentOS 7.2 Solr Cluster: Solr 6.2, Java8, 4GB heap size Zookeeper 3.4.9 on each machine ~100 collections, 2 replicas each Cluster still operational with one node down Franz Service: Python 3.6, gunicorn (4 workers), sqlite3 Frida: node.js, bootstrap, angular
FAQ, Knowledge base, email answers [011100101101000...1] + ? ? Format Conversion Similarity search Doc Structure Analysis 1. 2. Document Database (Franz) 3. [011100101101000...1] + Text Analysis (Interpretor)