Vyhledávání pojmenovaných entit Named Entity Recognition Martin Hejtmánek
Pojmenované entity jsou vlastní jména… …ale nejen to: –data ( ) –částky (5000 $) –názvy firem (Microsoft) –zeměpisné názvy (Mount Everest) mohou být i víceslovné
Můj program pracuje s anglickými texty pracuje s anglickými texty hledá pouze vlastní jména hledá pouze vlastní jména (pro zjednodušení) využívá Collinsovu metodu využívá Collinsovu metodu
Collinsova metoda hledá tzv. spínače hledá tzv. spínače využívá krátký seznam NENT využívá krátký seznam NENT počítá četnosti slov před a po NENT počítá četnosti slov před a po NENT slova s danou četností označí jako spínače slova s danou četností označí jako spínače pomocí spínačů rozšíří seznam NENT pomocí spínačů rozšíří seznam NENT postup opakuje postup opakuje
Collinsova metoda příklad: příklad: Jiří Pytlíček, prom. mat. => kandidát na spínač Mr. Oistrakh => kandidát na spínač
Klady a zápory + jednoduchý algoritmus - pomalý - ne příliš přesný