Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum
Osnova Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie
Práce Cíl: dotazy nad „databází“ léků interakce, kontraindikace: je možné pacientovi s diagnózou D1, D2, D3, stavem S1, S2 podat lék L, když užívá léky L1, L2 a L3 Znalosti získat z příbalových letáků
Formalizace příbalových letáků Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. výhoda – člověk stejně musí projít celý text je žádoucí použít deep analysis, supervised learning Člověk transformuje, systém se mu snaží pomáhat.
Ukázka textu Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.
AMILCARE Dosažené výsledky nízké hodnoty precision (17 %) i recall (14 %) Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % Jak zlepšit: Dodat další informace Provést normalizaci textu
Zpracování přirozeného jazyka Přidat morfologické informace: lemma, morf. značka (pád, číslo) Jen lemma: P: 44 %, R: 27 % Lemma + morf. značka: problém nejednoznačnosti Učení jen na morf. značkách Pokud to bude málo, budou dodány informace o povrchové struktuře věty
Normalizace textu Normalizace: překlepy, idiosynkratika (mmHg vs mm Hg) výčtové typy, gazetteers obecná normalizace na úrovni vět je příliš složitá Letáky produkované jednou firmou mají stejnou strukturu.
Co s výsledky IE Vím, kde v textu leží to, co mě zajímá. Co s tím? Krok od povrchové struktury k tomu, co to znamená (slova → koncept) Seznam „synonym“, kanonická fráze navrhne počítač, určí člověk glaukom: zelený zákal, zelený oční zákal, zelený zákal oční Mapování konceptů na ontologii
UMLS Unified Medical Language System vyvíjí National Library of Medicine obsahuje několik zdrojových slovníků ICD-10 (MKN 10) MeSH Snomed CT … „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny.“
UMLS – příklad Patří diazepam do skupiny léků ovlivňujících CNS?
Použití ontologie Zdá se, že pro potřeby „léků“ UMLS vyhovuje Problémy: mapování čeština angličtina rozdílné léky v USA a ČR
Dosavadní výsledky Překvapivě nízká hodnoty precision a recall Pro potřeby IE je třeba text normalizovat: gazetteers Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje Mapování na UMLS je obtížné ale možné Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.