Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum
2
Osnova Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie
3
Práce Cíl: dotazy nad „databází“ léků interakce, kontraindikace: je možné pacientovi s diagnózou D1, D2, D3, stavem S1, S2 podat lék L, když užívá léky L1, L2 a L3 Znalosti získat z příbalových letáků
4
Formalizace příbalových letáků Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. výhoda – člověk stejně musí projít celý text je žádoucí použít deep analysis, supervised learning Člověk transformuje, systém se mu snaží pomáhat.
5
Ukázka textu Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.
6
AMILCARE Dosažené výsledky nízké hodnoty precision (17 %) i recall (14 %) Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % Jak zlepšit: Dodat další informace Provést normalizaci textu
7
Zpracování přirozeného jazyka Přidat morfologické informace: lemma, morf. značka (pád, číslo) Jen lemma: P: 44 %, R: 27 % Lemma + morf. značka: problém nejednoznačnosti Učení jen na morf. značkách Pokud to bude málo, budou dodány informace o povrchové struktuře věty
8
Normalizace textu Normalizace: překlepy, idiosynkratika (mmHg vs mm Hg) výčtové typy, gazetteers obecná normalizace na úrovni vět je příliš složitá Letáky produkované jednou firmou mají stejnou strukturu.
9
Co s výsledky IE Vím, kde v textu leží to, co mě zajímá. Co s tím? Krok od povrchové struktury k tomu, co to znamená (slova → koncept) Seznam „synonym“, kanonická fráze navrhne počítač, určí člověk glaukom: zelený zákal, zelený oční zákal, zelený zákal oční Mapování konceptů na ontologii
10
UMLS Unified Medical Language System vyvíjí National Library of Medicine obsahuje několik zdrojových slovníků ICD-10 (MKN 10) MeSH Snomed CT … „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny.“
11
UMLS – příklad Patří diazepam do skupiny léků ovlivňujících CNS?
12
Použití ontologie Zdá se, že pro potřeby „léků“ UMLS vyhovuje Problémy: mapování čeština angličtina rozdílné léky v USA a ČR
13
Dosavadní výsledky Překvapivě nízká hodnoty precision a recall Pro potřeby IE je třeba text normalizovat: gazetteers Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje Mapování na UMLS je obtížné ale možné Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.