Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.

Podobné prezentace


Prezentace na téma: "Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum."— Transkript prezentace:

1 Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum

2 Osnova Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie

3 Práce Cíl: dotazy nad „databází“ léků interakce, kontraindikace: je možné pacientovi s diagnózou D1, D2, D3, stavem S1, S2 podat lék L, když užívá léky L1, L2 a L3 Znalosti získat z příbalových letáků

4 Formalizace příbalových letáků Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. výhoda – člověk stejně musí projít celý text je žádoucí použít deep analysis, supervised learning Člověk transformuje, systém se mu snaží pomáhat.

5 Ukázka textu Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.

6 AMILCARE Dosažené výsledky nízké hodnoty precision (17 %) i recall (14 %) Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % Jak zlepšit: Dodat další informace Provést normalizaci textu

7 Zpracování přirozeného jazyka Přidat morfologické informace: lemma, morf. značka (pád, číslo) Jen lemma: P: 44 %, R: 27 % Lemma + morf. značka: problém nejednoznačnosti Učení jen na morf. značkách Pokud to bude málo, budou dodány informace o povrchové struktuře věty

8 Normalizace textu Normalizace: překlepy, idiosynkratika (mmHg vs mm Hg) výčtové typy, gazetteers obecná normalizace na úrovni vět je příliš složitá Letáky produkované jednou firmou mají stejnou strukturu.

9 Co s výsledky IE Vím, kde v textu leží to, co mě zajímá. Co s tím? Krok od povrchové struktury k tomu, co to znamená (slova → koncept) Seznam „synonym“, kanonická fráze navrhne počítač, určí člověk glaukom: zelený zákal, zelený oční zákal, zelený zákal oční Mapování konceptů na ontologii

10 UMLS Unified Medical Language System vyvíjí National Library of Medicine obsahuje několik zdrojových slovníků ICD-10 (MKN 10) MeSH Snomed CT … „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny.“

11 UMLS – příklad Patří diazepam do skupiny léků ovlivňujících CNS?

12 Použití ontologie Zdá se, že pro potřeby „léků“ UMLS vyhovuje Problémy: mapování čeština  angličtina rozdílné léky v USA a ČR

13 Dosavadní výsledky Překvapivě nízká hodnoty precision a recall Pro potřeby IE je třeba text normalizovat: gazetteers Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje Mapování na UMLS je obtížné ale možné Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.


Stáhnout ppt "Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum."

Podobné prezentace


Reklamy Google