当前位置:科学网首页 > 基金首页 > 中文医学文本中关联信息提取方法研究

国家自然科学基金项目查询

中文医学文本中关联信息提取方法研究

批准号30900329 学科分类医学信息系统与远程医疗 ( H1814 )
项目负责人李昊旻 负责人职称讲师 依托单位浙江大学
资助金额20.00
万元
项目类别青年科学基金项目 研究期限2010 年 01 月 01 日 至
2012 年 12 月 31 日
中文主题词医学语言处理;医学概念实体提取;概念实体关系提取;子语言;机器学习
英文主题词Medical Language Processing;Concept Entity Extract;Relation Extraction;Sublanguage Grammar;Machine Learning

摘要

中文摘要 关联信息提取的目的是从文本中自动提取概念及概念间语义关系。医疗文本中蕴含大量关联的临床信息,自动提取这些信息服务于各类临床信息系统是当前医疗信息化亟需的基础技术。由于自然语言的灵活性以及领域知识表达不足等原因,目前单纯依赖语法知识或者机器学习的方法都存在很大局限性,特别是在中文医学文本处理领域中这样的研究尚属空白。本研究的目的是寻求一种能够有效结合基于语法方法的高准确性和基于机器学习方法高灵活性的方法,探索性地提出一种子语言(Sublanguage)语法浅解析和模式识别机器学习方法相结合的混合算法。本项目将深入研究该混合算法过程中所涉及的关键方法和技术,针对中文医学语言文本处理这样一个相对薄弱的研究领域建立关联信息提取的有效方法,对两类临床文本(病历家族史的结构化信息提取、出院小结中时间关联信息提取)进行测试和评估来验证方法的有效性。
英文摘要
结题摘要 传统的面向病历文本的医疗信息存储、交换和获取模式,使得大量临床信息目前不能获得更高层次的利用。本研究以自动提取医学临床文本中的关联信息为目的,希望通过一系列的基础研究和关键技术探索,使得中文临床文档的利用可以更好的服务于临床信息化实践。按照项目申请书拟定的研究计划本项目开展了以下几方面的研究: 1. 医学语言处理基础设施建设 医学术语知识词典是开展医学语言处理的基础,本项目之前面向中文的综合性医学术语知识库未见报道。本项目中参考国外研究经验,首先建立了一个临床术语语义本体,该本体包含65个顶层语义概念和900多个具有层次结构的子语义概念。然后,基于该语义本体对采集的大规模医学术语资源进行标注,形成了一个具有6万多条目的中英文双语医学术语知识词典。经测试该知识库对于临床词汇的覆盖达到了87.4%。 2. 医学概念实体提取研究 医学概念实体的自动提取是开展医学语言处理研究的基础。本项目首先开展了基于术语词典的概念实体提取研究,实现了对于概念实体以及否定语义的自动提取算法,概念的误检率仅1.66%,否定检出的阳性预测率为100%、阴性预测率达98.99%;针对术语词典无法覆盖的部分,探索了基于条件随机场的医学问题自动识别算法,完全匹配率达到88.37%;针对时间信息这类变体信息,本项目提出了基于正则表达式的时间信息自动提取算法,识别正确率达到95%。 3. 概念实体关系提取研究 概念实体之间的关系是语言处理的难点。本项目探索了三个典型临床关系提取:(1)通过挖掘建立相应的家族史子语言语法,实现家族史部分家庭成员与疾病问题的关系提取(正确率97.22%);(2)通过建立的时间标记和语义标记,利用条件随机场训练来实现对于临床问题时间属性的提取(正确率86.94%)。(3)利用医学子语言理论和连语法解析算法,完全心电图诊断报告的自动结构化信息提取(完全正确率73.08%)。 本项目依照项目申请书计划完成了这个三年时间的探索研究,其间培养了三名硕士研究生,并完成了一个博士后工作站报告。发表期刊和会议论文9篇,形成一个大规模中英文双语医学术语知识库和若干软件模块。作为一个基础研究,其应用价值将在后续的几年中逐步显现,目前该项目的成果正被运用于国家863项目和若干产业产品开发中。

成果

序号 标题 类型 作者
1 临床数据中心构建方法探讨 期刊 安继业|王进亮|段会龙|薛万国|史洪飞|李昊旻|赵晨晖|刘济全|周群一|吕旭东|欧阳亚迪|
2 结构化电子病历数据录入方法 期刊 李昊旻|段会龙|吕旭东|黄正行|
3 电子病历与标准化和结构化 期刊 李昊旻|薛万国|段会龙|吕旭东|史洪飞|欧阳亚迪|
4 中文病历文档术语提取和否定检出方法 期刊 李昊旻|李莹|段会龙|吕旭东|
5 基于自然语言处理技术的消化科内窥镜检查报告的结构化 期刊 孔晓风|李莹|李昊旻|吕旭东|

关于我们| 网站声明| 服务条款| 联系方式| RSS| 中国科学报社 京ICP备14006957 京公网安备110402500057号
Copyright @ 2007- 中国科学报社 All Rights Reserved
地址:北京市海淀区中关村南一条乙三号   电话:010-62580783