一种中文诊疗信息的自然语言处理方法及系统的利记博彩app
【技术领域】
[0001] 本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种 中文诊疗信息的自然语言处理方法及系统。
【背景技术】
[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。
[0003] 随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以 提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率, 给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
[0004] 依托医疗信息化平台,医疗从业人员可在计算机中直接输入为治疗疾病所需的诊 疗项目等诊疗信息,为共享诊疗信息和查阅诊疗信息提供了极大方便。
【发明内容】
[0005] 实际临床作业中每天会进行大量的诊疗项目,医疗从业人员会将这些诊疗项目以 中文诊疗信息的形式输入医疗信息化平台中,研究和利用中文诊疗信息对于医疗信息化发 展具有非常重要的意义。由于每天都会有海量的中文诊疗信息输入,仅靠人工力量识别这 些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。
[0006] 但是由于输入的中文诊疗信息属于自然语言,格式复杂多样,没有统一的标准,例 如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准 术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文诊疗信息具有相当大的难 度。
[0007] 为了提高计算机对中文诊疗信息的识别成功率,非常需要一种中文诊疗信息的自 然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文诊疗信息。
[0008] 在本上下文中,本发明的实施方式期望提供一种中文诊疗信息的自然语言处理方 法及系统。
[0009] 在本发明实施方式的第一方面中,提供了一种中文诊疗信息的自然语言处理方 法,包括:
[0010] 步骤1,输入中文诊疗信息字符串;
[0011] 步骤2,对所述中文诊疗信息字符串进行预处理,得到预处理后的中文诊疗信息字 符串;
[0012] 步骤3,基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述预处理后 的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;
[0013] 其中,所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不 受其在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字 符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词 典中的本体直接匹配;
[0014] 所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标 准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手 术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词 语;
[0015] 所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项 目所针对的方位的词语;
[0016] 所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项 目的级别、类型的词语;
[0017] 步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的 解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果; 并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行 匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预 设匹配条件的一个或多个本体;
[0018] 步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符 串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
[0019] 在本发明实施方式的第二方面中,提供了一种中文诊疗信息的自然语言处理系 统,包括:
[0020] 词典数据库,用于提供本体词典、诊疗方位词典和诊疗等级词典;其中,
[0021] 所述本体词典包括若干本体,所述本体为标准诊疗术语或扩充诊疗术语;所述标 准术语为全国医疗服务价格项目规范中规定的项目名称或国际疾病分类ICD中规定的手 术操作名称;所述扩充术语为与所述标准术语具有同义关系的词语或具有属种关系的词 语;
[0022] 所述诊疗方位词典包括若干诊疗方位术语,所述诊疗方位术语是用于描述诊疗项 目所针对的方位的词语;
[0023] 所述诊疗等级词典包括若干诊疗等级术语,所述诊疗等级术语是用于描述诊疗项 目的级别、类型的词语;
[0024] 输入模块,用于输入中文诊疗信息字符串;
[0025] 预处理模块,用于对所述中文诊疗信息字符串进行预处理,得到预处理后的中文 诊疗信息字符串;
[0026] 切分模块,用于基于预先建立的本体词典、诊疗方位词典、诊疗等级词典,将所述 预处理后的中文诊疗信息字符串切分成若干第一类型子字符串和第二类型子字符串;其 中,
[0027] 所述第一类型子字符串和所述第二类型子字符串所表示的诊疗项目信息不受其 在所述中文诊疗信息字符串中所在位置之前或之后的字符影响,且所述第一类型子字符串 能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中 的本体直接匹配;
[0028] 匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设 维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解 析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结 果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串 达到预设匹配条件的一个或多个本体;
[0029] 输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类 型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本 体。
[0030] 借助于上述技术方案,本发明充分考虑了医疗从业人员输入的中文诊疗信息字符 串属于自然语言、格式复杂多样、没有统一标准等特点,利用预先建立的多种词典对中文诊 疗信息字符串进行切分和匹配,以此将中文诊疗信息字符串识别成为符合医疗领域通用标 准的术语。本发明在对中文诊疗信息字符串切分之后,将能够与本体直接匹配的第一类型 子字符串直接作为最终的识别结果,而对于不能够与本体直接匹配的第二类型子字符串, 则通过解析查找与其相匹配或达到预设匹配条件的一个或多个本体作为最终输出的结果, 即,本发明对中文诊疗信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域 通用标准的术语。本发明克服了现有技术无法顺利实现对中文诊疗信息进行自然与演化处 理的问题,提升了中文诊疗信息的识别成功率,为有效利用中文诊疗信息、结算诊疗项目费 用提供了便利。
【附图说明】
[0031] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若 干实施方式,其中:
[0032] 图1示意性地示出了根据本发明实施方式的应用场景;
[0033] 图2示意性地示出了本发明示例性的中文诊疗信息的自然语言处理方法流程图;
[0034] 图3示意性地示出了本发明示例性方法中切分中文诊疗信息的流程图;
[0035] 图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体 的流程图;
[0036] 图5示意性地示出了本发明示例性的中文诊疗信息的自然语言处理系统模块框 图。
[0037] 在附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0038] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何 方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能 够将本公开的范围完整地传达给本领域的技术人员。
[0039] 本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、 方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软 件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0040] 根据本发明的实施方式,提出了一种中文诊疗信息的自然语言处理方法及系统。
[0041] 在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于 区分,而不具有任何限制含义。
[0042] 下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0043] 发明概沐
[0044] 本发明人发现,医疗从业人员在医疗信息化平台中输入的中文诊疗信息格式复杂 多样,没有统一的标准,经常会出现采用多种语言混合表达、使用不规范语法、录入有误信 息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况,导致计算机不 能顺畅地实现对中文诊疗信息进行自然语言化处理。
[0045] 更进一步的,本发明人发现,医疗从业人员输入的中文诊疗信息中经常会夹杂一 些即便基于医疗领域的通用标准也不能够识别出的信息,例如夹杂在汉字中的符号、数字 或不能识别的汉字等,这些符号、数字或不能识别的汉字有的可能是用于形容诊疗项目的 等级、类型(如"I型"、"II型"、"A等"、"B等"),也有的可能表示诊疗项目所针对的方位 (如"单侧"、"双侧"、"左侧"、"右侧"),还有可能是符合医疗领域通用标准的诊疗项目的俗 称、简称或英文缩略语(如"全身骨显像"的俗称为"骨全身显像")等等。总之,由于夹杂 了一些基于医疗领域的通用标准所不能识别出的信息,也是计算机不能顺畅地识别中文诊 疗信息的重要原因。
[0046] 为此,本发明提供了一种中文诊疗信息的自然语言处理方法,基于该方法对中文 诊疗信息进行的自然语言处理过程大致包括如下过程:
[0047] 首先,输入中文诊疗信息字符串;
[0048] 然后,对中文诊疗信息字符串进行预处理;
[0049] 其次,参照预先建立的本体词典、诊疗方位词典、诊疗等级词典,将预处理后的中 文诊疗信息切分成具有独立语义的两类子字符串:第一类型子字符串和第二类型子字符 串;其中,第一类型子字符串和第二类型子字符串的区别是:第一类型子字符串能够与所 述本体词典中的本体直接匹配,所述第二类型子字符串不能够与所述本体词典中的本体直 接匹配。
[0050] 再次,对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子 字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的一个或多个本体。
[0051] 最后,输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配 的本体或与第二类型子字符串达到预设匹配条件的一个或多个本体。
[0052] 本发明中,"具有独立语义"是指切分出的这两类子字符串所表示的诊疗项目信息 不受其之前或之后的字符所影响,仅通过子字符串内部的各个字符即可确定其完整的医学 专业概念。例如,"椎管内麻醉"不能被切分为"椎管内"和"麻醉",因为仅"麻