作者:王佑华, 陆金根, 柳涛, 季光, 周端, 郑培永 【摘要】 历代中医医案对中医理论的不断发展起着重要作用,而海量的医案数据远远超出了人的理解能力。从信息科学角度来看,中医医案数据是混乱而又复杂的经验数据。这导致了医案研究的困难,亟需新技术和新方法的引进,知识发现技术方法可能就是一种重要而有效的方法。本文简要介绍了中医医案中的知识发现技术方法,并提出具体研究思路,以期有助于实现医案研究技术创新。 【关键词】 中医; 医案; 知识; 技术; 数据 中医医案是中医临床医师实施辨证论治过程的文字记录,是保存、查核、考评乃至研究具体诊疗活动的档案资料[1]。在中医药学领域中,自古至今,从散在于各种史料中记录的医案雏形,到医案专著,医案一直伴随着中医药学的发展。随着医案记录的不断涌现,医案分析研究也层出不穷,在中医理论的形成发展传承过程中一直充满活力,是中医理论不断发展的摇篮。随着新技术、新方法不断引入中医药研究领域,应用现代科学技术方法对中医医案进行研究已经提上日程。 1 中医医案的特征与新技术新方法的引进 2 知识发现方法及其在中医医案研究中的应用 2.1 数据准备 要有效地利用KDD进行中医医案知识发现,首先必须进行数据准备工作。目前,在“中文科技期刊数据库(引文版)”、“中国期刊全文数据库”等数据库中,以发表论文的形式实现了部分现代医案的数据准备工作。此外仅少数专题性质的数据库收录了一些古今医案。再加上散见于古今医籍和文史书中的医案,中医医案的数据准备工作将是一个庞大的系统工程。中医医案的数据准备中具体要解决的是:设定并明确中医医案知识发现的目标;对中医医案数据加以充分理解;对相关的中医医案数据进行必要的预处理,使其符合KDD算法的要求;选用合适的KDD方法进行数据建模。其中中医医案中的知识发现的目标,可以从指导中医临床应用角度,对医案内容加以分析归纳研究,如对医者临证思维的阐释,对各医家、流派学术思想的探讨,各专科、专病、专症理法方药运用特点的归纳,以供临证学习参照,并可建立智能诊疗系统。也可以就其中蕴含的中医医理、药理进行研究,寻求中医药基础理论的新突破、中药新药的勘探等。 2.2 中医医案中的知识发现可能运用的主要技术 2.2.1 统计方法 从历史上看,统计工作主要集中在测试预先的假说以及使模型适合于数据等。研究上,统计方法通常依赖于一个明确的潜在概率模型。此外,人们假定这些方法是由统计学家来使用的;为了生成候选假说和模型,人的干预是必要的。目前已有中医医案论文中用了频数统计的这种最粗浅的医学统计方法来进行研究,通过这种计量的研究使得结论更有说服力。如姜良铎[7]在董建华的指导下,运用统计学原理对古今700多医家10 009则温病医案进行分析,从而总结出温病诊断指标及证治方药规律。 2.2.2 聚类分析 又称集群分析,是指利用物以类聚的原理,把大量无序的数据分成数类,有助于对大量数据中的规则予以认识,它是一种数理统计方法,可将一些观察对象依据某些特征加以归类,在生物学和医学分类问题中有着广泛的应用。在中医医案研究中,聚类分析能较好地避免分类过程中掺杂的主观因素,能客观地准确地反映研究对象,并从中可能发现其内在的客观规律[8]。如周德生[9]统计了明清时期26部现存医案中的津液亏损病案573例,采用R型系统聚类分析方法,得出津液亏损中每个亚型的几个主要用药,并揭示了明清时期津液理论的某些特征。 2.2.3 人工神经网络 人工神经网络是指模拟人脑工作机制的一种计算模型,它是由非处理单元组成的非线性大规模自适应系统,以类似于人脑神经网络的并行处理结构进行信息的高级处理。由于它具有自适应性、并行处理能力和非线性处理的优点,所以在医学领域被广泛应用[10]。目前已有学者利用人工神经网络原理实现对病案的分析,用病症分类神经网络来说明知识自动获取方法的实现。它应用人工神经网络的反向传播算法(back propagation algorithm, BP),通过研究中医医案,形成专家知识,对BP网络进行训练,从而使网络获得一定的学习能力,将训练所“学习”而来的“知识”运用到新的病症判断中,从而实现对新知识的获取[11]。其虽然只是举了一个例子,但引进了医案分析的新方法。 2.2.4 决策树 该树的每个非终端点均表示被考察数据项目的一个测试或决策,根据测试结果选择某个分支。为了分类一个特定数据项目,从报结点开始,一直向下判定,直到到达一个终端结点(或叶子)时为止。当到达一个终端结点时,一个决策便形成了。决策树也可解释成一种特殊形式的规则集,其特征是规则的层次组织关系。前已述及,中医医案数据是混乱又复杂的经验数据。而处理大量混乱而复杂的经验数据的一个很好的方法是决策树分类技术。利用知识发现中的决策树方法来对这些数据分析,可以为医生提供极具价值的知识,从而对临床医疗方案进行优化。目前已有研究者从医院病案室保存的冠状动脉粥样硬化性心脏病(简称冠心病)病案中选取了一些数据作为挖掘的原始数据集,进行了基于决策树的医疗数据分析,得到了良好的效果[12]。同样,我们也可以进行基于决策树的中医医案数据分析,从而优化传统的中医医疗方案。 2.2.5 模糊集与粗糙集 模糊集是一种表达和处理不确定性的重要方法。不确定性以多种形式发生在今天的数据库模型中,如不精确、不完全、不典型、不一致、含糊,等等。模糊集利用不确定性使系统的复杂性变得可处理。当精确输入不可能或太昂贵时,模糊系统就是一种强有力的模型方法。粗糙集合理论中的模糊性就是一种基于边界的概念,即一个不精确的概念具有模糊的不可被明确划分的边界。粗糙集用一个集合的上下界来定义,下界中的每个成员都是这个集合的成员,而上界的每个非成员也一定是这个集合的非成员。粗糙集中的上界是下界和边界区域的并集。边界区域的成员可能(但是不能肯定)是这个集合中的成员。因此,粗糙集可以被看成是一个有三级成员函数(是,否,可能)的模糊集。象模糊集那样,粗糙集是处理数据不确定性的一种数学概念。与模糊集类似,粗糙集很少单独使用,而通常是与规则推导、分类、聚类等其他方法一起组合使用。已有学者基于奇异粗集及其元素迁移,研究其在中医药辨证诊治过程和中药方加减中的应用,设计一个基于双向S?粗集的中医药辨证诊治知识支持系统,为人工智能技术在中医药诊治领域中的应用开辟了一个新的思路[13]。我们也可以采用类似方法研究中医医案中蕴含的各医家辨证诊治思维过程,从而把中医药研究引向深入。 2.3 结果表述和解释 是指根据最终用户的决策目的,对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具交给决策者。在中医医案研究中,根据设定的中医医案知识发现的目标,例如关于疾病的诊断治法遣方用药的分析,对相关信息进行相应分析处理,由特定知识发现工具来实现。但结果仍需终端用户来判定是否符合中医药基本理论或者通过临床科研实践来进行验证。 3 非相关文献知识发现法及其在中医医案研究中的应用 3.1 非相关文献知识发现法概述 随着科学技术的高度发展,学科的分化越来越细,学科间交流越来越困难,知识总量与人类吸收能力之间的矛盾日益突出。一个专业领域的信息可能对另一个专业领域是有价值的,跨学科间一定存在着潜在的未被发现的关联。这就是所谓“知识分裂理论”[14]。在大量分裂的知识或科学文献之间存在着千丝万缕的联系,这些联系既包括我们通过常规组配检索可得到的显性的联系(或知识),也包括那些常规检索得不到的隐性的联系(或知识)。1985年Swanson偶然发现,两篇医学文献放在一起会揭示出某一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。Swanson认为,将两类非直接相关的文献结合在一起分析,会形成一种新的知识,而这种新的知识是通过单独分析两类文献中的任何一类而得不到的。这就是他的非相关文献的知识发现思想[15, 16]。在大量的文献中,一些文献可能相互引用,文献间存在着人们可利用数据库检索到的显性联系;有些文献互不引用或很少被共同引用,则称这两类文献是相互独立的,也就是非相关的。一些非相关文献通过各自提出的观点联系在一起,形成逻辑关联。这种联系通过常规的数据库检索是检不到的,是未被发现的隐密的联系,是新知识的源泉,可能对科研的发展具有重大意义[17]。常规的联机医学文献分析检索系统(MEDLINE)检索方式是通过给定的题目检索已发表的文献。为了扩展MEDLINE检索功能,克服其局限性,Swanson设计了一个人机交互的软件系统,并制定了相应的数据库检索策略,称为Arrowsmith,用于分析研究非相关的互补文献,更加易于在两组生物医学文献间发现互补性结构[18]。在Swanson的研究方法的基础上,很多研究人员对基于非相关文献的知识发现方法进行了改进。Gordon和Lindsay改进了Swanson的基于单词的词频统计方法,利用基于短语的词频统计方法,引入了四个参数来获得短语的最终词频,验证了雷诺病(Raynaud),鱼油(fish oil)之间的关联[19, 20]。Weeber等[21]利用一体化医学语言系统(Unified Medical Language System, UMLS)的语义类型实现了自然语言与UMLS概念的映射。这种语义筛选的机制能够产生概念的聚类,尤其是中间集合的概念的聚类。Srinivasan[22]将Weeber的语义分析方法和Gordon的词频统计方法结合起来提出基于概念的词频统计方法,将自然语言通过医学主题词表(medical subject headings, MeSH)与UMLS的语义类型联系起来,并利用Gordon的统计参数,计算概念之间的相关性。 |