中药的使用会威胁生物多样性吗？_【论文发表】_职称论文_教育论文_发表论文网

作者：王佑华, 陆金根, 柳涛, 季光, 周端, 郑培永

【摘要】 历代中医医案对中医理论的不断发展起着重要作用，而海量的医案数据远远超出了人的理解能力。从信息科学角度来看，中医医案数据是混乱而又复杂的经验数据。这导致了医案研究的困难，亟需新技术和新方法的引进，知识发现技术方法可能就是一种重要而有效的方法。本文简要介绍了中医医案中的知识发现技术方法，并提出具体研究思路，以期有助于实现医案研究技术创新。

【关键词】 中医; 医案; 知识; 技术; 数据

　　中医医案是中医临床医师实施辨证论治过程的文字记录，是保存、查核、考评乃至研究具体诊疗活动的档案资料［1］。在中医药学领域中，自古至今，从散在于各种史料中记录的医案雏形，到医案专著，医案一直伴随着中医药学的发展。随着医案记录的不断涌现，医案分析研究也层出不穷，在中医理论的形成发展传承过程中一直充满活力，是中医理论不断发展的摇篮。随着新技术、新方法不断引入中医药研究领域，应用现代科学技术方法对中医医案进行研究已经提上日程。

　　1 中医医案的特征与新技术新方法的引进

　　中医医案是中医理、法、方、药综合运用的具体反映形式，它不仅是医疗活动的真实记述，而且还反映了医家的临床经验及思维活动。由于医家所处时代不同，个人经历、学识、爱好和修养等各异，因此历代医案的数量、形式、体裁、风格和内容等亦在不断变化中。我国早在2 000多年前，名医淳于意就首先注意医案（诊籍）的记载。但秦汉以降，医家崇尚方书，此后直至隋唐五代，医案才逐渐散见于医籍和文史书中，数量少且内容简；宋金元时期医案专著开始出现，医籍附案逐渐增多，医家立案蔚然成风，医案风格异彩纷呈。医案发展至明代，开始有名医医案的专著出版，如江灌的《名医类案》。此期在医案数量增加的同时，质量也有了明显提高，主要表现为内容完整、客观；格式多样、规范；说理透彻、详明；文笔秀美、流畅［2］。明末清初医家喻嘉言在《寓意草》中撰“与门人定议病式”，在韩懋和吴昆等人的基础上，对撰写医案的内容与格式提出了更高的要求，即态度应严肃认真，内容应详尽，理法方药应齐备。而张山雷在撰写风格上，或继承明清两代的特点，或对传统医案加以变革，采用中西汇通的观点叙述医案。随着时代的不断进步，医案的数量也呈“爆炸式”增长。如隋唐五代前千百年的医案，数量少且内容简；而仅在清代，医家撰写的医案专著就达200余种，而且门类齐全，风格多样，既有个人医案、医案类书、医案丛书，又有专科医案、专题医案、会诊医案、医案评注及宫廷医案等；近十年公开出版的名老中医医案有近百种之多，每种收录医案数百则到千余则不等。古今医案内容也发生了很大变化［3］，向应用中医基本理论研究现代医学疾病的方向发展，注重记载现代医学已诊断明确的病名。常见的记载方式为中西医诊断并列，以利互参。医案记载实验室等客观检查的内容逐日增多，针对检查结果的辨治内容如“微观辨证”等随之出现。现代医案中处方用药的内容变化也较明显，医者不仅根据中医药理论选方用药，而且根据现代医学病理生理和中药药理进展来选方用药，医案中合用西药的现象越来越多。即便现代医案也存在着记载缺杂混乱、现代医学成分过多、文词晦涩、夸张不实等诸多问题［4］。从以上分析可知，从信息科学角度来看，中医医案数据将是混乱又复杂的经验数据。这些导致了中医医案研究的困难。随着科学技术的飞速发展，医学领域分工日益细化，跨专业的沟通变得更加困难，而某个专业领域的信息，可能对相关专业领域是有价值的，它们之间存在着某种隐含的有价值的关联，而以常规方式通常检索不到这种关联性。中医医案不仅涉及到临床内、外、妇、儿各科，还包含了中医学中的哲学基础、中医对正常人体和疾病的认识，以及中医食疗、养生和诊疗疾病的原则等方方面面，如何对其中隐含的知识进行解析与发现，必将是今后研究的热点与难点。而且中医药学科内仍然有大量的问题，甚至是一些基本性的问题得不到合理的、科学的解释，研究的空白比比皆是，这些都可能通过中医医案研究得到解决或启示。但以个人之力实难发现其中蕴含的有价值信息，而且以人工逐字研读名老中医医案，容易产生遗漏，来回翻页又很繁琐。要完成普通人不能完成的任务，这就需要有新技术新方法的引进，知识发现技术方法可能就是这样一种重要而有效的方法。

　　2 知识发现方法及其在中医医案研究中的应用

　　知识发现是指从数据集中识别出有效的、新颖的、潜在有用的，以及最终可被理解的模式的非一般的过程［5, 6］。知识发现是多学科交叉的新兴边缘学科。近年来，随着数据获取和数据存储技术的快速发展，各种数据库、数据集和数据仓库中存储的数据量飞速增长。如何从这些海量数据中提取出有用的知识呢？数据库中的知识发现（knowledge discovery in database, KDD）的出现为人们提供了一条解决这种“数据丰富而知识贫乏”困境的有效途径。当前国际上，知识发现的研究主要是以知识发现的任务描述、知识评价与知识表示为主线，以有效的知识发现算法为中心。知识发现过程一般由三个主要的阶段组成：数据准备、数据挖掘、结果表达和解释。知识的发现可以描述为这三个阶段的反复过程。中医医案中的知识发现也不例外。

　　2.1 数据准备要有效地利用KDD进行中医医案知识发现，首先必须进行数据准备工作。目前，在“中文科技期刊数据库（引文版）”、“中国期刊全文数据库”等数据库中，以发表论文的形式实现了部分现代医案的数据准备工作。此外仅少数专题性质的数据库收录了一些古今医案。再加上散见于古今医籍和文史书中的医案，中医医案的数据准备工作将是一个庞大的系统工程。中医医案的数据准备中具体要解决的是：设定并明确中医医案知识发现的目标；对中医医案数据加以充分理解；对相关的中医医案数据进行必要的预处理，使其符合KDD算法的要求；选用合适的KDD方法进行数据建模。其中中医医案中的知识发现的目标，可以从指导中医临床应用角度，对医案内容加以分析归纳研究，如对医者临证思维的阐释，对各医家、流派学术思想的探讨，各专科、专病、专症理法方药运用特点的归纳，以供临证学习参照，并可建立智能诊疗系统。也可以就其中蕴含的中医医理、药理进行研究，寻求中医药基础理论的新突破、中药新药的勘探等。

　　2.2 中医医案中的知识发现可能运用的主要技术

　　2.2.1 统计方法从历史上看，统计工作主要集中在测试预先的假说以及使模型适合于数据等。研究上，统计方法通常依赖于一个明确的潜在概率模型。此外，人们假定这些方法是由统计学家来使用的；为了生成候选假说和模型，人的干预是必要的。目前已有中医医案论文中用了频数统计的这种最粗浅的医学统计方法来进行研究，通过这种计量的研究使得结论更有说服力。如姜良铎［7］在董建华的指导下，运用统计学原理对古今700多医家10 009则温病医案进行分析，从而总结出温病诊断指标及证治方药规律。

　　2.2.2 聚类分析又称集群分析，是指利用物以类聚的原理，把大量无序的数据分成数类，有助于对大量数据中的规则予以认识，它是一种数理统计方法，可将一些观察对象依据某些特征加以归类，在生物学和医学分类问题中有着广泛的应用。在中医医案研究中，聚类分析能较好地避免分类过程中掺杂的主观因素，能客观地准确地反映研究对象，并从中可能发现其内在的客观规律［8］。如周德生［9］统计了明清时期26部现存医案中的津液亏损病案573例，采用R型系统聚类分析方法，得出津液亏损中每个亚型的几个主要用药，并揭示了明清时期津液理论的某些特征。

　　2.2.3 人工神经网络人工神经网络是指模拟人脑工作机制的一种计算模型，它是由非处理单元组成的非线性大规模自适应系统，以类似于人脑神经网络的并行处理结构进行信息的高级处理。由于它具有自适应性、并行处理能力和非线性处理的优点，所以在医学领域被广泛应用［10］。目前已有学者利用人工神经网络原理实现对病案的分析，用病症分类神经网络来说明知识自动获取方法的实现。它应用人工神经网络的反向传播算法（back propagation algorithm, BP），通过研究中医医案，形成专家知识，对BP网络进行训练，从而使网络获得一定的学习能力，将训练所“学习”而来的“知识”运用到新的病症判断中，从而实现对新知识的获取［11］。其虽然只是举了一个例子，但引进了医案分析的新方法。

　　2.2.4 决策树该树的每个非终端点均表示被考察数据项目的一个测试或决策，根据测试结果选择某个分支。为了分类一个特定数据项目，从报结点开始，一直向下判定，直到到达一个终端结点（或叶子）时为止。当到达一个终端结点时，一个决策便形成了。决策树也可解释成一种特殊形式的规则集，其特征是规则的层次组织关系。前已述及，中医医案数据是混乱又复杂的经验数据。而处理大量混乱而复杂的经验数据的一个很好的方法是决策树分类技术。利用知识发现中的决策树方法来对这些数据分析，可以为医生提供极具价值的知识，从而对临床医疗方案进行优化。目前已有研究者从医院病案室保存的冠状动脉粥样硬化性心脏病（简称冠心病）病案中选取了一些数据作为挖掘的原始数据集，进行了基于决策树的医疗数据分析，得到了良好的效果［12］。同样，我们也可以进行基于决策树的中医医案数据分析，从而优化传统的中医医疗方案。

　　2.2.5 模糊集与粗糙集模糊集是一种表达和处理不确定性的重要方法。不确定性以多种形式发生在今天的数据库模型中，如不精确、不完全、不典型、不一致、含糊，等等。模糊集利用不确定性使系统的复杂性变得可处理。当精确输入不可能或太昂贵时，模糊系统就是一种强有力的模型方法。粗糙集合理论中的模糊性就是一种基于边界的概念，即一个不精确的概念具有模糊的不可被明确划分的边界。粗糙集用一个集合的上下界来定义，下界中的每个成员都是这个集合的成员，而上界的每个非成员也一定是这个集合的非成员。粗糙集中的上界是下界和边界区域的并集。边界区域的成员可能（但是不能肯定）是这个集合中的成员。因此，粗糙集可以被看成是一个有三级成员函数（是，否，可能）的模糊集。象模糊集那样，粗糙集是处理数据不确定性的一种数学概念。与模糊集类似，粗糙集很少单独使用，而通常是与规则推导、分类、聚类等其他方法一起组合使用。已有学者基于奇异粗集及其元素迁移，研究其在中医药辨证诊治过程和中药方加减中的应用，设计一个基于双向S?粗集的中医药辨证诊治知识支持系统，为人工智能技术在中医药诊治领域中的应用开辟了一个新的思路［13］。我们也可以采用类似方法研究中医医案中蕴含的各医家辨证诊治思维过程，从而把中医药研究引向深入。

　　2.3 结果表述和解释是指根据最终用户的决策目的，对提取的信息进行分析，把最有价值的信息区分出来，并且通过决策支持工具交给决策者。在中医医案研究中，根据设定的中医医案知识发现的目标，例如关于疾病的诊断治法遣方用药的分析，对相关信息进行相应分析处理，由特定知识发现工具来实现。但结果仍需终端用户来判定是否符合中医药基本理论或者通过临床科研实践来进行验证。

　　3 非相关文献知识发现法及其在中医医案研究中的应用

　　3.1 非相关文献知识发现法概述随着科学技术的高度发展，学科的分化越来越细，学科间交流越来越困难，知识总量与人类吸收能力之间的矛盾日益突出。一个专业领域的信息可能对另一个专业领域是有价值的，跨学科间一定存在着潜在的未被发现的关联。这就是所谓“知识分裂理论”［14］。在大量分裂的知识或科学文献之间存在着千丝万缕的联系，这些联系既包括我们通过常规组配检索可得到的显性的联系（或知识），也包括那些常规检索得不到的隐性的联系（或知识）。1985年Swanson偶然发现，两篇医学文献放在一起会揭示出某一个问题的答案，而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。Swanson认为，将两类非直接相关的文献结合在一起分析，会形成一种新的知识，而这种新的知识是通过单独分析两类文献中的任何一类而得不到的。这就是他的非相关文献的知识发现思想［15, 16］。在大量的文献中，一些文献可能相互引用，文献间存在着人们可利用数据库检索到的显性联系；有些文献互不引用或很少被共同引用，则称这两类文献是相互独立的，也就是非相关的。一些非相关文献通过各自提出的观点联系在一起，形成逻辑关联。这种联系通过常规的数据库检索是检不到的，是未被发现的隐密的联系，是新知识的源泉，可能对科研的发展具有重大意义［17］。常规的联机医学文献分析检索系统（MEDLINE）检索方式是通过给定的题目检索已发表的文献。为了扩展MEDLINE检索功能，克服其局限性，Swanson设计了一个人机交互的软件系统，并制定了相应的数据库检索策略，称为Arrowsmith，用于分析研究非相关的互补文献，更加易于在两组生物医学文献间发现互补性结构［18］。在Swanson的研究方法的基础上，很多研究人员对基于非相关文献的知识发现方法进行了改进。Gordon和Lindsay改进了Swanson的基于单词的词频统计方法，利用基于短语的词频统计方法，引入了四个参数来获得短语的最终词频，验证了雷诺病（Raynaud），鱼油（fish oil）之间的关联［19, 20］。Weeber等［21］利用一体化医学语言系统（Unified Medical Language System, UMLS）的语义类型实现了自然语言与UMLS概念的映射。这种语义筛选的机制能够产生概念的聚类，尤其是中间集合的概念的聚类。Srinivasan［22］将Weeber的语义分析方法和Gordon的词频统计方法结合起来提出基于概念的词频统计方法，将自然语言通过医学主题词表（medical subject headings, MeSH）与UMLS的语义类型联系起来，并利用Gordon的统计参数，计算概念之间的相关性。

[1] [2] 下一页

优势期刊

中药的使用会威胁生物多样性吗？