35卷6期 2016年12月 中 国 生物 医学 工 程学报 Chinese Journal of Biomedical Engineering Vo1.35 NO.6 Deeember 2O16 方剂配伍规律的可视化表示方法与知识发现 樊凤杰 洪文学 宋佳霖 李少雄 郑存芳 066004) 066004) (燕山大学电气工程学院生物医学工程系,河北秦皇岛(东北大学大数据分析中心,河北秦皇岛摘要:方剂配伍规律研究是中医现代化研究的核心问题之一。随着数据挖掘技术的发展和中医信息化的逐渐 深入,很多数据挖掘方法已被应用到方剂配伍规律研究领域。基于形式概念分析理论,提出一种偏序结构图分层 表示的方剂配伍知识可视化方法。以《张仲景方方族》中小青龙汤类方剂为例,说明知识发现过程。以该类方剂中 的方剂与药物、证候与药物为对象和属性分别构建偏序结构图,依据属性特征定义及偏序结构图的层次关系分析 方剂配伍规律。结果表明,根据方剂与药物偏序结构图的层次和涵盖支路情况,可以直观地发现小青龙汤类方剂 中包含1味核心药五味子;高频药物包括细辛和半夏,其中细辛出现频次为13次,半夏出现频次为1O次;常用的药 对有8对,药组有3组。从不同簇集角度分析可以发现,小青龙汤类方剂可以聚类为5大簇集,每个簇集的方剂组 成、主治功效等具有共性。根据证候与药物偏序结构图可以发现,除小青龙汤证候外,12个证候均是在小青龙汤证 候基础上加减变化而成的。可见,偏序结构图可视化表示方法可清晰地反映出方剂与药物、药物与证候之间的配 伍群结构。 关键词:形式概念分析;偏序结构图;方剂配伍;知识发现;可视化 中图分类号 R2—03 文献标志码 D 文章编号0258—8021(2016)06 ̄764.05 Visualization Method and Knowledge Discovery of Prescription Composition Fan Fengjie Hong Wenxue ・ Song Jialin Li Shaoxiong Zheng Cunfang (Institute of Biomedical Engineering,College of Electrical Engineering,Yanshan University,Qinhuangdao 066004,China) (Big Data Visualization Technology Center,Northeastern University,Qinghuangdao 066004,China) Key words:formal concept analysis(FCA);partial ordered structure diagram;prescription compatibility; knowledge discovery;visualization 引言 中医药几千年临床实践积累了大量方剂,载录 论进行研究。。 。陶金火用中医药语义本体概念名 称将文献中的关键词提取出来,再用相关算法筛选 出高频的词组,并对他们进行基于中医语义本体知 了中医组方用药的原理、规则、经验和技巧,已知和 识库的语义关系识别或预测,最后生成若干个对应 每组关键词的语义关系图 。高铸烨等用复杂网 络,挖掘分析冠心病证候一治法一中药关系,建立证 候.治法复杂网络图、证候一药物复杂网络图和证候一 未知的配伍规律包含于其中,数据挖掘技术为中医 药知识发现研究奠定了基础¨ 。 近年来,可视化数据挖掘技术在中医药研究领 域被日益重视。吴朝晖等运用语义图挖掘技术,挖 掘出方剂配伍中频繁出现的医学模式,结果表明该 功效复杂网络图,发现冠心病中医临床诊疗符合理 法方药相一致的原则,并挖掘出治疗冠心病的清热 方法能提取出有价值的方剂配伍信息 。高晶提 出构建梯状结构图,对方剂群结构进行研究 。李 敬华等设计方剂树形分析工具,对中药“基本方”理 doi:10.3969/j.issn.0258-8021.2016.06.019 治法、解毒治法 。刘超男等用多层次复杂概念网 络,挖掘《伤寒论》配伍知识的群结构 。翟海斌等 利用决策树技术,对血瘀证病例数据进行分析处 收稿日期:2015 ̄7-02,录用日期:2016-03-27 基金项目:国家自然科学基金(61201lll,61074130,81273740) 通信作者(Corresponding author),E-mail: mz@126.corn 6期 樊风杰,等:方剂配伍规律的可视化表示方法与知识发现 5'65 理,结果表明决策树能自动从中医病例中归纳诊断 规则 。尚尔鑫等将不同瘀血证证型的四物汤类 方从组方、药物、性味归经及功效等方剂信息表现 在三维图形上,以寻找各类血瘀证型方剂对图形中 的共同节点,分析四物汤类方治疗血瘀证的用药特 点 。可视化数据挖掘的实质是一种发现知识的 应用技术,是一个提取有用信息的过程。将可视化 数据挖掘技术应用于中医药研究领域,可在一定程 度上发现和认识临床病症与复方组方关系、复方药 物的配伍关系、药味之间的相互作用关系等。 形式概念分析(formal concept analysis,FCA)是 20世纪80年代德国的Wille教授将其作为一种数 学理论提出来的。目前,FCA是进行数据挖掘和可 视化表示的有力工具,已被广泛应用到机器学习、 软件工程和信息获取等领域 。洪文学等基于 形式概念分析理论,提出把大量的、不完全的、繁杂 的中医数据表达在偏序结构图中,用可视化的方式 使医生的临床经验真实地展现在人们面前,从而找 出隐含在辨证论治背后的诊疗规律和规则,指导临 床实践 。下面将基于偏序结构图的可视化方 法应用于方剂配伍规律知识挖掘研究,为方剂配伍 规律研究提供新的思路。 1 材料和方法 1 O 1 1 O 1 0 O 1.1形式背景 以北京中医药大学傅延龄教授主编的《张仲景 方方族》中小青龙汤类方剂为数据源,以excel 2007 为数据存储工具,以方剂.药物(包括16首方剂和 28味药物)、证候-药物(包括13个证候和22味药 物)为对象和属性,生成形式背景。 形式背景通常用一个矩形表来表示,表的每一行 是一个对象,每一列是一个属性。用数字1,2,3,…,n 表示对象.方剂或证候,用o,b,c,…表示属性.方剂中 的药物,当某方剂中含有某味药物或治疗某证候用到 某味药物时,则在行列交叉处标记1,否则标记为0。 表1为某对象和属性构成的形式背景的例。 1.2 方法 1.2.1属性特征的定义 为了清楚地描述偏序结构图的构建方法。下面 介绍一些相关的定义。 定义1:在形式背景K=( , ,,)中,属性 m∈M,且满足{g(m)I m∈M}=U,则称m为最 大共有属性。 表1形式背景的例 Tab.1 An example of the formal context 对象\属性 定义2:在形式背景K=( , ,,)中,m。,m , m ,…,m ∈M是一些属性,如果满足g(m ) g(m。),其中i=1,2,3,…,k,且k≥2,则称在形式 背景 中,属性m。为属性集合{m。,m:,…,m }的 共有属性。 定义3:在形式背景K=( ,M,,)中,若属性 m 和属性m ,满足g(m ) g(mj),(i≠J),则在形 式背景 中,称属性m 是属性m 的伴生属性。 定义4:若属性m 和m 满足g(m )Ug(m )= U,g(m )ng(m )= ,则称m 、m:为对立属性。 定义5:在形式背景K=( , ,,)中,mi,m,∈ ,且i≠ ,如果同时满足g(m ) (mj)≠ , g(m ) g(m )^g(m ) g(m ),则称属性m 和 m 为形式背景K的互不包含属性。 1.2.2偏序结构图构建 基于形式概念分析的偏序理论构造的偏序结 构图可以分为若干层,每一层都包含若干个节点, 每个节点代表一个属性,上层节点与下层节点间有 连线,连线为对象,其构建步骤如下。 步骤1:若形式背景中存在最大共有属性 {( U))},则第1层属性节点为{( U))};形式 背景中若不存在最大共有属性,则第1层属性节 点为 。 步骤2:偏序结构图第2层节点是{(m)l m∈ },其中属性集合 。是形式背景K=(G,M,,) 中的一个基本属性集合,其确定应先判定形式背景 中是否含有可以覆盖全部对象集合的对立属性,若 未有满足此项条件的对立属性,则选择可以覆盖全 部对象集合的最少互不包含元素的两两互不包含 属性作为该层的属性集合,每一个(m)都表示一个 序列,每个序列只含有一个属性,均是此层次的一 个节点,且从偏序结构图的首层节点{( U))}到 第一层节点集合{(m)l m∈M。}中的每一个属性 节点<m)都用一条有向边链接。 中 国生物 医学工程学报 步骤3:根据第2步,若将偏序结构图的第t层 属性节点集合表示为{P ..,P },则第t+1层的 属性节点集合可表示为u 。{P l q∈占(P )}。 同理,从偏序结构图第t层属性节点P 到t+1层属 性节点之间存在一条有向边。 步骤4:偏序结构图的最底层有且只有一个节 点,当且仅当某一层有节点P、满足g(P)3 t_J (g(Q)n g(P)I Q 6(P)}时,有一条从P到(m) 的有向边,并称P为g(P)]u(g(Q)n g(P)l Q 6(尸)}的原始模式。 所构建表1的偏序结构如图1所示。 图1表1形式背景的偏序结构 Fig.1 The partial ordered structure diagram of table 1 2 结果 根据偏序结构图的构建方法,构建小青龙汤类 方的方剂.药物、证候一药物偏序结构图,如图2、3所 示。基于偏序结构图,可以从群结构、支路和节点 等不同角度对原始数据进行知识发现。 2.1方剂・药物偏序结构图 在图2中,01~016对象依次为:01苓甘五味加 姜辛半杏大黄汤,02苓甘五味加姜辛半夏杏仁汤, 03补肺汤,04桂苓五味甘草去桂加干姜细辛半夏 汤,05小青龙加石膏汤,06厚朴麻黄汤,07小青龙 汤,08温肺汤,09杏子汤,010射干麻黄汤,O11温肺 散,012苓甘五味姜辛汤,013五味子散,014杏仁五 味子汤,015桂苓五味甘草汤,016干姜汤;属性 al~a28依次为:a1五味子,a2细辛,a3半夏,a4干 姜,a5甘草,a6茯苓,a7麻黄,a8杏仁,a9炙甘草, alO紫苑,al1炮姜,a12桂枝,a13桂心,a14芍药, a15石膏,a16射干,a17款冬花,al8人参,a19陈皮, a20白芍,a21生姜,a22大枣,a23厚朴,a24小麦, a25大黄,a26苏子,a27桑白皮,a28肉桂。 图2方剂与药物偏序结构图 Fig.2 The partial ordered structure diagram between prescription and drug 2.1.1从层次角度分析 1)最大共有属性:核心药(必用药)。图2中共 有15层节点,{a1五味子}为第1层(最顶层)节点, 根据最大共有属性定义可知,所有的对象(方剂)中 均含有属性五味子这味药,说明五味子是小青龙汤 类方的核心药。 2)共有属性:基础药(高频药)。由于偏序结构 图是根据属性之间的包含关系逐层构建的,使得高 频属性位于较高层次,因此位于较高层次的药物即 为高频药。属性{a2细辛}位于偏序图的第2层,出 现在支路O1~013方剂中,{a3半夏}位于偏序图的 第3层,仅次于细辛,出现在01~010方剂中,说明 细辛、半夏为小青龙汤类方剂的基础药(高频药), 在小青龙汤类方剂中起到了很重要的作用。 3)伴生属性:药组、药对。在偏序结构图中,伴 生属性与其有伴生关系的属性一定在同一分支上。 由偏序图可知,{a1五味子}一{a2细辛}、{a1五味 子}一{a3半夏}、{a1五味子}一{a4干姜}是小青 龙汤类方剂的常用药对。同理,{a2细辛}一{a3半 夏}、{a2细辛}一{a4干姜}、{a2细辛}一{a5甘 草}、{a3半夏}一{a4干姜}、{a3半夏}一{a5甘 草}在小青龙汤类方中也常一起使用。另外,{al五 味子}一{a2细辛}一{a3半夏}、{al五味子}一{a2 细辛}一{a4干姜}、{a2细辛}一{a3半夏}一{a4 干姜}等是常用的药组。 6期 樊凤杰,等:方剂配伍规律的可视化表示方法与知识发现 2.1.2从簇集角度分析 醉;O7形肿;08头眩冒而呕;09若渴;010冲气已平, 支饮复作之咳嗽,胸满;O11胸满,痰声漉漉,倚息不 能平卧;012咳而上气;013气从少腹上冲胸咽。属 性al—a22依次是:a1麻黄,a2芍药,a3干姜,a4桂 枝,a5炙甘草,a6细辛,a7五味子,a8半夏,a9栝楼 根,alO荛花,al1附子,a12杏仁,a13石膏,a14射 从偏序结构图2中的不同簇集角度,可以将簇 集分为5大类:第1类是以{al,a2,a3,a4,a5}: {五味子,细辛,半夏,干姜,甘草}为顶点集合而成, 包括0l一05号方剂,其中O2苓甘五味加姜辛半夏 杏仁汤、03补肺汤、04桂苓五味甘草去桂加干姜细 辛半夏汤均有温肺散寒、化饮、化痰、消肿功效。而 干,a15生姜,a16紫苑,a17款冬花,a18大枣,a19厚 其余2首方剂01苓甘五味加姜辛半杏大黄汤和05 小青龙加石膏汤除了有化饮作用外,兼有泻热作 用。第2类是以{al,a2,a3,a4,a7}={五味子,细 辛,半夏,干姜,麻黄I为顶点集合而成,包括06厚 朴麻黄汤和07小青龙汤2首方剂,小青龙汤为治疗 寒饮证的代表方剂,具有解表化饮、止咳平喘之功。 厚朴麻黄汤解表化饮,清泻肺热,主治寒饮犯肺,气 逆咳喘,表证未清,内有郁热之证。第3类是以{al, a2,a3,a9,al1,a20}={五味子,细辛,半夏,炙甘草, 炮姜,白芍}为顶点集合而成,包括08温肺汤和09 杏子汤2首方剂,均治疗因虚饮停之证,温肺汤主治 肺虚、久客寒饮、发则喘咳,杏子汤主治内伤、外感 咳嗽、虚劳咳血痰饮停积之证。第4类是以{a1,a2, a6}={五味子,细辛,茯苓}为顶点集合而成,包括 O11温肺散和012苓甘五味姜辛汤2首方剂,其共 有药物是五味子、细辛、茯苓,其中温肺散是在共有 药物基础上加炙甘草和炮姜,而苓甘五味姜辛汤是 在共有药物基础上加甘草和干姜。干姜和炮姜都 有温肺化饮功效,但干姜辛热,燥烈之性强,炮姜性 苦温,辛燥之性较干姜弱,温里之力不如干姜迅猛, 但作用缓和持久。甘草偏于止咳化痰,炙甘草偏于 补中气,说明温肺散所致的寒饮证较苓甘五味姜辛 汤轻,苓甘五味姜辛汤治疗支饮反复发作,而温肺 散治疗肺中寒之咳嗽。第5类是以{a1,a6}={五 味子,茯苓}为顶点集合而成,包括014杏仁五味子 汤和015桂苓五味甘草汤2首方剂。前方治疗寒饮 兼气逆上冲之证,以平冲气为主;后方治疗痰饮居 肺、阻滞肺阳所致的咳嗽短气之证,以止咳为主。 根据上述分析可知,同一簇集中各方剂主治、 功效基本上有共性之处,但也存在某些方剂功效不 一致却存在于同一簇集中的情况,如第2类簇集中 的2首方剂。 2.2证候-药物偏序结构图 图3是以证候为对象、以药物为属性构建形式 背景的偏序结构图。其中,对象01—013依次是:01 咳而上气,烦躁而喘;02干呕,发热而咳;03若小便 不利,少腹满;04若轻微腹泻;05若噎;06面热如 朴,a20小麦,a21茯苓,a22大黄。 ~~ ~~~ 。 , ~ 一—~ 镕 l all ≯ l | 1 砬1 ~ ~'a 4: ̄21 0l3 、、、 。 。。。。a 。 \ / 。08 a 。 。 I \| 20 u 2、 o7 §誊9 e“ 1 o2 03 04 o5 06 o9 la。。lIa 。 01 0li 0l2 .、 \ /: /二 一 图3证候与药物偏序结构图 Fig.3 The partial ordered structure diagram between syndrome and drug 从层次角度分析,依然可看出a7五味子是小青 龙汤类方剂的核心药,a6细辛、a3干姜是基础药。 从不同簇集角度分析,可以将簇集分为两大 类:第1类是以{a7,a6,a3,a5,a8,a4,a2}={五味 子,细辛,干姜,炙甘草,半夏,桂枝,芍药}为顶点的 簇集,包括01~05支路。该簇集的子簇集{a7,a6, a3,a5,a8,a4,a2,al}={五味子,细辛,干姜,炙甘 草,半夏,桂枝,芍药,麻黄}药物组合为小青龙汤的 构成药物,即02支路。此方具有外散风寒、内除水 饮之功,重在温化寒饮,是表里双解的代表方剂。 若水饮之邪郁久化热,则加a13石膏以清除烦热,即 01支路,此方为小青龙加石膏汤。治疗除小青龙汤 主证外,若同时出现小便不利、少腹满之证,则在小 青龙汤方的基础上去掉a1麻黄加a12杏仁,即03 支路。若同时出现轻微腹泻,则去掉a1麻黄加alO 荛花,即04支路。若出现噎,则去掉a1麻黄加al1 附子,即05支路。第2类簇集是以{a7,a6,a3,a5, a8,a21}={五味子,细辛,干姜,炙甘草,半夏,茯 苓}为顶点的簇集,包括O6~08支路。其中,08支 路为小青龙汤方去掉a1麻黄,a2芍药,a4桂枝,加 768 中 国 生物医学工程学报 a21茯苓,用于治疗头眩冒而呕。若出现形肿则在 此基础上加a12杏仁,即07支路。若有面热如熏表 有很好的应用前景,以领域中的一种或一类知识作 为一个概念,以知识之间的关联作为概念之间的关 现,则加a22大黄以泄热,即06支路。 此外,其他支路的证候均是在小青龙汤方剂的 基础上加减而成的。若冲气已平、支饮复作,即010 支路,则在小青龙汤方剂的基础上减去a1麻黄,a2 芍药,a4桂枝,a8半夏,加a21茯苓。若渴,即09支 路,则减去a8半夏,加a9栝楼根。若胸满,痰声漉 漉,喘息不能平卧,即011支路,则去掉a2芍药,a4 桂枝,a5炙甘草,加a12杏仁,a13石膏,a19厚朴, a20小麦。若咳而上气,喉中水鸡声,即012支路, 则减a2芍药,a3干姜,a4桂枝,a5炙甘草,加a14射 干,a15生姜,a16紫苑,a17款冬花,a18大枣;若气 从少腹上冲胸咽,则去a1麻黄,a2芍药,a3干姜,a6 细辛,a8半夏,加a21茯苓。 3讨论和结论 偏序结构图为一个封闭非循环的树形拓扑结 构,最顶层和最底层有且只有一个节点,每一个节 点代表一种属性,每一条支路代表一个对象,且边 的方向是单向的,不能往返。一些对象聚集在一个 或多个共有属性节点下,组成一个群结构,简称为 集群或簇集,而且支路与支路之间不存在交叉,明 确体现了层次结构,使知识体系的呈现更加简洁。 在偏序结构图中,层次越高,涵盖支路越多,越体 现普遍性;反之,层次越低,涵盖支路越少,越体现特 异性。根据层次和涵盖支路的情况,可以直观地发现 类方中的核心药、基础药、高频药以及药对、药组等知 识。类似的对象集中到不同的簇中,即同一簇集中各 方剂组成、主治功效等有共性之处。当簇集越小、涵 盖分支越少时,所包含的方剂共性越大,产生差异的 原因越清晰。反之,簇集越大,涵盖分支越多时,所包 含的方剂共性越不明显,产生差异的原因越复杂。因 此,从簇集角度分析可以发现各方剂组成、主治功效 等的共性之处,更加全面清晰地反映出方剂与药物、 药物与证候之间的配伍群结构。 相对于传统的数据挖掘方法,偏序结构图方法 不仅具有可视化效果,而且能可视化表达出传统数 据挖掘方法的频次、聚类和关联分析,是将统计分 析各种方法集成到一个框架下的知识发现方法。 数据分析结果表明,该方法对挖掘中医药知识有一 定的借鉴价值。对药物剂量与功效、症状与证候关 联性等的知识挖掘,是今后进一步的研究工作。利 用此理论和方法不局限于中医领域,在其他领域也 系,可将其作为一个知识系统进行分析推理研究。 参考文献 [1] 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的 应用[J].中国生物医学工程学报,2001,20(4):357—363. [2] 钟女娟,宋咏梅,刘更生,等.中药经验要素贝叶斯网络模型构 建及应用[J].山东大学学报(医学版),2012,50(2):157— 160. [3] 张博.基于关联规则的数据挖掘技术在中药方剂配伍中的应 用研究[J].甘肃联合大学学报(自然科学版),2011,25(1): 82—86. [4] Wu Zhaohui,Yu Tian,Chen Hejia,et a1.Semantic Web Development for Traditional Chinese Medicine[C]//In proceedings of the Twentieth Innovative Applications of Artiifcial Intelligence Conference(IAAI一08),2008:238—242. [5] Gao Jing.A Study of the Composition Structures of TCMP reseriptions[J].World Science and Technology,2008,3(1):67— 7O. [6]Li Jinghua.A Study of TCP Basic Prescriptions and the Design of Tree shape analysis tools[J].Traditional Chinese Medicine Information Magazine,2008,12(10):89—91. [7] 陶金火,陈华钧,胡雪琴.中医药文献语义关系图发现[J].计 算机科学,2011,38(3):214—217. [8] 高铸烨,张京春,徐浩,等.用复杂网络挖掘分析冠心病证候- 治法一中药关系[J].中西医结合学报,2010,8(3):238—243. [9] 刘超男,徐笋晶,李赛美,等.基于多层次复杂概念网络表示 方法的《伤寒论》方药按治法分类的知识发现[J].北京中医 药大学学报,2014,37(7):452—457. [1O] 尚尔鑫,范欣生,段金廒,等.基于三维图形化数据挖掘方法 的四物汤类方配伍规律研究[J].中国实验方剂学杂志, 2011,17(1):217—220. [11]瞿海斌,毛利锋,王阶.基于决策树的血瘀证诊断规则自动归 纳方法[J].中国生物医学工程学报,2005,24(6):699—711. [12] Jonas Poelmans,Sergei 0.Kuznetsov,Dmitry I.Ignatov,et a1. Formal Concept Analysis in knowledge processing:A survey on models and techniques[J].Expert Systems with Applications, 2013,40(16):6601—6623. [13]蒋平,任胜兵,林鹃.形式概念分析在软件工程中的应用[J]. 计算机技术与发展,2008,18(4):127—129. [14] 康向平,李德玉.一种基于形式概念分析的粗糙集中的知识 获取方法[J].山西大学学报(自然科学版),2011,34(3): 415—420. [15]Hong Wenxue,Li Shaoxiong,Yu Jianping,et a1.A New Approach of Generation of Structural Partial-ordered Attribute Diagram[J].ICIC Express Letters Part B Applications,2012,3 (4):823—830. [16]Hong Wenxue,Yu Jianping,Cai Fei,et a1.A New Method of Attribute Reduction for Decision Formal Context[J].ICIC Express Letters Part B Applications,2012,3(5):1061—1068.