运用数据挖掘技术检测金融欺诈行为 据挖掘是对数据进行深层次加工和分析的信息处理 技术,对金融欺诈行为进行检测和预防是其在金融 领域的新应用。通过数据挖掘技术对客户、员工以及金融 交易双方行为进行归类并对其监督,可以有效跟踪检测违 规操作等欺诈行为并对其可能带来的损失进行预测,从而 达到防范金融风险的目的,甚至预防金融危机的产生。 一、金融欺诈的行为特征 面对金融市场中的万千金融产品及其衍生品,金融欺 诈行为呈现多样化。按涉及的金融产品可分为贷款欺诈、 存款欺诈、票据欺诈、证券欺诈、银行卡欺诈、保险欺诈 和金融衍生产品欺诈等。从行为来源可以划分为外部威胁 和内部威胁两类。按欺诈手段,可以分为3种类型:一是 利用银行交易系统,进行非法侵入或违规操作,谋取不正 当利益;二是提供虚假承诺或虚假信用保证资料进行欺诈; 三是通过隐瞒重要信息,人为制造信息不对称进行欺诈。 例如,在证券市场大量的内幕交易以及在衍生产品推销过 程中故意隐藏可能产生的风险,运用各种手段操控市场以 期套利。 二、数据挖掘技术应用于金融欺诈检测 欺诈所涉及的交易行为一般具有非正常或非公平交易 的属性。由于缺乏公平公正的交易动机和与实体经济活动 相一致的资金运动规律,或有异于一般客户和账户的运用 行为,呈现各种异常特征,包括交易所行为异常、交易对 象异常、交易数量异常、资金走向异常等。迫切需要建立 相应的数量模型,发掘和识别异常信息,通过分析评判及 时发现问题,避免损失。数据挖掘技术在这一领域具有广 泛的应用前景。最常见的数据挖掘技术包括分类预测、聚 类分析、关联分析以及异常诊断。 ●文/美国罗格斯大学商学院 肖可砾熊辉 分类预测主要使用历史数据建立分类预测模型,并用 所建立的模型对未来数据进行分类预测。方法包括树型结 构的分类、基于规则的分类、最近邻居法、递归法、人工 神经网络法、绘图法、以及向量机(SVMs),可以用于解 决离散型数据和连续型数据分类预测问题。如果能通过对 非法集资、洗钱等典型诈骗行为的逻辑路径分析找到其行 为特征,就可利用上述方法挖掘出相关数据,检测诈骗行为。 聚类分析的职能是将一个数据集的所有数据点分到不 同组里,相似数据处于同一组中,不同组的数据差异性较大。 聚类分析方法包括K一均值聚类、自组映射、高斯混合模型、 分层聚类、子空间聚类、图形算法以及基于密度的算法等。 聚类分析在商务智能及决策分析领域获得了广泛应用。例 如,应用聚类分析方法可以发现拥有相似价格的运动模式 股票聚类。从中可能发现关联交易及内幕交易的可疑信息。 关联分析的主要作用是从海量数据中高效、准确地 发现强相关性事件。方法包括关联规则分析和统计相关计 算。关联分析对于发现隐藏在数据中事物的内在联系有很 大的帮助。例如,关联分析可以用于监控多个用户的关联 交易行为,为检测跨账户协同的金融欺诈行为提供了有效 路径。即使欺诈者的交易行为表面上属于正常交易,我们 还是可以通过关联分析进行跨账户协同检测找到其中的特 殊状况。 异常诊断也被称之为偏差检测。其主要目的是搜寻并 发现数据中的异常点或异常事件。一种常见的异常检测方 式是构建一个数据的正常行为档案,并用它来计算其他观 测对象的异常指数,可以挖掘识别规则范围外的行为或其 他异常行为。包括基于统计原理、距离和聚类分析的异常 诊断技术。它们对于金融风险管理、客户信息安全管理和 网络安全管理具有重要作用。通过这些技术可以发现公司 提供的财务报表中经常存在异常夸大的收益和虚报收入等 可疑情况。通过分析公司的财务报表,可以提前诊断和预 防金融欺诈。 2o10年8月金 屯 f匕l 89 三、金融欺诈数据挖掘的基本流程 完整的数据挖掘流程包括数据选择和清洗、数据预处 3.数据挖掘/模型发现 这一过程需要分类预测、聚类分析、对收集的数据进 行实时欺诈检测、对欺诈的潜在环节或个人进行定位并找 理和转换、数据发掘及模型发现以及知识解释4个步骤。 对金融欺诈进行数据挖掘的流程也相同,如图所示。 1.数据选择和清洗 应用数据挖掘技术进行金融欺诈检测,首先要考虑哪 些数据是有用的,可以从哪里获取数据。2008年注册软件 欺诈检验国际组织提供的职业欺诈报告中统计,有55%的 职业欺诈来自于管理失误,30%来自员工,只有大约6% 来自有组织的犯罪行为,5%来自客户。可见大部分欺诈行 为来自公司内部。公司财务报表应作为数据的一个重要来 源,包括资产损益表、收入表、现金流量表以及预算汇总表、 销售和服务表、交易列表等。此外,公司内部电子邮件网 络提供的电子邮件往来数据和公司内部系统提供的员工工 作状态信息可以用于检测员工内部操作等违规行为。同样, 股票和期货的交易数据,商业和经济网络提供的商业往来 数据也可用于检测市场操作等违规行为。银行异常交易信 息的检测须从银行交易系统获取数据,采用转发方式、网 点终端操作层及网络层等不同方式获取检测数据。 2.数据预处理和数据转换 数据挖掘通常需要处理海量的原始数据。数据预处理 和数据转换的过程则是对原始数据进行加工。该过程包括 数据清洗、数据整合、特征向量提取等众多辅助数据产生 方法。目的在于提炼出可以作为欺诈检验参数的特征数据。 例如,员工工作情绪可以用员工工作时间变化、休假情况、 收入/消费水平等数据来设计检测模型。此外,员工的性别、 教育程度、犯罪记录、在公司工作时间等数据可以用于设 计欺诈检验模型。 4.知识解释 f模型选择) 一 数攘挖掘的基本流程 90 l金 屯 幺2010年8月 出隐藏欺诈模式的数据挖掘技术支持。例如,对于环交易、 用户重复支付、重复发票、重复挂失、异常大额消费或存款、 员工业务量异常变化以及非法授权过程等可以迅速被确定 并生成报告。对于严重违规操作可以通过系统进行紧急处 理,如取消员工交易权限,冻结账号等。 4.知识解释/模型确认 对于生成的挖掘报告,可以做专家人工核对,对结果 进一步确认,剔除误判,并对系统模型进行调整改进。对 于金融欺诈诊断而言,这一步至关重要。数据挖掘是一种 自动或半自动的筛选技术,可以从海量数据中发现大量的 可疑事件,只有对其做进一步专家确认,才能提高挖掘的 有效性。通过该步骤,除了可以确认真正的欺诈行为,也 确认了那些被误判的行为。通过对误判行为的特性分析, 可以建立更精确的数据挖掘方法,提高数据挖掘的效率, 减少人工确认的工作量。 以上4步骤是循环反复的动态过程。只有在动态运行 过程中,才有可能对数据挖掘模式进行动态调整,从而把 握不断变化的金融欺诈模式。 四、数据挖掘技术的金融业应用前景 目前,数据挖掘技术在金融机构案件防范中获得广泛 运用。中国建设银行、中国农业银行以及相当多的中小银 行都建立了事中监督系统,及时识别异常交易信息和操作 信息。实时对交易数据进行获取和分析,对于符合预警规 则的敏感交易进行风险预警提示并记录。根据各类业务要 求对敏感交易,如高频、高额、可疑和异动等业务设置预 警规则,根据实际情况对前台网点的大额、可疑、高频、 特殊等敏感交易进行检查记录。对储蓄、会计、信贷、信 用卡、ATM/POS、网银、大额支付、冲正流水、挂失解挂、 内部账务等的流水数据进行监测,在第一时间发现和防范 操作风险,减少损失。此外,央行就反洗钱等工作职责建 立了动态识别系统。证监部门、财政部门就企业财务合规 性运用了专门的检测模型。但对于需要处理大量信息的金 融风险监测问题,仍需要不断深化研究。日益进步的数据 挖掘技术将为金融欺诈行为监测带来新的手段和动力。目