您的当前位置:首页正文

数据库大数据量存储结构的研究分析

2023-05-29 来源:客趣旅游网
数据库技术・Data Base Technique 数据库大数据量存储结构的研究分析 文/陆云帆诸振家 没有索引,有些数据的扫描工作需要全表进行, 4大数据量流水数据表存储方式 流水数据表存储设计过程中,关键是设 计分区与索引。进行设计过程中,需要坚持一 下几个原则: (1)根据数据量的大小,按照 不同时间进行分区设计,时间可以使按天、还 可以按月。(2)可以按照业务的类型建立相 应的分区,但需要避免分区发生冲突: (3) 流水数据表按照时间插入,所以一般不需要建 随着我国社会经济的快速发 展,电网公司逐渐向着信息化方 向发展,并取得了显著的成效, 但是电力系统中业务数据库性能 水平却相对较低。在电力营销过 程中,会产生大量的数据信息, 面对庞大的数据量,要想对其进 行存储于处理,就需要不断的设 计与优化数据库数据存储结构, 选用适当的存储方式对这些大数 据量进行处理。本文就围绕四种 不同类型的数据存储方式,分析 其设计的方式以及优缺点。 这样就会增加工作量,造成很大的浪费。如果 仅仅从恒数表查询方面来说,实际差距还不太 明显,但如果与递增表一块查询,进行全表扫 描,就会造成大量的浪费,使电力企业遭受巨 大的经济损失。 2大数据量递增数据表存储方式 对于电力营销过程中国产生的大量数据, 需要将其进行分成核心数据以及过程数据,而 递增数据表在设计中,设计的核心问题就是这 两者的区分问题。所以,需要在设计递增数据 表存储方式过程中,设计合理的分区字段以及 方式,并设计科学的索引字段以及索引数量。 如果通过递增数据表进行关联查询,会消耗大 量的逻辑读以及物理读,所以在设计递增数据 表存储方式时,需要结合递增关联关系,对递 立字段索引; (4)遵循索引少建的原则,避 免插入冲突,并确保流水表的插入速度。 一般来说,流水数据表存储设计一般设 计误区为忽视了子分区的建立,这常常导致历 史数据不被重视,而新产生的数据又过于集中, 这就导致集中数据同时有很多进程插入。流水 数据表属于过程数据的存储方式,其中包含了 具有明显生命周期终止字段,这就使得分区设 计与索引设计显得更为重要。 【关键词】数据库大数据量存储结构 增数据表的分区、索引等进行合理的设计。 3大数据量状态数据表存储方式 电力系统营销数据库中目前包括大量的 数据信息,主要包括电力营销管理数据、抄表 管理数据、收费管理数据、电力检查管理数据、 考核管理数据等,其数据量也从原来的GB量 级逐渐突破了百TB量级。面对如此庞大的数 据量,就需要对数据进行有效的分类,使有用 数据聚拢。数据库表示存储数据的主要形式, 根据电力营销的特点,可以将大数据量数据库 表分为恒数业务表、递增数据表、流水数据表 以及状态数据表四种,其中恒数业务表、递增 5总结 本文对电力系统中大数据量存储方式进 行了分析,从恒数业务表、递增数据表、状态 数据表、流水数据表四种数据存储表设计入手, 分析了各自设计的依据、原则等,并介绍了设 计中的常见误区。通过对数据生命周期、数据 量、数据访问特点等数据特性的了解,设计数 据存储结构,以满足高性能数据设计要求,提 高数据库系统的工作效率。 状态数据表示四种存储设计类型中最难 的一种,其涉及面广,涉及到数据的查询、修 改、写回滚等。数据有三种状态,分别是企业 状态、居民状态以及冻结状态,可以分别用I、P、 D来表示这三种状态,利用三种进程对状态表 同时实施处理。进程一对处在I状态的数据处 理,处理后将其变成状态P;进程二对处理变 成状态P的数据进行处理,并在处理完成后将 其变成状态D。一个进程可能同时对相邻位置 的两个数据进行处理,但并不是绝对的,为了 保证数据能及时的得到处理,就需要三个进程 不问断的轮流实施处理。 通过状态数据表可以反映数据生命周期 是否终止,所以就能对上述的状态数据表处理 参考文献 …1肖寒,胡广平.数据库大数据量存 储结构的设计研究【J】.信息化技 术,2011,36(2):36—38. 数据表属于业务核心表,而流水数据表与状态 数据表属于业务过程表。 1大数据量常用恒数业务表存储方式 恒数业务表示最常用,也是最容易入手 的数据存储表设计类型,对于恒数业务表的 参数设计,可以将其定义为四个类:(1) 【2]曹玉香,李蒙蒙,周兆斌,王琴.SCADA 系统中大数据量处理的研究与开发【J】. 制造业自动化,2009,31(12):1 33-I34. 方式进行改进,按照上面的不同状态数据建立 分区,即建立I、P、D三个分区,而三个进程 也是分别负责一个分区的数据处理,不用进行 轮询过程。这样就会减少由于轮询产生的代价, 【3]肖永飞,付宜利,王树国,高文鹏.硬件 将全部的恒数表放于单独的恒数空间中,即 tablespace, (2)initrans,此定义可以保持缺 加速的大数据量自适应体绘制【J】.计算机 并且能够对进程数量进行调整。这种模式下, 进程一只处理处在状态I的数据;进程二对处 在状态P的数据进行处理;进程三处理处在状 辅助设计与图形学学报,2009,21(5):613- 6】4. 省值;(3)可以根据恒数表的大小,设定存储, (4)next,其设定大小与第三定义一致。 利用恒数业务表对数据存储,常见的设 态D的数据,但三个处理过程不会对彼此造 作者单位 计误区是设计参数过大,这样就可能将恒数表 成干扰。这种处理方式也存在一定的缺点,那 深圳信息职业技术学院 广东省深圳市 所占空间大小扩大好几倍,甚至好几十倍。这 就是处理数据需要数据的物理位置进行挪动, 样不仅造成了空间的浪费,还对恒数表的访问 从而产生额外的开销。为了避免这种现象,一 性能造成极其严重的影响。一般来说,恒数表 般在没有特殊要求情况下,不建立索引。 518O00 ・本文是深圳信息职业技术学院校级科研项目《基于智能语义分析技术的跨平台SQL解析系统的研究与应用》(项目编号:YB201014)之成果。 200・电子技术与软件工程Electronic Technology&Software Engineering 

因篇幅问题不能全部显示,请点此查看更多更全内容