数据分析分析技术8篇

时间:2023-06-09 10:02:15

绪论:在寻找写作灵感吗?爱发表网为您精选了8篇数据分析分析技术,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!

数据分析分析技术

篇1

关键词:告警数据 Hadoop Spark

1 引言

随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。

在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。

2 分析目标

(1)数据源:电信运营商网络设备告警日志数据,每天50 G。

(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。

(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。

3 制定方案

进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。

Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。

一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。

MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。

Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。

基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。

4 分析平台设计

4.1 Hadoop集群搭建

基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。

4.2 Spark参数设置[6]

Spark参数设置如表2所示。

4.3 数据采集层

数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。

4.4 逻辑处理层

(1)建立高频翻转告警监控工作流程

先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。

(2)差异化定制方案

按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;

按业务网络细分,针对不同业务网络设计个性化的监控方案;

按客户业务细分,针对客户数字出租电路设计个性化的监控方案。

4.5 数据分析层

Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:

5 平台实践应用

探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。

5.1 高频翻转类告警监控

首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。

5.2 核心设备和重要业务监控

目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。

通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。

应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。

5.3 被过滤告警分析

全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。

5.4 动环深放电分析

动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。

在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。

6 结论

本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。

从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。

参考文献:

[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.

[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 员建厦. 基于动态存储策略的数据管理系统[J]. 无线电工程, 2014,44(11): 52-54.

篇2

关键词:大数据 智能 数据分析

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).

篇3

关键词:联机数据分析;处理数据;分析和转换数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0006-03

为了提升大学物理公共课程的教学水平,更好地了解学生的学习情况,需要引用联机数据技术,通过科学建立模型对教学数据进行处理和分析。维度模型的建立是为了能够全方位地剖析数据。

1 建立数据模型

建立模型是为了更加直观地表达数据和事实。对于同一批数据,人们总是会以不同的角度对其进行观察,这就是维度。维度模型从不同的角度分析数据,最终得出一张事实表。

如图1所示,维度模型包括了教材维度表,学期维度表,教师维度表,学生维度表和教学事实表。为了更好地分析教学效果,维度模型从四个不同的角度进行分析,每一张维度表上都注明了详细的数据内容。最后,在总结四张维度表的基础上,概括了最终的教学事实表。

2 OLAP技术

2.1 数据的采集

原有的Visual和SQL数据库上储存了学生的信息,教师的信息以及教学的数据等等。如图二所示,教务数据库中包含了课程信息表,学生信息表以及选课成绩表。DTS工具能够从不同的数据库中自动抽取需要进行分析的数据,并且将其全部集中在一个新的数据库中。新的SQL数据库既可以储存信息,还能够对信息进行管理。联机分析处理技术从不同的角度分析数据,有助于全面了解学生的学习情况和教师的教学质量。

2.2 数据分析的结构

从图2中可以看出,数据分析的结构包括了四层,其中最底层的是各种信息数据库和文本文件,在此基础上建立数据ETL,然后建立相应的维度模型,最后利用联机分析技术对数据进行分析。采集数据和转换数据是使用联机分析技术的基础,也是必不可少的一步。多维度分析是该结构中的最后一步,最终的结果将会把数据转换成图表的形式呈现出来。

2.3 转换数据

由于不同数据的语法可能存在差异,因此,把不同的数据转换成相同的结构显得尤为必要。在联机分析技术应用的过程中,转换数据是关键的一步,能否成功转换数据,决定了维度模型的建立是否具有科学性与全面性。转换数据是为了解决语法,语义结构不同引起的问题。

和数据语义不同相比,处理不同语法的数据显得更为简单。如果数据本身和目标数据之间存在语法结构不同的问题,那么只需要通过函数对其进行转换即可。一般来说,数据本身的内容并不会影响转换过程,只要建立原数据和目标数据之间的对应关系,就能解决数据名称存在冲突的问题。例如,学生数据库本身的信息包括了学生的ID和班级,这就相当于最终目标数据中学生对应的名称和班别。如果数据类型不同,可以运用相应的函数对其进行转换,例如trim()函数就能完成数据的转换。下面是利用函数对原数据中学生的ID,专业以及院名进行转换的过程,其转换代码如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名称”))

DTSDestination(“专业”)=cstr(DTSSourse(“专业”))

DTSDestination(“院名”)=trim(DTSSourse(“学院”))

Main=DTSTransformStat_OK

End Function

转换不同语义结构的数据是一个复杂的过程,它需要重视数据本身的信息和内容。因此,仅仅通过一步完成数据转换的过程是几乎不可能的,它需要将原数据进行一次次转换,才能得到最终的目标数据。例如每一个教师都有以及开展项目,在原数据中只能看到项目的名称和论文的名称,如果需要将其转换成教师的论文数量和项目数量,则需要经过两步的数据转换。

2.4 数据结果分析

原数据从SQL中提取出来,然后通过函数对其进行转换,最后利用联机分析技术进行数据管理和分析,从不同的角度研究数据,从而全面分析学生的学习情况和教师的教学情况。数据分析的方法有很多种,其目的都是为了全方位地剖析数据。

2.4.1 高校教师教学质量的对比分析

在教师维度表中,我们已经按照教师的从业年龄,学历以及职称对其进行划分,不同职称的教师,其教学质量有着明显的区别。教师的学历不同,教龄有所差异,这都和教学效果息息相关。

2.4.2 不同时期对教学质量的影响分析

联机分析处理技术能够从多角度分析数据,教学质量不可能是一成不变的,它与多个因素密不可分,时间也是其中一个因素。在不同的时期,由于政策的变动和外界因素的影响,教师的教学质量也会随之而受到不同程度的影响。

2.4.3 教学质量和其他因素息息相关

除了时间和教师的水平会对教学质量造成一定的影响,还有其他因素同样会影响教学效果,例如:学生的学习能力,学校选用的课本等。综合考虑各个因素对教学效果的影响,有利于教育部门更好地作出相应的政策调整。

3 计算机分析处理技术中的数据处理方法分析

无可置疑,计算机技术的出现颠覆了人们传统的思想和工作模式。如今,计算机技术已经全面渗透到我们生活中和工作中的各个方面。不管是在工业生产还是科研数据处理中,计算机技术都发挥着不可替代的作用。如今我们需要处理的数据正与日俱增,这就意味着传统的数据处理方法已经无法满足人们的需求了。仪表生产和系统控制要求数据具有高度精确性,这些数字在显示之前,都必须经过一系列的转换,计算以及处理。首先,数据会以一种形式经过转换器,然后变成另一种新的形式,只有这样计算机才能对数据进行处理和分析。处理数据是一个复杂多变的过程,它的方法并不是单一的,根据数据处理的目标不同,需要选择不同的数据处理方法。例如,有的数据需要进行标度转换,但有些数据只需要进行简单计算即可,计算机技术的不断进步是为了更好地应对人们对数据处理新的需要。

计算机数据处理技术的应用离不开系统,它比传统的系统更加具有优越性:

1)自动更正功能,计算机系统在处理数据时,对于计算结果出现的误差能够及时修正,确保结果的准确度。

2)传统模拟系统只能进行数据的简单计算,而计算机系统则能够处理复杂多变的数据,其适用范围和领域更加广。

3)计算机系统不需要过多的硬件,只需要编写相应的程序就能够完成数据的处理,在节省空间的同时也降低了数据处理的成本。

4)计算机系统特有的监控系统,能够随时监测系统的安全性,从而确保数据的准确度。

对于不同的数据,往往需要采用不同的处理方式,处理数据的简单方法包括查表,计算等。除此之外,标度转换,数字滤波同样是应用十分广的处理技术。

3.1 数据计算

在各种数据处理方法中,计算法是最为简单的一种,利用现有的数据设置程序,然后直接通过计算得出最终的目标数据。一般来说,利用这种方法处理数据需要遵循一个过程:首先,求表达式,这是计算法最基本的一步;其次,设计电路,在此之前必须将转换器的位数确定下来;最后,利用第一步已经求出的表达式运算数据。

3.2 数据查表

3.2.1 按顺序查表格

当需要搜索表格中的数据时,往往需要按照一定的顺序和步骤。首先,明确表格的地址和长度,然后再设置关键词,最后按照顺序进行搜索。

3.2.2 通过计算查表格

这是一种较为简单的方法,适用范围并不广。只有当数据之间表现出明显的规律或者数据之间存在某种关系时,才能够使用这种方法查表格。

3.2.3 利用程序查表格

相比于上述的两种方法,利用程序查表格是一种相对复杂的方法,但是这种方法的优点在于查找效率高,并且准确度高。

3.3 数据滤波处理

采集数据并不难,但是确保每一个数据的真实性却十分困难,尤其是在工业系统中,数据的测量难以确保绝对准确,因为在测量的过程中,外界环境对数据的影响往往是难以预估的。为了提高数据处理的精确度和准确率,需要借助检测系统对采集的数据进行深加工。尽可能地让处理的数据接近真实的数据,并且在数据采集的过程中最大限度地减少外界因素对其的影响,从而提高计算结果的准确度。

滤波处理技术的应用首先要确定数据的偏差,一般来说,每两个测量数据之间都会存在一定的误差,首先需要计算数据与数据之间可能出现的最大误差。一旦超出这一数值,可以认定数据无效,只有符合偏差范围内的数据,才能进行下一步的处理。

为了减少由于外界影响导致数据失真的情况,利用程序过滤数据是很有必要的。滤波技术有几种,根据不同的需要可以选择相应的数据处理技术,每一种数据滤波技术都有其适用范围和优点。数据滤波技术包括算术平均值滤波,加权平均值滤波,中值滤波,限幅滤波,限速滤波以及其他类型的滤波技术。

3.4 转换量程和标度

在测量数据的过程中,每一种参数都有相应的单位,为了方便数据处理,需要使用转换器把数据转换为统一的信号。标度转换是必不可少的,为了加强系统的管理和监测,需要不同单位的数字量。转换方法包括非线性参数标度变换,参数标度变换,量程转换,这几种转换方法在数据处理的过程中较为常见。当计算过程遇到困难,可以结合其他的标度转换方法进行数据处理。

3.5 非线性补偿计算法

3.5.1 线性插值计算方法

信号的输入和输出往往会存在一定的关系。曲线的斜率和误差之间存在正相关关系,斜率越大,误差越大。由此可见,这一计算方法仅仅适用于处理变化不大的数据。当曲线绘制选用的数据越多,曲线的准确程度越高,偏差越小。

3.5.2 抛物线计算方法

抛物线计算方法是一种常用的数据处理方法,只需要采集三组数据,就可以连成一条抛物线。相比于直线,抛物线更加接近真实的曲线,从而提高数据的准确度。抛物线计算法的过程,只需要求出最后两步计算中的M值,就能够直接输入数据得出结果。

3.6 数据长度的处理

当输入数据和输出数据的长度不一,需要对其进行转换,使数据长度达到一致。由于采集数据所使用的转换器和转换数据所选择的转换器不同,因此,当输入位数大于输出位数,可以通过移位的方法使位数变成相同。相反,当输入位数少于输出位数时,可以使用填充的方法将其转换成相同的位数。

4 结语

本文对联机分析技术进行了详细的论述,该技术的应用对于评价教学效果有着重要的意义。在物理公共课程中,教学数据数量巨大,如果利用传统的方法对其进行分析,将会耗费大量的人力物力,而采用OLAP技术则能更加快速准确地分析处理数据。数据分析是评估教学质量必经的过程,而使用QLAP技术是为了能够多层次,全方位地分析各个因素对教学质量的影响,从而更好地改进高校教育中存在的不足。除了分析物理课程数据,联机分析技术同样适用于其他课程的数据处理和分析。

参考文献:

[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:电子工业出版社,2003.

篇4

【关键词】 数据挖掘技术 频谱数据分析

前言:在对频谱监测数据分析中,简单统计分析已经无法满足频谱监测数据实际需求,需要对数据深入研究,探索配频谱监测数据潜在关联,寻找到异常信号,有效提升频谱监测精确性,起到辅作用。数据挖掘技术在应用过程中,能够挖掘海量数据内价值,有关监督设备可以对数据进行扫描,深入分析有关数据。

一、数据挖掘技术简介

1.1数据挖掘的概念

在上世纪90年代内,研究人员提出了数据挖掘,主要目的就是希望能够将所采集到的应用数据内所具有的潜在价值信息挖掘,获取价值信息。数据挖掘内包含较多学科内容,例如人工智能、统计、可视化技术、数据库等。数据挖掘在对数据分析研究过程中,主要采取分类及聚类进行监测,对有关知识进行演变。数据挖掘常见模式主要分为四种,分别为频繁模式、分类模式、聚类模式与异常模式[1]。

1.2数据挖掘的过程

1、数据准备。数据准备阶段主要包含两方面工作,分别为数据获取和数据预处理。数据挖掘应用点在确定之后,能够有效对有关数据进行收集,同时对数据背景进行掌握,对挖掘模式进行确定。有关数据在收集之后,需要对数据内所包含的冗余数据及空缺数据进行预处理,为计算机分析奠定坚实基础。

2、数据挖掘。数据娃聚主要是在数量及挖掘目标确定之后,选择合适的数据挖掘方法及技术,对数据进行计算分析,构建针对性数据。

3、挖掘结果展示。数据挖掘技术所得到的数据结果,十分抽象,除了数据挖掘技术行业工作人员无法对数据挖掘结果进行了解,所以需要对数据挖掘结果进行转化,通过图形及图像的方式,将挖掘结果在屏幕内显示出来,直观将挖掘结果展示出来,用户能够对挖掘结果深入理解。

4、挖掘结果应用分析。按照挖掘背景及目的,对数据挖掘结果进行系统性分析研究,进而找到海量数据内具有价值的信息,同时这些信息技有关生产,对数据挖掘结果正确性进行判断,对数据挖掘有关知识进行修正、完善[2]。

二、数据挖掘技术在频谱监测数据分析中的应用

2.1认知无线电中频谱资源预测应用

认知无线在频谱监测数据内应用,能够有效提高频谱监测数据质量,同时非授权用户也可以对频谱资源进行利用。授权用户在对频谱监测数应用过程中,非授权用户能够直接将频谱监测数据资源让出来,非授权用户就需要充分构建频谱途径,构建通信连接。非授权用户要是没有直接将频谱资源让出来,授权用户与非授权用户之间就会产生矛盾,进而造成通信中断,这样情况所将的损失将是无法预计的。所以,非授权用户及授权用户要是都能够对频谱资源精确划分,能够有效对资源矛盾事件防止,在这种情况下频谱监测资源利用效率也就显著提升。

正式由于认识无线电技术在实际应用内所具有的优势,在对认知无线电技术分析研究过程中,需要将重点放在授权用户应用规律上面,对授权用户占据频谱监测数据空余时间进行预测,帮助非授权用户能够在授权用户空余时间内寻找利用有关资源,这种预测性分析研究主要是通过数据挖掘技术内的频发模式实现。

2.2异常无线电信号监测应用

无线电监测站在常规监测过程中,最为主要的一项工作就是对异常无线电信号进行监测,严禁非法占用情况出现,有效提高无线电通信安全性能。

按照无线电监测所产生的数据可知,频谱设备属于常规性运行,一旦出现异常运行情况,所输出的信号就与常规状态下信号存在一定差异。所以,想要了解频谱设备出现异常情况,只需要将将信号进行分析比较,数据挖掘技术能够有效对海量信号内特点进行提取,在海量信号内寻找到异常信号。数据挖掘技术在无线电监测内应用,首先是通过无线电监测历史数据构建数据模型,模型在具有自我学习能力之后,能够应对无线电瞬息变化环境,对数据模型与历史数据模型相似点进行计算,在发现无线电设备出现异常运行情况之后,数据模型就会发出警告。

结论:数据挖掘技术在频谱监测数据分析内应用,能够有效对l谱监测数据分析流程进行简化,在大量数据信息内高效率的找到针对性数据信息,提高信息挖掘质量,进而为管理人员提供针对性意见。正式由于数据挖掘技术在频谱监测数据分析内所具有的作用,所以对数据挖掘技术进行分析研究,能够有效推动频谱监测数据发展。

参 考 文 献

篇5

随着信息技术的发展以及计算机的数据存储和处理能力的提升,数据分析技术的应用领域逐渐拓展,各种技术也日趋成熟。目前,在数据挖掘分析技术上已经形成了较为完备的体系,在大多数行业的业务数据分析领域已经形成了固定的技术模式。

1数据源准备

数据源是数据分析技术应用的重要前提,数据来源关系到各种业务分析所需要的数据是否齐全、原始数据质量是否可靠、数据提供的性能方面是否满足相关要求等。对于不同的行业领域,数据来源的渠道各不相同,对于数据分析应用而言,也需要在众多的数据中选取合适的部分进行后续加工和处理。对于大多数信息化技术应用比较广泛的企业而言,主要的业务运营数据源都可以从自身的信息管理系统中取得,如业务支撑系统、企业资源规划和管理系统以及流水线作业信息管理系统等。有部分数据信息是从非常专业的系统中直接采集到的,如专业调度系统、电话交换机以及生产线控制系统等。从这些系统中,可以取得企业运营过程中的基础信息和关键数据,这些数据通常是最能真实客观地反映企业运行情况。此外,数据获取的成本也比较低,稳定性和质量比较好,并且易于管理和重构。然而,就经营分析的角度而言,从企业内部提供的数据还不能满足全方位分析的需要,需要从企业外部获取必要的信息。比如为了深入了解客户的信息,就需要进行相应的市场调研工作,设计一些调查问卷,搜集与业务开展和经营相关的重要信息。另外,在某些特定的场合下,还有可能还需要从其它一些外部渠道去集中获得一些有关客户和市场的数据信息,目前有不少机构专门从事市场信息数据提供的服务工作。从企业外部获得的业务数据往往是针对性较强,有较高利用价值的信息。但这些信息的真实性、稳定性程度就比内部的数据源要低,并且数据获得的成本相对比较高。

2数据仓库技术的应用

目前,数据仓库技术对于大多数经营业务数据分析任务而言,是必备的基础条件之一,尤其是对于规模较大、业务开展较广泛的企业。由于日常运营涉及到的数据来源和种类较多、数据量较大,在进行数据分析处理时需要对原始的信息进行大量的加工处理工作,因此数据仓库技术的应用就是必然的选择。应用数据仓库技术的主要目的是将原始的数据源按相应的要求进行转换并按专门设计的数据结构进行存储。数据仓库技术对原始数据加工处理流程目前一般称为ETL,即抽取(Extract)、转换(Transform)和加载(Loading)。抽取过程是指从各类原始的数据源获取数据的过程,综合考虑信息系统的处理性能和数据时效性以及分析应用需求等因素,数据抽取过程可以是实时的,也可以是非实时的。对于抽取出的数据需要进行一定的转换处理,才能够进行后续的应用,转换过程主要是根据后期应用需求将原始的数据进行过滤、异常处理后再进行格式变换、维度调整以及初步分类汇总等处理。数据加载过程就是将处理后的数据装载到仓库模型中,并根据应用需求进行数据关联关系的调整以及性能优化。在一些专题分析应用场合,还可以将已经加载至数据仓库中的数据进行进一步的归纳处理,形成相关主题的数据集市,以提高数据的可用程度。

数据分析方案的设计和实施

数据仓库建设完成之后,为了实现业务分析的目标,就可以考虑实施一些数据分析方案,选择合适的分析方法和工具建立相应的模型,对数据进行处理,最终得到能够支持业务经营分析的关键信息,这一步对于整个业务数据分析工作而言是一个关键点。数据分析建模工作不仅需要掌握相关分析方法技术,更需要对业务背景和业务分析目标有充分的认识。因为数据分析挖掘建模方法没有严格的定律可以遵循,往往需要在实践中运用一些基本的方法去探索影响业务目标的关键因素,并且需要长期跟踪业务发展情况,不断地完善模型、调整相关参数,才能够得到能正确辅助经营决策制定的方案。此外,随着业务运营模式的调整和市场环境的变化,业务分析模型还可能随时需要重构并且反复验证。目前用于数据挖掘分析的方法有很多,从基本的数理统计方法到目前研究比较广泛的神经网络、遗传算法等。但是并不是越复杂的算法效果越好。在很多场合下,应用较为简便的方法得出的结论更易于描述业务信息,便于理解以及实践操作。现在市场上用于进行数据挖掘和统计分析产品也比较丰富,比较典型的分析工具如SPSS、SAS、STAT等,在一些行业应用领域,还有更加专业的数据分析工具和软件包可供使用。在实际运用过程中,可以根据数据分析的需求和应用范围进行选择。

互动点播业务的业务分析需求

以及数据分析方案设计目前,有线电视运营商在互动点播业务开展过程中关注最多的经营目标是如何提高用户对服务的认可程度、扩大用户规模、避免用户流失以及提升用户的业务贡献价值等方面。在这个过程中同时也需要对点播内容的使用情况进行分析,判断哪些产品的点播频率比较高,以便进行内容安排方面的调整。为了支撑互动点播业务经营分析的目标,首先需要初步选择可能对点播业务使用频率影响比较大的一些关键性因素,并且判断哪些信息是有手段可以收集到的,以及从哪些渠道收集等等。这个过程通常需要对基础业务有一定的认识,此外还需要对信息数据的分布和管理有相应的了解。通常情况下,对于大多数有线电视运营商而言,目前都在建设和使用业务支撑系统。互动业务分析所需要的基础信息大多数都可以从业务支撑系统中获取,例如从客户关系管理平台中可以收集到用户的基本信息,如客户名称、联系方式、业务使用的地址等。另外,客户开通的业务信息以及订购的各种产品信息、业务变更记录信息以及终端信息等基本上都可以从业务支撑系统中获取到。经过一些信息转换和汇总,我们就可以了解到用户业务的在网时间、消费情况、订购记录、离网情况等。从这些基本信息里面可以选择一些业务上感兴趣的因素进行统计分析,以归纳总结出经营分析相关的业务特征。对于互动点播业务相关的另外一些信息,如客户的点播行为记录,一般就不是直接从业务支撑平台上进行采集到。这些数据的来源通常是在互动业务管理平台中,用户在终端上进行点播操作后,互动业务管理平台会记录下与用户点播操作相关的信息。从这些记录中,我们可以了解到用户的点播时间、点播内容、收看时间等等。根据点播的内容,可以在互动业务内容管理平台上关联到其价格、类型、上线时间等信息。综合上述信息后,就可以整理出互动点播业务的使用记录,通过统计分析可以发现用户点播的时间、内容偏好和使用量发展趋势等数据,这些数据可以帮助判断系统的容量以及内容的受欢迎程度等信息。最后,为了综合评估互动业务的发展情况,发现与业务分析目标关联较大的一些因素,可以综合用户的业务记录信息和点播使用情况进行模型构造,并且对结果进行验证和评估,以得到对决策分析有价值的信息。

互动点播业务的数据分析方案的实施应用

根据业务数据分析基本方案设计的思路,可以着手开始实施相应的分析方案。在本文中主要介绍两类数据分析应用案例,一个是基于基础点播行为数据进行的统计分析应用,另外一个是根据用户点播行为数据以及基础业务数据综合分析影响用户的互动业务在线情况的因素。

1用户点播行为数据分析案例

为了了解点播业务的使用情况,可以根据用户的点播行为记录进行数据挖掘分析,以实现总结互动点播内容、时段和使用量趋势等业务特征的分析目标。根据方案设计的结论,从互动业务管理平台中可以取得这类业务分析所需要的全部源数据。但是,互动业务管理平台中的点播记录通常全部是以文本记录的方式保存的,并且由于点播记录的数量较大,一般按照记录数量或者时间间隔进行了拆分。为了利用这些信息就有必要进行相应的数据抽取转换工作。在实际应用中可以使用预先设计的脚本定时从互动业务管理平台中进行数据的抽取,然后经过简单的类型变换后加载至数据仓库中。为了达到分析目标,主要抽取的信息有产生用户点播记录的用户ID、点播内容的代码及分类信息、点播的开始和结束时间等等。原始的点播记录信息转换后,就可以进行下一步的主题分析准备了,例如可以按照点播的时段、点播的内容,以及用户区域等信息进行不同维度的数据分析。图2是对互动点播类业务按每日播频率进行的一个分类统计后用SAS统计工具生成的图形,在生成统计数据前需要从原始数据中分离出点播时段信息,并行分类汇总。从图2中可以发现,点播频率在一天之中的大致分布规律。从点播总量上看,每天点播频率最高的时段是在18:00至22:30左右,峰值在21:00到22:00左右出现,此外在中午12:00左右也有一个高峰时期。点播频率最低的时段大约在3:00至5:00左右。根据每天点播业务频率的分布情况,可以进行相应的网络容量分析,比如通过业务高峰数值可以评估出互动点播平台的并发容量是否足够。另外,根据每日点播频率的分布特征,可以安排相应的业务运营工作部署。例如在业务高峰时段可以集中投放一些广告、通知信息,而一些系统割接和调试工作尽量应安排在使用频率较低的时段内进行。如果需要了解一些特殊的节假日的点播频率分布特征,可以在原始数据中进行重新过滤筛选,生成类似的频率分布图并与图2进行比对,然后分析其特点。从互动业务点播数据还可以按内容代码维度进行分析,以统计出与互动视频节目内容相关的数据,也可以将不同维度的数据进行组合分析,进一步挖掘出业务方面感兴趣的信息。

2影响互动业务用户在线状态因素的综合分析案例

互动业务经营分析的另外一个重点就是用户的流失特点分析,其目的在于找到影响用户在线状态的主要因素,并且根据这些信息和目前的业务状态去预测未来一段时间内可能流失的用户情况。另一方面可以针对影响用户在线状态的主要因素实施有针对性的市场营销策略,尽可能避免用户流失情况的产生。此外,在通过分析影响互动在线状态的主要因素后,也可以从中发现进一步发展扩大用户规模的一些线索。为了实现上述业务目标,首先需要确定分析数据来源。由于是综合因素分析,首先需要使用业务支撑系统中用户的互动业务状态变更信息以及其它一些属性特征信息。此外,用户的点播行为数据也是一项重要的数据源,因此也需要引入到模型中。由于最终目的是需要分析影响用户在线状态的主要因素,而在某一个观测时间点用户的在线状态一般认为是一个二值型的变量,因此可以使用逻辑回归(logisticregression)方法进行建模。然后将在此时间点前一个时段的用户点播次数、用户的在网时长、终端特征等作为自变量。在本案例中,按照某一个时间段内用户在线状态是否发生变更这一特征,选择一个用户的样本使用SAS软件的proclogistic过程进行分析。SAS的分析报告中还给出了模型的相关参数以及各变量的参数估计情况。根据分析结果中的卡方值和P值可以了解模型对数据的适配性和稳定性。从分析结果给出的参数估计信息中可以了解不同自变量对于互动用户在线状态的影响情况。用户的点播次数、在线时长以及终端属性等参数都会影响到用户的在线状态。从参数估计中可以看出点播次数较高的用户,其流失的比率相对较低,另外使用高清互动终端用户流失率也相对较低,并且终端类型因素有较高的预测能力。在网时长似乎对用户的在线情况影响不大,但实际建模的过程中需要考虑套餐赠送的情况,因此最好重新调整参数模型后再进行分析。根据分析的结果可以得出相关的结论,互动用户的点播频率越高,其连续使用的可能性就越大,并且使用高清终端用户连续在线的概率比使用标清终端的用户更大。因此在后续的分析过程中就可以预测目前点播频率较低的用户流失的风险较大,在进行针对性的营销活动时就可以设法引导用户更多地进行互动业务的体验,并且鼓励其进行终端升级,以提高这部分用户在线的概率。当然在分析过程中可能会发现一些使用频率非常高的用户意外流失了,这就值得进一步跟踪分析,因为很有可能这些用户选择了竞争对手提供的类似服务。

篇6

【关键词】用电信息采集系统 数据分析 处理技术

随着时间的推移,用电信息采集系统中存储的数据总量会线性递增,庞大的信息储备在反映信息愈加全面的同时增加了信息分类和处理的难度,所以其分析和处理技术需要随着时代的发展不断深化。

1 用电信息采集系统数据分析

由于用电信息采集系统内的信息会随着时间的推移而不断增多,所以需要通过分类处理的形式对庞大的信息量进行逐层处理,这样才可以提升系统对数据库的处理效率,目前用电信息采集系统以时间为划分标准,将信息分为以下三类:1类数据实时数据不具有时间序列属性,通常只针对其更新而很少查询,由于数据量庞大,其通常只具有15分钟的实效,总加数据、测量点数据、终端数据是其主要形式,在存储的过程中应根据其不同的物理对象选择与其相应的存储表;2类数据其主要显示用电户在过去一段时间内的用电信息,为预付费管理、用电情况统计等工作提供数据支持,其与1类数据不同具有时间序列属性,而且更新少而查询多,15分钟至1小时,1日、一个月等都可根据实际需要作为周期,其在存储的过程中也可以根据不同的物理对象,选择不同的存储表;3类数据包括参数丢失或变更、回路异常、电能表显示出现偏差等情况,由于其不同时间的发生频率、使用方式等都存在差异,所以在存储的过程中应单独分表,将用电信息按照属性进行划分极大地提升了采集系统的工作效率。

2 用电信息采集系统数据处理技术

用电信息采集系统其要同时对多种通信通道和终端进行管理,从而实现对用电户用电信息管理、负荷及预付费控制,所以其并非单一计算机节点可独立完成,需要以下技术辅助其实现如图1所示。

2.1 集群技术

主要应用于系统中的核心部位,例如数据库、数据采集等,其主要是将多个独立但都处于高速网络中的计算机连接成一个整体,并通过单一系统对整体进行管理控制,利用集群技术可以实现大运量计算,目前主要应用的集群技术主要有主/主和主/从两种状态,其主要区别是当一个节点处于正常工作状态时是否需要有另一个节点处于备用状态,利用集群技术大幅度的提升了系统对数据的计算能力,从而提升了系统的数据处理效率及准确性。网络负载均衡技术,在实际操作中系统要处理大量的数据,用户等待系统反应的时间通常较长,而网络负载均衡技术的出现实现了对大量并发访问、数据流量合理均等的分配至多台节点设备,从而实现多台设备同时进行数据处理,使原本复杂的数据处理任务被合理分化,不仅缩短了处理时间,而且有效的降低了系统在处理过程中出现信道堵塞的概率,提升了系统数据处理的性能,在响应请求方面得到优化。

2.2 内存数据库技术

是优化系统数据处理能力的重要途径,内存数据库技术实现了采集的信息直接在内存中存储,从而利用内存随机访问的特点,在信息读写速度方面进行优化,使数据信息的访问性能得到提升,此项技术在数据缓存、数据算法等方面进行了针对性的设计,使系统的信息处理速度提升十倍以上,为实时查询提供了可能,极大地促进了后付费和预付费的融合,使系统数据处理性能得到完善。批量数据处理技术,由于在实际工作中由于系统需要对大量的数据进行分类处理,逐个信息处理的可行性非常低,需要对大批量数据进行集中处理,但在应用批量数据处理技术的同时要对数据库的表结构、SQL语句进行优化处理并对数据库中的数据表合理管理,例如将个体数据表的数据量限制在2GB以内,确保其访问性能不受影响;将数据按照分类存储于不同的磁盘,保证查询质量;在优化SQL语句时尽量保证带有参数等,只有数据库性能良好,批量数据处理技术才可以应用,不然会适得其反。

2.3 SAN存储技术

随着系统采集数据量的增加,以服务器为中心的处理模式会严重影响网络性能,从而影响系统对数据的处理效率,所以将备份和传输不占用局域网资源的SAN技术引入到系统处理中非常具有现实意义,其以光纤通道为途径,使信息存储不再受距离和容量的限制,系统的信息采集性能得到有效提升。ODI技术,在实际工作中有时需要对某一类信息进行集中处理,而系统中的数据复杂散落不易处理,所以需要将同类信息按模块分类存储,ODI存储技术恰好是以模块或储存库为核心而展开的应用技术,它将系统的数据库分为一个主存储库和多个有关联的工作存储库,数据处理人员利用ODI存储技术可以根据实际情况制定存储模块或对存储模块内部信息进行更改,从而实现批量数据处理脚本的集中管理,使批量处理的效率大幅度提升。

3 结论

目前电力用户用电信息采集系统不仅要实现准确、全面、及时的采集数据,而且要高效、准确的对采集的信息进行计算处理,以供相关部门的查询和应用,所以在优化系统存储空间的同时,要加大系统对数据处理的能力。

参考文献

[1]朱彬若,杜卫华,李蕊.电力用户用电信息采集系统数据分析与处理技术[J].华东电力,2011,12(10):162-166.

[2]董俐君,张芊.数据处理与智能分析技术在用电信息采集系统中的应用[J].华东电力,2013,12(27):255-256.

[3]况贞戎.用电信息采集系统中主站采集平台设计与实现[D].成都:电子科技大学,2014.

篇7

关键词:油田生产;大数据;数据挖掘

前言

新疆油田重油开发公司是以稠油开采为主的采油厂。有着将近10年的数字油田建设历史。而且中心数据库已经做得很成熟,主要包括五大业务板块数据。即勘探业务板块、开发业务板块、生产业务板块、经营业务板块的数据库。数据库包括的内容主要有单井、区块的日月报数据、试井与生产测井数据、分析化验数据、井下作业和地理信息数据等。数据库的数据资源种类齐全,质量高。2010年新疆油田重油开发公司正式开始进行智能化油田建设工作,利用物联网诊断单井问题,使用大数据技术对油田进行全面感知、分析预测、优化决策找到油水井的生产规律,从而有助于油田生产工作进行。

1 油田大数据的概念及处理流程

大数据有四个特点即量大(Volume)、快速生产(Velocity)、类型丰富(Variety)、真实性(Veracity),被称为4V[1]。由于数据的数量非常大,就将数据组成数据集,进行管理、处理实现数据的价值。大数据对数据库的整理流程是将数据转化为信息,将信息转化为知识,再将知识转化为智慧。这个过程应用于油田可以理解为是对油田的生产和管理工作。大数据的七个处理步骤包括:对数据的提取和收集、清洗数据、分析数据找到潜在的内在价值规律、建立预测模型、对结果进行可视化的估计、验证结果、评估模型。

2 大数据分析平台及体系架构研究

新疆油田为了满足生产应用,构建了一个有效的大数据分析平台及体系架构。此平台主要包括四个基础架构:数据抽取平台、进行分布式的存储平台、大数据的分析与展示平台。最底层是数据抽取平台主要是实现数据的整合,将数据转化成适合进行数据挖掘或者建模的形式,构建可靠的样本数据集。存储平台主要是对数据进行汇总、建模、分析,最后将处理好的数据进行储存。其功能与数据仓库相似。大数据分析层,是在大数据建模的工具和算法基础上,挖掘隐藏的数据模式和关系,利用数据软件进行分类、建模,生成预测的结果,结合专家经验利用测试的样本选定评价方案不断提高模型的精度,更好的用于油田的决策。数据应用层主要是把建立的模型设计为运行软件,运用建模方法实现数据的可视化界面设计,更好的实现人机交互。

3 大数据分析技术研究

进行大数据分析时我们经常采用两大技术即大数据预处理和抽取技术,大数据分析技术。

3.1 大数据抽取及预处理技术

大数据预处理和抽取技术的原理是指将不同名称,不同时间,不同地点的多种不同结构和类别的数据抽取处理成一种所表达的算法和内涵一致便于处理类型的数据结构[2]。在检查数据缺失、数据异常时可以使用数据清洗方法确定有用的数据,一般采用剔除法或估计值法、填补平均值替换错误的数据。为了满足建模所需的大量数据,创建新的字段时需要进行数据库的构建。将原始数据用一定的方法如归一法转换为可用于数据挖掘的数据,这个过程为数据转换。

3.2 大数据分析技术

应用于油田的大数据分析技术为:因子分析技术、聚类分析技术、回归分析技术和数据挖掘技术。其中的因子分析技术是指,利用少数的因子对多个指标和因素间的相关性进行描述,一般将密切相关的多个变量归纳为一类,这一类数据就属于一个影响因子,用较少的因子反应大量数据的信息。聚类分析技术是指把具有某种共同特性的事物或者物体归属于一个类型,并按照这些特性划分为几个类别,同种类型的事物相似性较高。这样更利于辨别预先未知的事物特征。回归分析是指在一组数据的基础之上,研究一个变量和其他变量间隐藏的关系。利用回归方程,进行回归分析,从而有规律地把变量之间的不规则,不确定的复杂关系简单得表示出来。

在使用大数据进行分析时,数据挖掘技术是最关键的一门技术。该技术将大量复杂的、随机性的、模糊的、不完整的数据进行分析,挖掘出对人类未来有用的数据,即提前获得未知信息的过程[3]。数据挖掘功能分为预测功能和描述功能。数据预测是指对数据进行处理推算,完成预测的目的。数据描述是展现集体数据的特性。数据挖掘功能是与数据的目标类型有关,有的功能适用于不同类型的数据,有的功能则只适用于特定功能的数据。数据挖掘的作用就是让人们能够提前得到未知的消息,提升数据的有效性,使其可以应用于不同的领域。

4 大数据分析在油田生产中的应用研究

4.1 异常井自动识别

油田生产过程中影响最大的一个因素是异常井的出现,因此生产管理人员加大了对异常井的重视。最初,异常井的识别主要是依靠生产部门的生产人员,必须经过人工查阅许多关于油田生产的资料才能确定异常井,这种人工检阅的方法存在很多缺陷。比如说大量的检索工作、耗费时间长等,对异常井的诊断和措施制定造成很大的困难。异常井是指油井当天的产油量和上个月相比波动很大,并大于正常的波动范围。目前广泛采用数据挖掘技术和聚类分析技术对异常井进行识别,提高效率。为了实现算法编译使用技术,系统架构B/S模式进行,能够及时发现异常井的存在。

4.2 异常井智能诊断

异常井诊断是油田每天进行生产必须要完成的工序。而大部分油田采用人工方法对其进行异常诊断,工作量极大,影响因素较多,诊断结果的可靠性较低,对后期进行计划实施造成很大的影响。这时可以采用智能诊断方法,利用灰度图像处理技术和人脸识别算法建立抽油井的特征功图库,对比油井当前的功图和所建立的特征功图,实现异常井的诊断。若是相似则不属于异常井,反之,则为异常井。但是有时一种工况可能会有许多中表现方式,致使功图解释存在很多种状况,可以采取因子分析法,分析每个工况下关联的因子间是如何变化,然后建立参数诊断数据库,对比相关因子的指标项,找到异常的原因,采取适合的方案进行修改,从而提高单井的生产效率。

4.3 间抽井开关井计划制订

当油田开发进入后期阶段就会出现很多问题,过度开发使得地层的能量越来越少,致使更多供液不足的井开发出来。将这类井称之为间歇出油井。新疆油田一般会使用人工方法制订间歇出油井的开关时间计划,但是对于计划的合理性没有进行检验。若是能够控制好间歇出油井的开关时间,对油田实现节能减排是至关重要的。这时可以采用因子分析方法和回归分析法进行研究,利用数据挖掘技术找出影响间歇出油井的开关时间的因素,建立合适的分析模型,对模型进行线性回归,进行归一化处理。从而为业务人员提供制订间歇出油井开关时间的合理方案,达到节能减排的效果。

4.4 油井清防蜡预测

目前油田上对于油井清蜡采取平均每口井一个月清洗一次蜡的措施,按照人工计划进行,出现了许多问题。比如,一些井还没有结蜡就已被清洗,有些井已经结蜡,却没有得到及时清洗。这样既浪费大量的人力物力,而且还对油田的生产效率产生不利影响。若是利用因子分析法,将收集的关于结蜡周期、清蜡方式、清蜡用量、油井状况等数据进行分析,建立油井Y蜡模型,再利用回归分析法对建立的模型建立曲线方程,进行预测,找到结蜡时间,推断出结蜡周期,更好的指导油田清蜡工序的进行,提高油田的精细化管理。

5 结束语

总之,对比以前利用人工进行油田生产可以发现大数据对于油田生产是非常必要的,可以更快的挖掘油田的生产作业规律,解决油田生产的困难。而且,可以利用油田数据进行可视化分析,关注问题的主要影响因素找到管理中存在的不足,预防未来问题的出现。大数据的核心价值就是通过以往大量数据进行分析,预测出未来,从而更好地指导油田的生产工作。

参考文献

[1]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.

篇8

【关键词】数据集成技术 电力营销 具体应用 数据分析系统

电力营销数据分析系统的主要功能是采集数据,并对数据进行分析处理。而在中国推行电网改革后,电网系统的改革重点在于研究电力影响。此外,在电力营销工作中依然存在在一些问题,这些问题对中国电力营销行业的发展产生不良影响,甚至会导致企业资金的流失。在此形势下,结合数据集成技术对电力营销数据进行分析研究尤为重要。

1 实现电力营销数据分析系统的困难所在

电力营销数据分析系统指的是利用全球各个国家的网络技术采集不同地区的电力营销数据,并进行分析处理,然后利用远程控制技术对这些数据进行传输管理,为决策提供科学的数据依据。

1.1分布式数据的采集、传输与转换的障碍

我国电力营销系统从数据接口形式上来说,并没有形成完善严格的规定,系统软件的运用也有一定差异。但是营销数据的数量较为庞大,形式多种多样,将这些数据存放在同一个系统中,转换为系统所要求的格式进行存储。这样势必会使数据传输存在安全隐患[1]。

1.2系统中的算法结构与数据结构问题

电力营销系统中的数据结构与算法结构需进行改进处理,提高数据结构与算法结构的通用性。在电力营销中,数据结构与算法结构会因为系统的不同而存在差异。在计算与分析处理数据的过程中,要求深入了解原有系统的基本特征,积极做好系统的通用算法转换工作,调整与处理通用设计结构以及数据接口,在满足相关要求后,将其应用到系统中[2]。

2 在电力营销数据分析系统中应用数据集成技术

从我国从2010年,基础设施建设后,有关信息系统建设已经进入到一个全新的发展阶段,全年的系统集成服务市场总资产为288.69亿元。2011年,中国系统集成服务市场的规模为349.11亿元,同比增长了20.9%,而2012年、2013年系统集成服务的市场规模分别为419.67亿元、499.06亿元,详见表1。

表1 中国从2010年至2013年系统集成服务的市场规模和增长率

时间(年) 2010 2011 2012 2013

市场规模(亿元) 288.69 349.11 419.67 499.06

同比增长率(%) 19.7 20.9 20.2 18.9

中国内部系统集成市场的发展规模呈高速增长趋势,行业规模增长在219.5%左右。而推动数据系统集成技术发展,扩大其应用领域制造业、各级各类企业信息化、教育以及政府应用。我国其他行业信息化进程并没有完成,对于系统集成需求需要不断增加。电信、金融、政府这三大行业在系统集成服务中所占比重为55.1%,其他应用领域,尤其是电力营销领域所占比重较低。

银行作为金融业IT投入的主体,是总体投资规模的72.2%,而银行业IT投入的稳定也是金融信息化投入增长的一个主要原因。图1为2011年至2013年国内金融业IT投资规模。

图1 2011年至2013年国内金融业IT投资规模统计图

此外,虽然现阶段全球对于系统集成的市场需求较大,然而系统集成市场的增速并没有因此而快速增长,如图2所示。

图2 2007年至2013年全球系统集成的市场规模

其中 市场规模(亿美元)

因此笔者建议加强数据集成技术在电力营销数据分析系统中的应用研究。下文从两个方面应用思路以及实现应用这两个方面进行探讨[3]。

2.1应用思路

根据系统内部结构可以将电力营销数据分析系统划分为两个部分。其一,数据集成。其二,实现软件功能。电力数据分析系统在运行的过程中,上述两个部分使用的是同一数据库服务器。而在系统中利用数据集成技术,即在全范围内对数据进行总体设计与总体布局,在全部数据运行过程中,创造完整、稳定的数据环境,对系统基本功能以及算法结构进行定义,在掌握数据库结构的基础上,开发和利用[4]。

系统中的数据集成部分主要利用的是中间件技术,完成系统的再度开发,保障数据集成部分的功能得到正常得发挥,从而在采集数据与传输数据方面得到充分的应用。在选择利用中间件的过程中,需要密切注意中间件的质量,确保技术的先进性,以此才能够保障数据运行的稳定性与安全性,从而提高设计应用的质量,减少传输数据过程中所造成的损失。

此外,从数据采集方面而言,类型不同的电力营销系统也存在在一定的差异,这些差异包括以下三个方面。其一,数据内容的多样性。数据种类较多,包括了普通文件、关系数据等,要公开分析整理这些数据。其二,每个电力营销系统应用的是不同的数据管理系统,所以数据采集与数据管理也并不相同。其三,不同的数据访问模式。按照数据存放形式的不同,一些数据访问利用的是数据库接口完成访问,而另一些数据则利用访问文件来完成数据访问[5]。

2.2系统应用

数据集成服务器:因为采集数据的过程中,采取的单向方式,因此服务器接收端位于本地,发送端和分布式数据库联系在一起,分两端服务。

本地数据库:因为各个电力营销系统中的数据量较为庞大,为了确保访问速度与数据容量,采取的是多个数据服务器方式。在数据库中需要设计安装存贮设备与触发器,用来减少系统工作量,确保数据传输与处理的一致性。

应用服务器:从具体应用的要求出发,系统逻辑层的服务功能包括了两类,其一,低级服务;其二,高级服务。其中低级服务指的是本地数据库和其他数据库的连接与维护。而高级服务功能则指的是根据要求配备不同组件,所有组件提供至少要求能够提供一种特定服务。

数据传输的安全性要求:在传输数据的过程中,有多个渠道,而不同渠道在保障数据实时性与安全性方面并不相同,可以利用电子邮件进行数据传输,也可借助信息通信中间件进行数据传输,确保数据的单次传输。这种传输方式是以中间件作为渠道进行数据菜蔬,面向的是分布式信息中间件产品,在消息对列的基础上,为分布式应用搭建可靠、完整的信息交换平台。对于传输安全性有着较高要求的客户,可以利用信息通信中间件作为传输方式。例如:以信息通信中间件为主,电子邮件为辅的传输方式,数据接收服务器从信息队伍中自动提取有关消息,从而完成数据通信[6]。

3结语

综上所述,中国市场经济的稳步发展,要求电力营销企业不断提高自身的市场竞争力,在实际的发展过程呢个中,应用先进技术,不断改进自身的经营管理质量,在电力营销数据分析系统中充分应用数据集成技术,提高数据采集与数据处理效率。

参考文献:

[1]徐晶,徐锋.数据集成技术在电力营销数据分析系统中的应用[J].科技致富向导,2014,10(25):201-202.

[2]贾玉君.国内电力营销监控领域的研究现状与发展[J].电力信息化,2010,09(15):251-252.

[3]郭航宇.电力营销数据分析中的数据集成技术研究[J].科技与创新,2014,10(09):440-441.

[4]雷波.数据挖掘技术在电力营销系统中的应用研究[J].广东科技,2014,02(08):331-333.

[5]戴小廷,陈荣思,肖冰.基于信息熵的决策树挖掘算法在智能电力营销中的应用[J].郑州轻工业学院学报(自然科学版),2012,03(03):901-902.

免责声明:以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。
推荐期刊
发表咨询 加急咨询 文秘咨询 杂志订阅 返回首页