时间:2022-05-21 10:30:09
绪论:在寻找写作灵感吗?爱发表网为您精选了1篇大数据处理论文,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
【摘 要】
分析了D2D通信中大数据的特征,重点阐述了数据筛选、预处理、建模等大数据处理的关键技术,并对提高大数据无线传输的稳定性、可靠性和高效性进行了探讨和展望。
【关键词】
5G 大数据 D2D
1 引言
在当前移动通信系统中,数据要经过基站、基站控制器、网关和交换机。随着大数据背景下网络流量迅猛增长,基站将不堪重荷。终端直通(D2D,Device-to-Device)通信作为第五代移动通信系统(5G)中的关键技术之一[1-2],可实现数据不经过基站直接传输(如图1所示),借助提高空间利用率来进一步提高无线频谱利用率,可使移动通信在众多场景下变得更加直接和高效[1-3]。
但面对爆炸式的业务量,仅仅依靠D2D通信技术是远远不够的。提升如何从各种各样的数据(包括结构化、半结构化、非结构化数据等)中快速获取有价值的信息的能力对于大数据分析与处理来说十分关键。业界对大数据的特征进行归纳,主要包括4个“V”[4],即数据体量巨大(Volumn)、数据类型繁多(Variety)、数据价值密度低(Value)、有很多实时数据要求快速处理(Velocity)。因此,传统的数据表示方法不能适用于大数据的表示。如何对体量巨大、结构繁多的数据进行有效表示?如何通过结合D2D通信的特点,最大程度地压缩数据的冗余度,挖掘出隐藏在数据背后的规律,从而使数据发挥出最大的价值?是D2D通信中大数据处理技术的核心目标。
本文首先从分析D2D通信系统中大数据的典型特征出发,分析大数据处理过程中所面临的挑战;然后具体分析了D2D通信系统中大数据的表示和处理方法;最后对未来研究方向做了展望。
2 D2D通信系统中大数据的典型特征
(1)数据量大
D2D通信为海量多媒体服务提供了一个强大的通信平台,如海量文本、图像、语音、音视频等应用。但是,随着采集设备成本的降低和存储容量的增大,训练样本的数量往往非常巨大,如在很短的时间内所采集到的数据可以轻易地达到几百TB。由于D2D通信中终端计算及存储能力有限,如何有效地表示采集到的大数据集十分关键。由于D2D大数据集中数据的分布复杂多样,因而需要采用具有较高普适性和较大灵活性的模型和方法来对数据的特征属性进行表示和处理[5]。传统的基于参数建立起的模型及其学习算法由于模型的结构固定,因此限定了其可以表示的数据特征。与参数模型相比,采用具有结构可调节的非参数模型及其学习算法在这样的情况下具有更好的效果。
(2)数据的维度高
由于D2D通信中终端的异构性以及用户需求的异构性,高维和超高维的数据不断涌现。很显然,数据维数越高(属性越多),就可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,过高的维数不可避免地对数据的表示与处理提出了严峻的挑战。研究表明,对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。换句话说,该低维空间包含了高维数据中的全部或绝大部分的有用信息。因此,如何在低维空间中有效地刻画高维数据的有用信息,也是D2D通信中大数据处理领域一个不容忽视并且极具挑战性的问题。目前已经有一些隐空间模型和方法,如主成分分析、因子分析、独立成分分析等可以用于完成此项任务,找到这样的低维空间并将数据进行高效表示[7]。
(3)模型的复杂度和计算时间
传统的通信系统处理数据时,由于数据量不大,因此可以采用较为复杂的模型来描述数据的特征。而在与D2D通信大数据相关的应用中,终端处理能力受限,如果仍然采用复杂的模型来处理大数据,则计算和时间成本将大大增加;另一方面,如果采用较为简单的模型,可能不能完全表示和挖掘出大数据的关键特性。解决方法是:一方面,尽可能设计简洁的模型及高计算效率的算法,从而降低模型的复杂度和计算时间;另一方面,利用终端的灵活性,可以采用并行计算和分布式计算技术,把原先一个终端上的数据表示和任务处理分摊到多个终端。通过设计相应的算法,实现多个节点的信息共享和协作,从而降低每个终端上模型的复杂度和计算时间[7]。
(4)算法的实时性和可扩展性
在D2D通信系统的大数据处理中,都需要对其中的大数据进行实时性表示与处理,即当新数据到来以及新类型出现时,算法能够根据实际情况进行自适应的调节,以适应数据的变化。而传统的学习算法偏重于离线算法,因此需要设计一些在线学习算法,对描述或表示数据的模型进行在线学习。其中,贝叶斯技术可以很方便地用于在线学习[8]。此外,在设计模型及其学习算法时,也需要考虑其多媒体应用的可扩展性。
3 D2D通信系统中大数据处理方法
基于D2D通信中大数据处理的具体特征,本文拟从用户的感受出发,设计如下方案来高效地表示和处理D2D通信系统中的大数据,提取其中的有效信息,具体如下:
首先,从应用的内容出发,根据具体用户业务需求和应用背景对大数据进行初步筛选。即只需要保存与所需任务相关的数据,去除无关数据,从而提高后续处理的效率。
其次,设计合理的算法,对大数据进行预处理,并且依据用户体验提取特征属性。如前文所述,D2D通信中所采集到的大数据的维度(属性)较大,因此对于大数据有效特征属性的提取十分重要。此处可采用贝叶斯因子混合分析方法,通过该方法,可以找到一个数据有效信息相对集中的低维空间,从而可以将高维数据投影到低维空间中,最大程度地降低数据的冗余,完成数据的降维过程,从而可以在低维空间中完成后续的操作(如图2所示)[9]。此外,该方法的另一个优点在于,由于得到了高维数据的低维有效表示,从而可以在某些条件下实现数据的可视化。
图2 数据冗余度降低过程
最后,设计合适的模型来精确地描述提取出的大数据属性,从而进一步用高效、简约的形式来表示大数据。在现有的工作中,在用模型对大数据进行表示和处理方面已经开展了一些研究,取得了一些研究成果。具体地,选用混合模型来描述建模大数据的分布已成为主流,主要原因有两点:
(1)D2D通信中业务种类多、网络数据的分布较为复杂,而混合模型在理论上可以建模和描述任意复杂的数据分布。
(2)混合模型及其学习算法属于生成方式的学习范畴,只要获得准确的模型,则可以用该模型作为大数据的紧凑表示形式,因此,其比判别方式的学习具有更小的存储、更低的传输和处理复杂度,并且有利于在线操作[10]。
此外,根据不同目标场景中的不同类型的数据,需要提出与之相对应的模型和配套学习算法,用其来表示大数据。例如,对于属性较少(数据维度较低)的数据,采用所提出的无限成分t混合模型及其学习算法,估计出模型的参数,在后续的处理任务中只要关注参数就可以准确把握数据的特性。对于属性较多的高维数据,则采用所提出的无限成分t因子混合分析器及其学习算法,对数据进行有效地表示。对于具有时间或空间相关性的数据而言,则可以采用所提出的具有stick-breaking先验分布的t隐马尔可夫模型及其学习算法对数据进行表示[11]。隐马尔可夫模型的最大特点在于结构较为灵活,其可以根据数据的分布自适应确定模型的结构(如混合成分数目、因子维数等),并且对大数据中出现的离群点也具有较强的鲁棒性。由于通过学习算法得到的模型精确描述了数据的分布,较好地完成了后续任务,网络业务流量的识别与预测的正确率有了较大的提升[6]。
进一步考虑到大数据表示和处理中对于模型复杂度和计算时间的需求,需要设计与上述模型相关的分布式算法。通过该类算法,网络中的各个终端只需要采集到部分数据,就可以通过节点间的协作来协同估计出反映整个数据特性的模型参数。需要注意的是,在通信网络中,传输的代价比本地终端计算的代价要高得多。因而在协作过程中,各个终端只需要和在其通信范围内的邻居节点进行通信,并且只传输用于估计最终模型参数的充分统计量,而无需把自己持有的那部分数据传输给邻居终端。这样做的优点在于可以将对大数据的表示和处理分摊到各个终端上,从而最大程度降低了D2D终端的计算量。另一方面,由于充分统计量比原始数据量少很多,因此可以最大程度地降低传输代价,并且减少由于传输中丢包或其他错误、干扰等引起的系统性能的下降。
4 研究展望
对于未来D2D通信中大数据处理技术的研究可以从几个方向开展:
(1)进一步地从高维大数据特征中压缩冗余,剔除无关无用属性,提取与应用目标相关的有用特征,将核学习、流形学习方法引入,解决大数据表示问题。
(2)利用半监督学习、迁移学习、集成学习等理论和技术,最大程度地挖掘大数据间的内在关联信息。
(3)在现有模型和方法的基础上,开发设计在线学习算法,实时完成大数据的处理任务。
(4)设计分布式学习以及大数据处理算法,进一步提高网络节点之间协同处理和通信的能力,进一步降低网络节点之前传输的数据量。
(5)针对具体应用,设计结构更加灵活,更具有普适性、鲁棒性的模型,并且开发设计快速、高效的模型参数及结构估计方法,从而获得更简洁的大数据表示形式。
5 结束语
D2D技术被广泛认为是5G的关键技术和解决无线大数据传输的有力工具。本文从D2D通信中大数据特征入手,分析面临的挑战,提出应对策略,展望研究方向,综合探讨了如何提高D2D大数据无线传输的稳定性、可靠性和高效性的问题。
[摘 要]计算机技术与网络通信技术已经开始逐渐广泛应用于电力自动化系统,电力自动化系统的数据处理呈现多样化趋势,更加复杂化。笔者主要是从电力自动化系统数据类型角度考虑,对于电力系统的快速准确处理进行了分析,对电力自动化系统中数据处理的相关问题进行了阐述和分析。同时探讨了作为电力自动化系统发展方向的智能电网,对其拓扑结构和通信系统进行介绍。
[关键词]大数据时代;电力自动化;数据处理
引言
电力系统是一个动态的系统,主要包含发电、变电、输电和配电四个部分。 电力系统的动态性和实时性是由于电能不能存储的特性决定的。 正是电力系统的动态性和实时性使得其在具体的运行过程中,会产生大量的实时数据,为电力系统中调度部门的操作带来了巨大的困难, 电力自动化系统也就应运而生。 电力自动化系统为电力系统运行过程中产生大量实时数据的准确处理创造了条件。“大数据”时代最先被全球知名的咨询公司麦肯锡提出来,其是生产决策的重要依据。 所谓的大数据时代,是指在互联网技术下,企业的生产运营过程中相关数据的积累,其在商业、经济和其他领域越来越突出,对相关决策具有十分重要的作用。
一、电力自动化系统的类型分类
1.基础型数据:主要是与电力自动化系统中的电力设施设备属性相关的数据,如,发电机、变压器等电力设施设备的基础数据。 对于这些数据一般是电力单位根据相关的数据规划各自进行管理, 并通过相关数据服务器对其数据进行数据同步,便于调度中心对这些数据进行集中存储、整理和相关计算。
2.实时数据:大多数是在电力系统运行过程中进行实时采集的数据,其数据量很大,对存储空间的要求比较高。 这些数据是在电力系统运行过程中产生的, 通过对其进行纠错处理后,能够为调度部门或市场运营提供决策参考依据。 目前,我国电力自动化系统在实时数据处理方面比较成熟,对收集到的实时数据不需要进行相关的处理,只需要在数据输入、输出过程中建立一个稳定的接口即可。
3.日常管理的数据:主要是在电力系统运行过程中对各种相关数据进行统计,各部门对在工作中遇到的问题进行相关处理后的数据信息。 一般情况下,这些数据只需要在特定的范围内进行同步和共享即可。 在电力系统运行过程中,建立这一类型数据同步和共享的数据平台是十分必要的。 主要原因表现在以下几个方面: ① 这些日常管理的数据在某种程度上反映电力系统中电力设施设备的运行情况; ② 方便电力系统中各个部门对日常管理数据的获取,以便更好的开展部门工作。
4.市场经济数据:随着市场经济的发展,电力系统的经济效益越来越突出,电力系统运行中的相关数据对电力单位的发展具有重要影响,将其作为经济性数据十分有必要。 市场经济数据对城市建设规划中的电力规划有很重要的决策参考依据。 市场经济数据具有非常大的扩展空间,其数据规划的重点将是实时数据。
二、电力自动化系统中的数据统一性
数据一致性即数据的唯一性。 电力自动化系统在运行过程中,会产生大量的数据信息,这些数据信息大部分都是其子系统中特有的信息, 还有一部分是部分子系统中共有的数据信息,也就是各子系统之间的数据信息交叉现象。 每个子系统中的数据均存储在其数据库系统中,会对整个系统的数据存储造成大量的数据冗余,使得电力系统中数据系统处理数据信息的效率不高,数据信息更新缓慢,甚至会造成数据信息的混乱,很大程度上降低了电力系统中数据系统的使用效率和可信度。在实际电力自动化系统运行过程中,通过对整个系统的数据库系统进行统一管理,能够在很大程度上保证数据信息的一致性。 对于部分离线数据库系统来说,其数据信息的唯一性主要是通过利用离线数据库在数据库系统的服务器上,对数据库系统的服务器进行统一维护。 对实时数据库而言,主要是通过电力自动化系统在运行过程中,由实时数据库系统中的管理系统进行统一、实时的管理,确保数据信息的一致性。
三、电力自动化系统中的数据容灾
通常情况下,需要对电力自动化系统中的重要数据信息进行数据备份,再通过网络通信技术将其传输到异地进行数据信息保存。 当发生灾难后,可以由相关的计算机专业人员根据备份的数据对电力自动化系统中的数据进行程序恢复和数据恢复。 这有利于降低电力单位在数据信息备份方面的成本,操作也相对而言较为简单方便。当电力自动化系统中需要备份的数据量逐渐增加时,就会出现数据信息存储介质不易管理的问题,在发生灾难后,也不
能够及时的将大量的数据信息进行恢复。
四、电力自动化系统数据收集过程
电力自动化系统运行过程中的数据,主要是通过数据信息的采集、集中、整理和转发来实现的。 根据数据类型的不同,采用不同的传输介质进行传输。 数据信息的通信方式主要有两种: ① 有线传输,如,光纤、电缆等多种介质,具有数据信息传输的实时性和可靠性等优点; ② 无线传输,如,微波、无线扩频等通信模式,具有无需铺设通信通道、工作量少等优点。在实际的电力自动化系统运行过程中, 其涉及面十分广、系统种类多,根据不同的部门需求的多个系统组成,能够满足每个部门在数据系统中获取数据信息。 电力自动化系统中的设施设备的采购,可以适当的将一些先进的技术和经济性能的指标进行考虑,再在操作技术上进行优化处理,以最大程度的实现电力单位的经济效益和社会效益。
五、智能电网
1.智能电网中的网络拓扑结构
智能电网中的网络拓扑结构具有坚强、灵活的特点,能够有效的解决电力系统中能源和生产力分布不均匀的问题,满足电力企业大规模生产运输过程中产生大规模数据的处理功能,实现资源的优化配置,减少电能损耗。 同时,智能电网中的网络拓扑结构能够有效的应对一些自然灾害,如雨、雪等。
2.开放、 标准、 集成的通信系统
智能电网能够对电力自动化系统进行及时有效的监控,主要在其具有识别故障早期征兆的预测能力和对故障做出相关的相应的能力。 智能电网是电力自动化企业的发展方向,能够为电网规划、建设和运行管理提供全面的数据信息,有利于大数据时代下电力自动化运行系统的稳定、安全和高效的运行。
六、结语
自动化系统的正常运行,一定要充分考虑到系统运行中数据信息的数量信息,便于数据的维修和存储空间的无限扩展。文章主要是分析了自动化系统的数据类型,并且对其进行了详尽的分析,对于相关问题进行了阐述,给电力自动化系统提供了更加广阔的空间,并探究了智能电网在电力自动化运行系统中运行的优势和未来的发展方向。
[摘 要]在当前新时期环境下,智能电网大数据处理技术在获得飞速发展的同时也面临着新的挑战,本文首先对智能电网大数据的特点进行了分析,并且探讨了智能电网大数据处理技术的发展现状,重点分析其在当今新时期环境中面临的挑战。
[关键词]智能电网 大数据处理技术 现状 挑战
随着我国智能电网建设进程的不断推进与深入,电网运行与设备监测过程中也产生了大量的数据信息,逐渐构成了当今信息学姐与研究人员重点关注的发数据,但大数据时代下电网的高效、稳定运行离不开相应的处理与存储技术作为支撑。
1.智能电网大数据的应用特征
电网业务数据可以大致划分为三类:第一是数据监测、设备检测及电网运行;第二是电力企业营销数据,如用电客户、销售量、交易电价等方面的信息数据;第三是电力企业的管理数据。[1]数据信息量十分巨大,并且随着电网数据的不断更新升级,数据类型也变得繁杂多样。电网数据种类众多、分布较广,主要包括多媒体数据、文本数据、实时数据、时间序列变化等半结构化、非结构化以及结构化数据,不同类别的数据在查询、处理方面的性能与频度要求也存在很大差异。智能电网运行时的数据价值密度较低,例如电网监控视频,其在实际监控管理的过程中,总数据中十分有用的信息量是非常少的,多数的数据都是正常数据。
2.智能电网大数据处理技术发展现状分析
2.1 并行数据库
关系数据库主要负责对结构化数据进行存储,从而提供严格依据规则快速处理事务的能力、边界的数据查询与分析能力、数据安全性保障以及多用户并发访问能力。应用强大的数据分析能力以及SQL查询语言以及独特的程序优势获得了广泛的应用。[2]经管随着智能电网建设的不断加快,数据超出了关系型数据库的管理范畴,地理信息图片与音频、图片以及视频等非结构化的数据逐渐成为需要处理与存储的信息的一项重要组成部分。
2.2 云计算技术
随着云计算平台的出现及完善,大数据技术的需求也相继出现,云计算的关键是数据并行处理与海量数据存储技术。而在智能电网中,电力设备状态监测设备的数据量应当是最为庞大的,而状态监测数据不但包含了在线数据,还应当包括缺陷记录、实验记录以及基本信息等,由于数据量极大,其对于实时性要求比企业的数据管理更高。当前,云计算技术在电力行业的发展依然处于初级的阶段,现行的云计算平台能够充分满足职能电网监控软件运行的可扩展性与可靠性要求,但在数据隐私、安全性、一致性以及实时性方面存在缺陷,依然需要进一步优化与完善。
3. 智能电网大数据处理技术面临的挑战分析
3.1 大数据传输与储存技术
随着智能化的不断发展,电力系统在运行过程中的电力设备监测数据与其他数据都会被记录下来,数据量不断增加,这对于电网运行监控以及数据的传输、存储造成巨大的压力,同时在一定程度上影响了电网智能化的发展。在智能电网大数据存储方面,通过分布式文件保存的形式可以进行大数据存储,然而可能对电力系统在数据实时处理方面产生影响。[3]因此,需要对电网大数据进行分门别类后再存储。而重点是将其中非结构化的数据转化为结构化数据,对于智能大数据处理技术来说依然较为困难。
3.2 数据处理时效性技术
对于大数据来说,其数据处理的速度是非常重要的。通常而言,数据的规模越大,需要分析与处理的时间也会越长。以往的数据存储方案针对一定要求的数据量进行设计,其在大数据方面并不适用。[4]而在未来智能电网的大环境下,如何在发电、输变电、用电等环节进行数据实时性处理是一个非常关键的问题。
3.3 异构多数据源处理技术
在未来智能电网要求贯通电网运行的每一个环节之中,时间新信息的高效采集与处理,并且逐渐朝着业务流、信息流以及电力流高度一体化的方向进行发展。所以,首先要做的就是如何整合大规模多源异构信息,为智能电网提供一个资源高度集约化配置的数据处理中心。对于海量的异构数据来说,如何构建出科学的模型进行规范表达以及如何在这个模型的基础上实现数据的存储、融合、查询等是亟待解决的重要问题。
结语
我国智能电网系统的应用广度与深度在不断加强,大数据处理技术逐渐成为维护电网智能安全运行的一项重要手段。然而随着电网智能运行的不断发展,其在大数据处理一致性、隐私性、实时性等方面也面临着相应的挑战,未来智能电网的主要依托依然是大数据处理分析技术,所以必须寻找出妥善应对挑战的策略,最终推动我国电力事业的长久稳定发展。
【摘 要】通过大数据的研究处理将获得的有用信息服务于企业或机构,使其在竞争中取得优势,来为企业提供更好的处理大数据的方法,帮助企业更深刻的理解客户对其的需求和体验,以利于业务的发展,用户也可以更好地体验移动互联网各种资源。本文首先对移动互联网大数据做了概述,然后分析了移动互联网大数据处理中存在的问题,最后详细阐述了移动互联网的大数据处理关键技术。
【关键词】移动互联网;大数据;处理;排重;整合
一、移动互联网大数据概述
移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:与网络信令、协议、流量等相关的网络信息数据;与用户信息相关的用户数据;与业务相关的数据。
大数据提供客户经历的各种体验的完整信息,可以详尽到在任何时间、地点,结合移动客户体验方案来分析相关数据,从而帮助运营商更详细掌握客户体验情况,提前预知网络上可能发生的问题,及时做出合理响应,这些信息对运营商的服务提供很大的帮助。大数据分析为整个电信产业带来了前所未有的机遇与挑战,如何高效地发挥这些数据资源的作用,是摆在为运营商面前的关键问题。
二、移动互联网大数据处理中存在的问题
(一)多源数据采集问题
大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:
1.无线移动网络结构复杂,需要在网络中高效地采集数据。
2.多源数据集成和多类型数据集成的技术。
3.兼顾用户的隐私和数据的所有权和使用权等。
(二)移动互联网海量异构数据管理问题
据统计,2003年前人类共创造了5艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。
(三)移动互联网大数据实时数据挖掘问题
传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,Online Analytical Processing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、WiFi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。
三、移动互联网的大数据处理关键技术
(一)数据处理的整体框架
数据处理的整个过程如图1所示,主要包括四个模块:分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据。
这四个模块的主要功能如下。
分词:对抓取到的网页内容进行切词处理。
排重:对众多的网页内容进行排重。
整合:对不同来源的数据内容进行格式上的整合。
数据:包含两方面的数据,Spider Data(爬虫从网页中抽取出来的数据)和 Dp Data(在整个数据处理过程中产生的的数据)。
(二)数据处理的基本流程
整个数据处理过程的基本步骤如下:
1.对抓取来的网页内容进行分词。
2.将分词处理的结果写入数据库。
3.对抓取来的网页内容进行排重。
4.将排重处理后的数据写入数据库。
5.根据之前的处理结果,对数据进行整合。
6.将整合后的结果写入数据库。
(三)数据处理的关键技术
1.排重。
排重就是排除掉与主题相重复项的过程,网页排重就是通过两个网页之间的相似度来排除重复项。Simhash算法是一种高效的海量文本排重算法,相比于余弦角、欧式距离、Jaccard相似系数等算法,Simhash避免了对文本两两进行相似度比较的复杂方式,从而大大提高了效率。
采用Simhash算法来进行抓取网页内容的排重,可以容纳更大的数据量,提供更快的数据处理速度,实现大数据的快速处理。
Simhash算法的基本思想描述如下:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。
(1)初始化一个C维向量Q为0,C位的二进制签名S为0。
(2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1
(3)如果Q的第i个元素大于0,则S的第i位为1;否则为0。
(4)返回签名S。
对每篇文档根据SimHash算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可。根据经验值,对64位的SimHash,海明距离在3以内的可以认为相似度比较高。
2.整合。
整合就是把抓取来的网页内容与各个公司之间建立对应关系。对于每一个公司来说,可以用一组关键词来对该公司进行描述,同样的,经过dp处理之后的网页内容,也可以用一组关键词来进行描述。因此,整合就变成了两组关键词(公司关键词,内容关键词)之间的匹配。
对于网页内容的分词结果来说,存在着两个特点:(1)分词结果的数量很大;(2)大多数的分词对描述该网页内容来说是没有贡献的。因此,对网页的分词结果进行一下简化,使用词频最高的若干个词汇来描述该网页内容。
3.流处理系统。
移动互联网的多源异构数据每时每刻都在大量产生着。数据探测模块根据这些数据处理的不同要求,将数据分别送给实时处理系统和批处理系统。很多互联网公司将根据业务的需求和处理的时间将划分为在线、近线和离线三种方式来处理业务消耗的时间。这其中,在线处理的处理时间通常在毫秒级,一般采用流处理方式;离线处理的处理时间通常以天为单位,一般采用批处理方式。这样会最大程度地利用好输入/输出系统。近线处理对其处理模式没有特别的要求,处理的时间一般在分钟级或小时级,在实际情况中多采用此处理方式,可根据需求灵活选择。
四、结语
综上,随着移动互联网的迅猛发展,客户处理的业务越来越复杂,与其相关的大数据正逐渐增长,大数据分析技术已经成为各方关注的焦点。合理使用大数据将有效的发挥移动互联网大数据的资源作用,使大数据为用户获得前所未有的体验,为企业发展提供完整清晰的指引。
摘要:随着大数据时代的到来,各行各业都受到不同程度的冲击,管理会计也面临着前所未有的挑战,尤其在数据处理方面发生了巨大的变革。这些变革包括管理会计大数据的思维模式,数据的收集、存储、加工、分析等数据处理方面的变革。
关键词:管理会计 大数据时代 云计算
随着互联网时代的开启,大数据概念开始在全球蔓延,我国也于2014年将“大数据战略”上升为国家战略,基于互联网的大数据逐渐正改变着各行各业的传统模式,作为会计重要分支的管理会计工作也遇到了前所未有的挑战。
一、大数据时代的到来
(一)大数据时代的特点
“大数据时代”这一概念最早是由全球知名咨询公司麦肯锡提出的,“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”业界普遍认为大数据的特点可以由四个“V”概括,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。大量是指相对于传统的数据产生方式,现在的数据呈现出爆炸式增长的特点;多样是指数据来源多样繁杂,如数字、文字、图片、音频、图像、网页、地理位置信息等五花八门的数据形式;高速是指随着云计算等先进技术的发展使得数据的计算能力突飞猛进,数据库实时更新;价值是指价值密度低,比如一个小时的视频也许只能采集到几秒钟有用的数据。自古以来商业的发展都是基于数据分析作出决策,但从未有一个时代像大数据时代这样出现如此大规模的数据,如今的企业就像是漂浮在数据海洋上的巨轮,而管理会计需要做的就是及时准确地挖掘出有用的数据。
(二)大数据拉启了管理会计新发展的序幕
1、海量数据为管理会计提供了重要的经营管理资源
管理会计职能的有效发挥必须建立在对数据的准确分析上,大数据时代数据呈现出样本数据向全数据转变的趋势,使得管理会计的处理对象更加完整。对于任何企业来说,数据都是商业皇冠上最为耀眼夺目的宝石,在未来的商业竞争中,谁能够占有更及时、更丰富的数据,谁才有可能在瞬息多变的市场中站稳脚跟。管理会计工作者要应势而动,建立数据仓库,做好数据资源的收集、存储、挖掘及整理分析和共享的工作。
2、传统的结构化数据已无法满足管理会计的决策需求
一直以来,结构化数字数据作为管理会计的主要处理对象在企业决策中发挥了重要的作用,但随着数据的爆炸式发展,企业自身信息系统中产生的标准化、结构化数据在企业所能获得的数据中所占的比重越来越小,甚至不足15%,显而易见,结构化数据在企业决策中所发挥的作用已非常有限。据统计资料显示,企业的数据资源中85%属于广泛存在于社交网络、物联网等之中的非结构化或半结构化数据,这些数据被用来优化生产流程,增强客户体验。因此,企业管理者必须重视数据资源的全面性,特别是半结构化数据和非结构化数据的收集,为管理决策提供完整、准确的依据。
3、实时更新的动态数据促进企业数据处理能力的提高
大数据时代下,企业每天需要处理的数据以惊人的速度不断增长,传统的关系型数据库已成为管理会计发展过程中的主要瓶颈,以沃尔玛为例,通过建立数据仓库,其每小时可以处理的交易记录高达一百万次,存储数据规模多达2500TB,这是传统的关系型数据库绝对做不到的。鉴于人脑对数据处理能力的有限性,处理完的数据也需要以可视化的界面呈现出来,这也对管理会计提出了新的要求。
4、数据的价值取决于其及时性和预测性
大数据分析最重要的一点是保证数据的及时性,其次是预测性。以很多企业投入使用的脸谱识别系统为例,从进门的那一刻,人脸就被快速抓拍,通过技术分析可以明确地知道这个人是谁,他将要去哪里,这些曾经看似天方夜谭的事情已经实实在在的发生了,这个世界正在发生改变。数据的及时性和预测性对管理会计提出了更高的要求,构建数据仓库、应用数据挖掘技术已是势在必行。
二、大数据时代引发管理会计数据处理模式的重大变革
(一)管理会计数据搜集方式与内容的变革
传统的会计核算系统中,数据源头是各种纸质原始凭证,随着互联网技术和各种电子设备的广泛应用,原始凭证由纸质慢慢过渡成为电子数据,并且不再由财务人员负责收集,而是广泛分散在采购部门、生产车间、销售部门、后勤部门等各业务部门,甚至是供应商、客户、政府机构、中介机构等外部相关组织中。通过管理信息系统和互联网直接采集信息,节省时间和成本的同时,也提高了数据的准确性。
大数据时代下,相对于传统的结构化数据,半结构化和非结构化数据的运用是越来越广泛。大量的数据出现在社交平台、新闻网页、各种客户端等,并以音频、视频、图片、符号等多种多样的形式呈现出来,这些数据都有别于传统的结构化数据,呈现出非线性的特征,但对于管理决策却发挥着日益重要的作用,管理会计如何处理这些数据已是当务之急。如客户在微信、微博、论坛等社交平台中发表的对产品或服务的评价,如果加以处理和分析,完全可以用于管理决策支持。
(二)管理会计数据存储方式与内容的变革
大数据时代,如何将复杂多样的海量数据加工提炼成有用的信息以供管理者决策之用是所有企业需要解决的首要难题。目前的数据库市场中,传统的关系型数据库仍处于主导地位,这类数据库只能够处理结构化数据,随着数据来源与种类形式的日益多样化,关系型数据库在高并发读写、高吞吐率和海量数据存取、高可用性和高扩展性需求等方面越来越无法适应新的形势,操作复杂、成本高昂,最关键的是数据处理的有限性已成为制约企业发展的瓶颈,如不及时转变思路和更新技术,企业难逃被市场淘汰的命运。大数据仓库是世界各国普遍采用的一种管理系统,包括数据的收集、预处理、存储、整合、分析、数据挖掘和价值再造等多种功能模块,保证数据被充分提炼和处理。企业也可以根据自己的实际需要,将大数据仓库分为不同功能模块,如存货管理模块、生产计划模块、销售管理模块等,明晰的模块分类有利于数据的管理和使用,在这个基础上,企业可以利用数据挖掘技术寻找能为企业创造价值的潜在信息。
(三)管理会计数据加工分析方式的变革
大数据时代下,数据挖掘已经成为一项应对海量数据必不可少的技术。“啤酒和尿不湿”已经成为了数据挖掘中最经典的案例,零售连锁举头沃尔玛公司拥有世界上最大的数据仓库系统之一,在这里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘,最后得出结论:跟尿不湿一起购买最多的商品竟是啤酒。在数据挖掘过程中需要用到回归分析、趋势分析、决策树分析、时间序列分析等算法,而这些对于管理会计工作者来说显得相当陌生。
以企业常见的投资决策为例,传统的投资决策分析方法有内含报酬率法、净现值法等,这些方法通常是依据单一渠道取得的相对准确的历史数据进行分析,通过这种方法分析得出的结论相对滞后、单一,对于管理者决策只能发挥有限的参考作用。大数据时代下,企业投资决策通过搜集线上和线下数据、历史资料和现时的业务数据、技术数据、企业上下游供应链数据、用户数据、竞争对手数据、相关政策法规等一系列相关的完整数据后,再运用先进的数据挖掘技术做出最为可行的选择。
(四)管理会计信息共享模式的变革
数据挖掘技术得以有效使用的前提是“信息孤岛”现象的消失。传统的数据库模式下,不同业务部门之间都有自己独享的数据中心,局部意识严重阻碍了信息共享观念的普及,这种封闭的“信息孤岛”管理模式在大数据时代下逐渐瓦解,在企业价值链甚至企业间价值链上正在逐步实现信息共享。如生产部门可以直接查询库存管理部门原材料的存储情况,并根据生产需要及时通知采购部门,甚至在企业与供应商及客户之间都可以实现信息共享,增强彼此间合作的亲密度,形成稳固的伙伴关系以共同应对瞬息万变的市场竞争,实现共赢的战略合作局面。
三、积极应对大数据时代管理会计面临的挑战
(一)正确认识大数据时代对管理会计造成的冲击
统计资料显示,目前我国企业中约有50%的管理者并未对大数据战略及互联网时代对企业的影响引起重视,而且有38%的被调查者并不清楚大数据的概念,25%的被调查者对于大数据的理解存在偏差,甚至有些管理者认为大数据时代对其所在的企业不会产生任何影响。而对于中小企业来说,大数据战略更是遥不可及,单是人才的培养就需要一笔不菲的投资,完全不符合成本效益原则。因此,大数据时代虽然已大踏步来到,并对很多传统行业造成了巨大的冲击,却并未引起管理者的足够重视,或者因为各种条件的限制而选择了视而不见,这势必会影响到大数据在管理会计中的应用。
(二)构建基于云计算的管理信息系统
大数据时代信息的存储量相当可观,据统计,百度每天新增的数据就有10TB,系统每天需要处理的数据则超过1PB,而完全颠覆传统销售模式的淘宝商城每天需要处理的数据高达50TB。随着物联网、互联网、移动互联网的广泛使用,不同形式的数据铺天盖地,同样需要巨大的存储空间,而现有的数据库几乎无法存储TB级别的数据,分析整理更无从谈起。因此,能否对现有数据存储系统更新换代,建立巨大的TB级的数据仓库,将直接决定企业能否实现对数据的及时、完整的收集、存储、分析、整理,最终决定企业的成败与否。云计算模式应运而生,借助互联网这一平台提供快速、动态、虚拟、规模化的信息资源,满足用户结构化、半结构化乃至非结构化信息的多种分析需求。
(三)完善信息安全技术制度
如何保障信息安全是大数据时代及互联网广泛应用过程中必须要重视的一个问题。企业收集的数据中常常包含着其他企业、组织或者个人的隐私,这些信息一旦泄露,会给当事人、客户、供应商等造成难以挽回的损失。在拉斯维加斯每年夏天举办的全球性的“黑客大会”上,让人眼花缭乱的黑客技术轮番上演,这也为各大企业、组织、政府部门等敲响了警钟,信息安全技术的发展和维护任重而道远,如何保证信息安全成为了摆在每一个人面前的重大课题。
(四)注重适应大数据时代要求的管理人才的培养
目前,世界各国的大数据专业人才都面临巨大的缺口。一项预测显示,在未来六年内,仅美国一国就可能面临14 万至 19 万拥有扎实分析技能的人才缺口,面临的懂得使用相应工具分析大数据、作出合理决策的管理和分析人员的人才缺口更是高达 150 万。人才的短缺势必会阻碍企业开发、利用管理会计信息工作的进程。因此,能否及时培养掌握此类分析所需知识与技术的管理会计人才,对企业的发展至关重要。
大数据是人们认知世界的一种新的渠道和新的方法。大数据的应用可以看做是知识在计算机网络上的新呈现,本文详尽阐述了智能电网中大数据的特点,智能电网中大数据处理技术现状和智能电网大数据处理技术面临的挑战等方面进行了深入的探讨。
【关键词】智能电网 大数据 云计算 并行数据库 应用现状
随着智能电网建设的不断深入和推进,电网运行和设备检、监测产生的数据量呈指数级增长,使电力企业进入了大数据时代,对目前的数据存储和处理技术提出了更高的要求。同时也对智能电网大数据的处理效率提出了更加严苛的要求,本文以现阶段智能电网大数据处理的技术应用为出发点,基于大数据处理目前的技术水平,分别从传输性、存储性、时效性、集成性和可视性等方面探讨新技术背景下智能电网大数据处理面临的机遇与挑战。
1 智能电网中大数据的特点
智能电网业务中的基本数据按内容可以划分成三大类。
(1)运行数据、设备检测数据、设备实时状态参数数据。
(2)电力企业营销数据(用电客户、电量报价等)。
(3)电力企业管理数据。
在上述类目可以再次细化为结构化数据和非结构化数据两大类。但无论基于何种分类方式,大数据在智能电网中体现出来的特点是不变的,简单概括为体量大、类型多,具体如下:
(1)数据体量大:即数据的数量和体积较为庞大。在智能时代的推动下,电网在数据吞吐量的级别已经从以往的TB级飙升为PB级。
(2)数据类型繁杂:由于电力企业自身存在的特殊性,加之其地理分布情况在区域上的差异性,电网企业涉及到的数据有着极为复杂的类别划分,细分后的子类和子项同样在数量上非常庞大,也正是由于这一特点,不同的数据类别对服务器端硬件设备及用户端的系统平台均有不同程度的配置、性能及处理需求,从而更是增加了电网企业内网及外设双重建设项目的难度。
(3)数据价值密度低:异常数据出现的频率低,同时也是对电网软、硬件设备维修和检测最有价值的。
2 智能电网中大数据处理技术现状
2.1 并行数据库
关系数据库常用于结构化数据的存储、整合及维护,可以实现的具体功能如下:
(1)可实现数据查询及逻辑分析的快捷化、灵活性操作。
(2)可提供高标准规则强制下业务事项的高效处理。
(3)可承载一定数量的用户同时发起数据访问的系统压力。
(4)可执行高级别安全机制。
得益于SQL严谨的数据查询语言、高效率的数据分析层级以及脱离对程序依赖的高效率独立化协同运行等绝对优势,关系数据库得到了业界的一致认可和推广。但是智能电网的开发和组建已经今非昔比,其进展的速度早已将关系型数据库的能力范围甩在了身后,仅在非结构化数据存储这一点能力上的局限,就使得目前多种主流数据类型如地理信息、高像素图片以及各种音、视频等格式文件无法满足电力企业在数据存储方面提出的全新的、更高标准的需求。
2.2 云计算技术
云计算平台的诞生使得大数据技术尤为必要,能够存储海量数据并具备数据并行处理功能等核心技术,因此为电力设备实时状态数据提供了强大的技术支持。实时状态数据不仅类目众多,数据量庞大,可靠性和实时性的标准高,使基于云计算技术的海量数据研究仍处在起步阶段,即便能够确保监控程序的延展性和可靠性,但更高标准的性能如安全和数据隐私等并未实现,仍需不断探索。
3 智能电网大数据处理技术面临的挑战
3.1 大数据传输及存储技术
智能时代数据量的日渐增多极大程度影响了电网智能化的发展,并在存储系统、电网运行监控设备以及数据传输方面形成了诸多负担。因此要进行分类存储和分析系统中现有的大数据性能。非结构化数据在智能电网中存有的百分比较大,将此类非结构化数据演变成结构化数据,是当前智能大数据在存储方面处理技术上存在的难题。
3.2 数据处理的时效性技术
大数据重点在于处理速度。一般情况下,处理时间与数据规模成正比,规模大的数据集处理的时间就越长。传统的存储方案仅能够处理能力范围内的一定量的数据,对大数据却难以驾驭。随着智能电网的不断应用,实时数据处理将需贯穿于用电、输变电和发电等各项关键环节中。
3.3 异构多数据源处理技术
未来智能电网能够将贯通发电、调度以及变电、输电、配电等几项环节得以满足,能够将信息的全面采集、高效处理、流畅传输以及业务流、信息流和支撑电力流实现高度的一体化。因此,其主要功能是能够整合出规模较大的多源异构信息,可以由资源集约化配置的数据中心提供给智能电网。目前海量异构数据需首要处理的问题在于,怎样构建出一个能够规范表达的模型,同时何以才能以该模型为基础将数据融合以及查询存储同时高效进行。
3.4 大数据可视化化分析技术
针对难以量化的智能电网数据,在屏幕空间自身局限的显示情况下,面向用户提供一种更为简便直观的方式,是跨越性较大、难度较高的一项工作。在实践中,可视化方法能够分析规模较大的数据,将数据绘制为分辨率和精度较高的图片,同时辅以交互工具,结合人的视觉系统,对算法参数和实时处理做出决定,并通过数据展开定量、定性的分析和观察。
4 结语
智能电网系统在我国的应用日渐广泛,大数据处理技术已然是智能电网安全运行的有利武器。但在电网智能化的发展进程中,实时、隐私等方面的性能需求对大数据技术本身提出了更严峻的挑战,为了向全景实时电网时期迈进,我们必须制定有针对性的解决方案,为电力事业得以持续稳定发展贡献出力量;推动我国社会主义现代化建设的步伐更快的向前迈进。
信息爆炸时代,大数据超大体量、离散性和非(半)结构化的特点已经远远超出了传统数据管理方式所能够承载的范畴。大数据要求全面革新原有的数据处理架构和有关技术,实现超大体量和复杂数据的存储、高效传输和有用信息提取。围绕大数据,云计算技术营运而生。云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。本文主要分析了大数据和云计算之间的关系,以及云计算环境下大数据处理技术。
【关键词】云计算技术 大数据 数据处理
随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
1 大数据和云计算的关系
云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
2 基于云计算的大数据处理技术
2.1 大数据的采集技术
目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
2.2 大数据的存储技术
由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。
2.3 大数据的挖掘技术
联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。
2.4 大数据的可视化技术
上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。
3 结语
在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
摘 要
大数据主要包括结构化数据、非结构化数据两部分,目前已具备应用价值大、数据量大、速度快等特点,这些特点对今后投资统计数据处理技术将带来颠覆性变化,为此,本人结合从事多年统计数据处理经验,重点阐述投资统计大数据在数据采集、存储和分析涉及的主要关键技术。
【关键词】投资统计 大数据处理 关键技术
本人从事多年统计工作,对投资统计大数据有着天然的亲近感,投资统计就是搜集、整理、分析、应用数据。目前投资统计改革正在有序开展,我们要抓住改革契机,充分利用投资统计大数据具有海量、实时、多元处理特点,深刻解读数据,创新研究思路,提高投资统计数据处理能力,提供投资统计分析具有数据全、分析深、研究透、成果新、有理有据的可行建议,成为党政府、部门决策的重要参谋。
1 概述
1.1 大数据
投资系统中数据有三种类型分别是项目投资管理数据、联网直报房地产投资数据、规下投资抽样数据。根据投资数据内在结构,可以分为两类,一类是结构化数据,统计系统的企业原始数据可以通过二维表形式反映的数据;另一类是非结构化数据,不能以二维表的形式来反映的数据,如文本、图片、音频、视频等产生的数据。
与传统投资统计不同,投资统计大数据可利用遥感技术和GIS技术进行动态监测,能够获取定期数据,对现有投资统计业务系统进行分析,主要表现在:一是为了能够对投资统计系统运行获取定期数据,要对投资项目进行定位,每个月节点都会产生大量的数据。二是PDA设备对投资统计项目样本点的经常性变化。三是为了能够把握重大项目投资进度,要求对投资统计系统运行中相关信息定期变样采集。四是投资统计数据能够定期与发改、住建、税务等部门数据共享和数据比对。
1.2 特点
投资统计大数据具有以下特点:一是数据量大。随着大数据的发展,投资统计数据TB级逐步上升到PB级。二是类型种类多。现在党政领导对投资统计数据需求越来越准,要进行处理结构化和非结构化投资统计也越来越多,才能够满足需求。三是利用率低。如在定期监测重大投资项目过程中, 大部分监测过程中的数据在正常范围之内,而非常少的监测异常数据是非常有用的,特别是投资项目数据异常值(如极大、极小值),要通过这些数据对比验证,数据是否正确,因此有利用价值的数据占总数据的比例少。四是处理要快。处理投资统计大数据速度要求快,可以利用小型计算机和云技术在非常短时间内能够分析数据,为党政领导决策提供高质量的数据作为依据。
2 关键技术
2.1 采集技术
大数据的采集指利用很多个数据库同时接收,从客户端的传输来的数据,一般用户可以通过这些数据库,在客户端能够达到一般查询和处理过程。 但是在大数据的采集过程中,最大的难点数据并发高,很有可能会同时成千上万的用户来进行访问和操作,采用在采集端部署大量数据库作为支持,能够有效、科学地在投资数据库之间进行负载均衡和分片,是数据采集技术的关键环节。
各类大数据分部不同的部门或项目,给数据的收集带来一定难度,采用关系数据管理模型,运用Google 文件系统GFS 技术,具有纵向扩展功能,应对数据采集并发数高,也是确保实现高效获取大数据的核心。
2.2 传输、存储技术
投资统计系统采用联网直报平台,运行时会实时产生各式各样的原始数据,特别定期用投资遥感监测中数据也会产生更多的数据,经过日月积累海量的数据,会给投资监控设备及数据传输、存储系统造成沉重的负担,并对投资统计系统发展造成很大的影响。
目前投资统计系统数据的传输,为了减轻数据传输量,大部分采用数据压缩的方式,可以应用到投资统计数据传输,大大提速整个系统数据的传输,从而有效降低数据储存的空间。若没有建立有效批处理模型,在压缩、解压过程中仍然占用系统资源较大,浪费也很大,因此更急需建立有效的批处理模型是重要的。现在普遍采用MapReduce批处理模型,能够在平常配置的计算机上实现并行化处理,且能够分割输入数据,在计算机组成的集群上统一调度,确保计算机的集群之间顺畅的通信。
投资统计大数据存储一般采用分布式保存方式,具有性能可靠性,可以解决海量数据的存储问题,可有局限性,如投资统计系统运行时,随时产生实时性数据,处理过程中还是不能够全面应对,最好要根据不同类型的大数据性能先分析,然后再进行实时分类存储。特别是投资遥感监测系统中非结构化数据占大数据比重非常大,需要解决大量非结构化数据转变为结构化数据处理能力,是投资统计系统在大数据处理技术解决的关键问题。采用GFS的分布式文件系统主要对海量大文件而设计,而海量小文件可以用Haystack系统,可以用多个逻辑文件共同使用一个文件,解决小文件存储的问题。
2.3 实时处理技术
解决投资统计大数据处理速度是至关重要,数据处理范围越来越大,数据处理时间就越长,假如数据量处理的范围超过了数据本来的处理能力,缺乏整个系统稳定运行,就会对投资统计系统运行产生不可估量的影响。虽然可以利用云计算系统,能够提供投资统计系统服务,但是对特别联网直报时间高峰期,现在也经常出现堵塞事件,造成企业统计人员无法准时上报数据,也对投资统计系统运行提出更高要求。
大数据产生的过程比较复杂,对有投资统计数据(结构化数据、半结构化数据和非结构化数据)进行基于各种统计算法的计算,必然存在数据的内涵不一致、记录重复、或者感兴趣拟处理的属性指标不完整、或者含有噪声(数据中存在错误和异常值)等各种问题,必须实时进行清洗和预处理,去掉噪声和无关数据,便于后续的分析、分析处理。使用Sector广域网的分布式系统,利用Sphere基本数据处理模型,针对不同的数据,能够统一输入数据流方式,进行实时大规模并行计算,在对数据进行分割,分割后数据转交给SPE(具有处理引擎功能),能够起到负载平衡。
2.4 分析技术
投资大数据分析主要通过分布式数据库或者分布式计算集群,对现有已存储的大量数据库,分步骤能够简单的分类汇总、统计分析等,能够实现普遍常见的分析需求,但是对于一些需要批处理基于半结构化或非结构化数据,利用可视化分析技术、高度集成技术,对图像和投资原始数据及专业的大数据分析工具,进行与部门数据之间统计分析或比对。统计与分析这环节的主要特点涉及的面广、量大,运行系统资源占用也非常高,特别是输入输出资源占用率高。随着大数据的发展,用Bigtable分布式、按列存储、多维表结构的实时分布式数据库,可以对大数据结构化、半结构化和非结构化数据读写操作,使用SQL 语言进行大量数据的统计、查询和分析操作,解决了可视化分析技术的扩展性,能够有效提取重要数据、显示合成图像。用LOD技术采用策略处理大数据量的实时传输与可视化,实现按等级组织分块,平常称为“金字塔”结构。
大数据的分析技术与传统的统计数据汇总分析方法有较大的差别,不能将原来的统计系统数据处理经验简单的移植到大数据的数据处理中去,需要针对不同的大数据对象,部署相应的数据采集环境,建立平值法、平滑法、预测法和频率统计法等统计数据相关模型或算法,对投资统计大数据进行深度和广度的对比分析或核查。
3 结束语
伴随现代信息技术的迅猛发展,传统的投资统计知识、理论、技术、方法等正处于大变革、大跨越、大发展之中,投资统计也面临良好机遇。特别大数据时代的到来,投资统计大数据处理在遥感地理信息系统、全球定位系统等空间信息技术中应用,极大丰富了投资统计的数据来源,使投资统计工作如虎添翼,同时也对投资统计理念、数据来源和数据生产方式提出全新挑战,继续寻求有效的解决办法,更要广泛深入与国际、国内科研机构合作交流,不断创新探索,有助于繁荣投资统计科学,传播先进投资统计理念和方法,提升投资统计能力和水平。
摘要:随着信息化技术的不断发展,大数据处理技术给人们的生活和工作带来了很多改变,要充分发挥大数据处理技术的作用,就要求深入、全面研究大数据处理技术,摸索出大数据处理技术的改进与完善对策。基于此,本文首先分析大数据的特征,然后探讨大数据处理技术的Hadoop架构和Storm架构,并对比分析两种架构的优缺点。
关键词:大数据处理技术 Hadoop架构 Storm架构
大数据时代的超大数据体量以及占据一定比重的半结构化和非结构化数据的存在,就决定了传统数据库管理难以满足需求。大数据技术将会成为IT领域的新一代技术和架构,会帮助人们存储并管理好大数据,从复杂、庞大的数据里筛选出有价值的数据,加之各种技术以及产品的出现,很可能促使IT行业步入新的黄金时代。因此,分析研究大数据处理技术极具现实意义。
1 大数据特征
大数据具有以下四个特征:一是数据量庞大。大数据计算要存储以及处理的数据量是十分庞大的,而且这些数据都处于不断变化、增长以及更新的状态,所以数据量就会越来越庞大。这就要求承担处理数据任务的硬件设备必须具备很大的存储能力和良好的处理技能。二是数据多样化。在大数据时代需要处理的不单单是各种结构化数据,还有图片、文字、声音等非结构化数据,要识别并处理这些非结构化数据要耗费很大力量,而且识别度也需要进一步提升。三是数据快速型。大数据处理技术的目就是要能处理变化迅速的数据,摸索出其变化规律为决策提供辅助作用,确保数据的时效性以及各项决策的有效性。四是数据准确性。在处理数据的过程中必须要控制数据来源,确保数据准确性,而且要结合现实所需不断更新数据处理技术,确保数据处理结果具备准确性和有效性。
2 大数据处理技术
2.1 Hadoop 架构
Hadoop架构的核心构成部分是HDFS,即Hadoop分布式文件系统,全称Hadoop Distributed File Sytstem,以及Map Reduce分布式计算架构。其中HDFS以Master/Slave体系结构为基础,在集群里任命一个主节点担任Name Node,主要负责管理文件系统元数据,其余子节点担任Datanode,主要负责保存具体的数据块[1]。
Hadoop架构的关键点就是借助大量PC构成一个PC群以实现对数据的处理。在处理数据的时候,先分解数据,然后结合分配的相应电脑处理数据,最后整合数据处理结果。通过Hadoop平台实际操作发现,在Hadoop平台运行的时候,系统初始化需要较长的时间,如果是处理更新速度快的数据这是不容忽视的一个问题。并且,在处理某些小数据的时候,系统初始化时间就更久,对数据处理准确性的影响也就更大。所以,系统不适合处理较小数据。基于Hadoop架构对reduce任务进行处理的时候,各种技术问题就更加突出,在利用相应技术把数据转为存储实施处理的时候,不仅数据处理速度慢,还会占用很多的带宽。所以,Hadoop架构在处理变化速度较快的非离线数据时还存在很多问题。
2.2 Storm架构
和Hadoop主从架构相同,Storm架构也是以Master/Slave体系结构为基础,通过Nimbus与Supervisor两种服务进程实现分布式计算机,其中Nimbus进程在集群主节点运行,主要负责分派与分发任务,Supervisor进程在集群从节点运行,主要负责任务的具体执行。Storm架构利用Spout/Bolt编程模型通过流式方式处理消息。消息流是Storm架构里对数据的基本抽象,一个消息流对应一条输入数据封装,不断输进的消息流通过分布式方式得到处理。Spout组件是消息的生产者,在Storm架构里属于数据输入源头,能从多种异构数据源里获得数据,同时发射消息流。Bolt组件主要负责对Spout组件发射的信息流进行接收,同时完成相应的处理逻辑。如果业务逻辑比较复杂,就可串联多个Bolt组件,并且在每个组件里都编写相应的功能,进而呈现出整体的处理逻辑。
2.3 架构对比
就总体结构而言,Hadoop和Storm是相似的,具体构成部分对比如表1所示。
通过对比,Storm架构具有以下优点:在Storm架构实际运行时,系统不用每次都初始化,数据处理效率较高,在处理较小数据时这一优势更加显著;Storm架构的信息处理模式能确保数据的高效处理,更好地满足人们对UI数据的需求;spout组件能读取不同形式数据里的消息流,并把读取的消息流传递给bolt组件进行处理;结合处理业务量的大小以及业务难度的高低,Storm架构能串联多个bolt组件实现消息流的有效处理,进而实现数据处理的高效性与快速性。
3 结语
在互联网发展迅速的今天,新业务对数据处理的要求不断提升,当传统离线处理架构不能满足需求时,就可以使用大数据处理技术架构。但信息社会的最大特点就是瞬息万变,因此,对大数据处理技术我们也要不断变革与创新,使大数据处理技术得到更好地完善,这样才能更好地服务于社会、服务于人们。
摘 要:本文主要针对大数据的概念与特点、交通行业大数据发展现状以及大数据在交通行业发展的浅见进行简要分析。
关键词:智能电网;交通运输;大数据处理技术
一、大数据的概念与特点
顾名思义,大数据即一个体量特别大的数据集,大到无法使用传统的数据处理工具、技术对其进行分析、加工、操作。而大数据技术,就是对大数据的处理技术的集合。可以说,大数据兴起并非科技的突变,而是随着人类社会结构化、半结构化、非结构化数据的急速增长应对而生的技术进步。大数据的特色之一是体量成级数增长。由于互联网技术逐渐渗透人类生活的方方面面、以“物联网”为方向的信息采集技术的逐渐普及以及包括“4G”在内的网络传输技术的迅猛发展,在全社会,包括交通运输行业,人类所拥有的数据量及其增速已经远远超过传统信息技术预设的处理极限。限于科技发展的规律与速度,或者是人类智能体量的局限,信息技术专家们提出以“云计算”概念为核心的的一系列数据分布式处理技术作为阶段性替代方案,以适应现阶段的信息爆炸。
大数据技术与传统信息处理技术有如下不同:使用分布式技术实现海量数据的处理。现代社会,“人类存储信息量的增长速度比世界经济的增长速度快4倍”,“大约每三年就能增长一倍”。为了解决这一问题,分布式技术成为信息处理的必然选择。早期的信息处理技术通过固定的数据存储设备、运算服务器实现信息化;随着数据量以及运算需求的增加,发展出部署集中的集群的信息存储与处理方式,一定程度上扩展了使用范围;当数据量进一步增长,受益于网络通信技术的升级换代和互联网的飞速发展,“云计算”技术相应而生,通过将分散于各地的存储、处理设备,实现可与巨型计算机媲美的海量数据处理能力。
大数据技术善于由结果推断模型。不同于传统的智能化技术,需要完善地建立数据模型,通过条件,推导结果。大数据技术着眼结果于海量数据,通过大量的事实总结规律,形成知识。传统的建模实现智能化技术,一旦结果出现异常,就需要反溯,修订模型,重新进行实践。而大数据技术,则只通过对相关性的结果进行比较,便能总结归纳相关原理。大数据技术着眼于动态,而不是静态。传统信息处理技术着眼于当前数据的使用,业务办理、行业监控,数据一旦使用,则降低或失去其实用价值,历史数据需要人工的比对、判断。大数据技术着眼于一段时间或全部时间上的动态发展数据,着眼于动态数据之间的联系与发展规律,大数据技术长于整体的运算效率,而非个体的精确追踪。由于数据处理能力的有限性,传统的信息化技术对于有限的样本进行分析与统计,更关注于奇异数值并加以分析,着力于对个体样本的精确追踪。而当大数据处理成为可能,数据的总体成为一个独立样本,一些奇异值由于发生概率太小,完全可以忽略,数据整体的运算效率成为重要指标。
如同哲学上的量变引起质变,大数据技术正是随着信息化数据的不断增长而产生并从根本上改变人对于数据存储、应用的理解与认识。同时随着数年的演进,大数据技术也正在逐步走向成熟。
2012年7月,美国知名IT咨询顾问公司Gartner《2012年大数据技术成熟度曲线》,对大数据涉及的46种技术进行逐一分析。根据当时报告内容,对比当前发展现状,我们可以看到大数据技术的成熟度已经达到一定的高度。2012年报告中提到的,将在2年内实现主流应用的列式存储数据库、预测分析、社交媒体监测等技术,已经成为近些年IT行业普遍实用的技术;报告中预测的2~5年内成为主流的云计算、内存数据库、社交分析、文本分析等技术,当前在google、百度、facebook、阿里巴巴、新浪微博等处于IT技术前沿的互联网公司,已经分别得到广泛应用;而报高中认为5~10年才会得到普及的内容分析、混合云计算、社交网络分析、地理信息系统等技术,以及认为10年以上才会普遍应用的物联网技术也已经在不同程度上得到应用和推广。
二、交通行业大数据发展现状
交通行业是天然的大数据应用行业。传统的静态数据并非大数据,如路网的基础信息,户、车、人基本信息,这些数据随着产业增长而逐步增长,一直在传统信息处理技术预设的限度之内。但随着互联网与产业结合的不断升级、物联网―――车联网的快速兴起,3G、4G无线网络的普及,行业数据量已经开始成级数增长。目前交通运输行业大数据来源主要在3个方面:
基于互联网的公众出行服务数据,如大运输联网、网上售票、城市公交刷卡、公众在线交通路线查询、网购物流数据等。
如某公交一卡通截至2013年已经发卡超过3200万张,日刷卡量超过1000万人次;百度地图手机应用日访问量1亿次,PC上的搜索量50亿次中20%访问和出行相关,每天约有1000万人使用百度,其中70%和公交相关。
基于行业运营企业生产监管数据,如货运源头称重数据,货运、危险品运输电子运单数据,客运进出站报班及例检数据,营运车辆维修检测数据,邮政包裹数据等。
如国家邮政局的数据显示,2013年中国快递业务量完成92亿件,居世界第二,仅次于美国。业务量同比增长60%,最高日处理量已突破6500万件。
基于物联网、车联网的终端设备传感器采集数据,包括车辆相关动态数据:GPS位置信息、车辆能耗、车辆技术状况信息,路网监控信息:卡口视频监测、基于传感器的路况监测、路上动态称重设备、桥梁监测GPS等。
车辆位置信息采集仅举一市为例,2013年10月,杭州市符合交通运输部“两客一危”定义且经营范围、营运状态、营运证有效期等状态正常的车辆上线数为6329辆。车辆位置信息假设每5s传输一次,则每日位置信息接近1.1亿条。北京市6.67万辆的出租车GPS数据实时接入,日均数据量可以达到6G。
车流量监控数据,笔者曾参与河南省新乡市动态称重系统建设项目,仅一个信息采集点,2013年11月平均每天采集14000辆车左右,包括结构化数据与照片信息,每天产生的数据量是1791MB。
三、大数据实时处理技术
随着大数据时代的来临,各种应对大数据处理的解决方案应时代而生,7 年前,雅虎创建了一个用于管理、存储和分析大量数据的分布式计算平台 Hadoop,它作为一个批处理系统具有吞吐量大、自动容错等优点,目前在海量数据处理方面已得到了广泛应用。但是,Hadoop 本身存在的缺点是不能有效适应实时数据处理需求,为了克服该局限,一些实时处理平台如 S4, Storm 等随之产生了,他们在处理不间断的流式数据方面有较大的优势,下面将介绍和分析目前比较流行的大数据处理平台。
1、Hadoop
Hadoop 是一个由 Apache 基金会开发的分布式系统基础架构 [10] ,允许用户在不了解分布式底层细节的情况下,开发分布式应用程序。Hadoop 主要由分布式文件系统(Hadoop Distributed File System,HDFS)和 MapReduce 计算框架两部分组成。
HDFS 结构如图 1 所示,三类节点 Namenode,Datanode,Client 之间的通信都是建立在 TCP/IP 的基础之上的。Client 执行读或写操作时首先在本机临时文件夹中缓存数据,当缓冲数据块达到设定的Block 值(默认 64M) ,Client 通知 Namenode,Namenode 响应 Client 的 RPC 请求,将新文件名插入到分布式文件系统结构层次中,并在 Datanode 中找到存放该数据的 Block,同时将该 Datanode 及对应的数据块信息告诉 Client,Client 便将数据块写入指定的数据节点。HDFS 有着高容错性的特点,可以部署在低廉的(low-cost)硬件上,并且能提供高传输率(high throughput)来访问应用程序的数据。
图 1 HDFS 结构图
MapReduce 是一种并行处理模型,主要有两个处理步骤:map 和 reduce 。
Map 端处理流程如下:计算框架先将要处理的数据进行分片,方便 map 任务处理。分片完毕后,多台机器就可以同时进行 map 工作。map 对每条记录的处理结果以的形式输出中间结果,map 输出的结果会暂且放在一个环形内存缓冲区中,当该缓冲区快要溢出时,会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。写入磁盘之前,线程根据 reduce 任务个数生成相同数量的分区。当 map 任务输出记录时,会产生溢出文件,这时需将这些文件合并。文件不断排序归并后,最后生成一个已分区且有序的数据文件。最后将相应分区中的数据拷贝给相应的 reduce 任务。
Reduce 端处理流程如下:Reduce 会接收到不同 map 任务传来的数据,如果 reduce 端接受的数据量相当小,则直接存储在内存中,如果数据量超过了该缓冲区大小的一定比例,则对数据合并后溢写到磁盘中。随着溢写文件的增多,后台线程会将它们合并成一个更大的有序的文件,然后交给 reduce 函数处理,reduce 函数安装用户定义的业务逻辑对数据进行处理并输出结果。
Hadoop 在本质上是一个批处理系统。数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。最后将处理结果汇总,生成的结果文件存放在 HDFS 上。
2、Storm
Storm 是 Twitter 开源的分布式实时计算系统 [8] ,Storm 具有高容错性,水平扩展性好,快速,可靠处理消息的优点。Storm 的核心概念是“流(stream)”,流是一个无限的元组序列。Strom 为流转换提供两个基本组件:“Spouts”和“Bolts”。Spout 是一个输入流组件,Spout 将数据传递给另一个组件(Bolt) 。Bolt 执行任务并创建新的流作为下一个 Bolt 的输入流。 整个过程就是一个 “topology”。
Strom 集群有主要有两类节点:主节点和工作节点。主节点上运行一个叫做“Nimbus”的守护进程,它负责在集群分发代码、 分配任务和故障监测。 而每个工作节点运行一个叫做“Supervisor”的守护进程。Supervisor 监听分配给它任务的机器,根据 Nimbus 的委派在必要时启动和关闭工作进程,每个工作进程执行 topology 的一个子集,一个 topology 由很多运行在机器上的工作进程组成。
Nimbus 和 Supervisors 之间所有的协调工作是通过一个 Zookeeper 集群,Nimbus 的守护进程和Supervisors 守护进程的状态维持在 Zookeeper 中或保存在本地磁盘上。这意味着 Nimbus 或 Supervisors进程杀掉,而不需要做备份,这种设计结构使得 Storm 集群具有很高的稳定性。
3、S4
S4(Simple Scalable Streaming System)是 Yahoo 的一个开源流计算平台,它是一个通用的、分布式的、可扩展性良好、具有分区容错能力、支持插件的分布式流计算平台。S4 将流的处理分为多个流事件 Process Element(PE) ,每个 PE 唯一处理一种流事件。S4 将用户定制的 PE 放在名为 Processing Element Container(PEC)的容器中。PEC 加上通信处理模块就形成了逻辑主机 Processing Node(PN) 。PN 负责监听事件,PEC 接收源 event,event 经一系列 PE 处理后,在通信层 Communication Layer的协助下分发事件或输出事件处理结果。在分发事件的过程中,S4 会通过 hash 函数,将事件路由到目标 PN 上,这个 hash 函数作用于事件的所有已知属性值上。通信层有“集群管理”,“故障恢复到备用节点”,“逻辑节点到物理节点映射”的作用。同时通信层还使用一个插件式的架构来选择网络协议,使用 zookeeper 在 S4 集群节点之间做一致性协作。
四、大数据在交通行业拓展的困境
1、行业信息化整体水平较低、数据的采集与整合困难
目前交通运输行业信息化、智能化发展非常不均衡,广大西部地区缺少信息化基础,信息系统应用效果差,数据采集困难。信息化建设较早的省份,由于信息化建设缺乏统一规划与顶层设计,系统建设、使用单位均不相同,交通运输主管机构与各二级单位、信息化主管部门与业务部门分头建设业务系统,系统技术架构差距大,基层单位上级机构多头管理,造成数据来源不统一,信息孤岛现象严重。各省信息化建设与应用水平的差距同样造成部级数据整合困难,无法发挥实际的应用价值。
2、缺乏工作规范与要求,数据应用机制困难
交通运输管理机构人员信息化水平差距较大,系统用户缺乏应有的信息化思想,传统的办公方式与习惯难以改变。政府管理机构没有针对信息化应用与数据的采集应用形成上下联动,奖惩结合的管理机制。信息化应用游离于业务办理之外,信息管理部门与业务部门各管一摊,无法真正将实际业务实现在线办理,真正提高办公效率创造信息价值。行业主管部门缺乏对行业企业生产监管数据进行采集的法律法规,也没有面向企业提供数据服务,既没有通过信息化手段对行业生产状况进行全面掌握,也无法通过信息服务促进产业升级和变革。
3、行业从业人员信息化意识不强,大数据应用思路缺乏
交通运输行业主管部门领导对数据指标价值与数据应用方式缺乏认识,一些信息化规划、项目规划不接地气,系统重建设轻实用,实际应用价值不高,数据采集需求无法得到贯彻。如交通运输部部省联网项目,采集了全国绝大多数省份的户车人基础数据,但是既没有制定政策法规,保证数据的更新与同步,也没有进行数据指标的价值分析,实现真正有价值的应用,造成后期维护困难,数据逐渐陈旧,实用价值迅速流失。此外,全国各省、各地交通运输行业信息化发展不均衡,部分地区信息化基础设施较为落后,整体信息化水平有待加强。
五、大数据在交通行业发展的浅见
1、积极立法,确立数据采集与应用的重要性
通过研究并制定政策法规,面向部、省、市、县各级交通主管部门及相关企业,将数据采集、整合的责任与义务进行明确规定,明确哪些信息化工作该哪级机构做,该哪些部门做,同时明确科技信息化主管部门在信息化建设中的地位并给予相应的监察、评定的权利,对行业企业明确信息化建设与数据采集方面的社会责任。另外,对交通运输行业数据进行全面的梳理,数据保密性与应用价值进行分级,对数据的采集与应用进行立法,明确不同级别的管理机构可以对哪些数据自行进行分析和利用,那些数据可以开放给社会或企业使用,真正实现大数据的应用价值。
2、加快体制改革,设立数据采集与信息化和单位考评相结合的制度
结合国家行政体制改革,进一步改变交通运输行业信息化项目建设传统的上级规划、立项、投资、监管、评审一体化管理模式,实现规划与立项、资金使用与审计、项目监管与后评审的权责分离,让信息化项目建设实际落地,上级单位更注重资金使用的控制与系统应用效果的后评审。尽快制定政策,将指定数据指标的采集和上报纳入行业管理规定;通过体制改革,设立数据上报与信息化应用水平考核制度并实现常态化,同时实现数据上报制度与行业统计工作的全面结合,改变传统的统计人工上报模式,用信息化数据支撑行业统计。考核制度包括3个层面:管理机构对企业考核;单位领导、信息化主管部门对业务部门的考核;上级主管部门对下级单位的考核。
3、加快信息化发展步伐,通过示范指导,引导大数据技术的引入与发展
在交通运输行业信息化规划与设计中,广泛引入云计算等大数据处理技术,选择试点单位,建设应用示范项目,总结大数据在交通运输行业的应用方式方法与使用价值,对具有适用性的项目进行全国推广,引导大数据技术的不断发展。
结束语
大数据时代随着全国交通运输行业各机构、各部门、各企业数据量的迅速增长,以及IT企业交通运输相关数据的迅速增长,逐渐在我们面前显现,发展大数据技术,积极应对、抓住下一次信息化变革、产业浪潮的机遇,是实现交通运输行业产业变革、结构优化、服务社会与公众能力进一步提升的关键。
【摘要】 随着互联网、移动互联网和物联网的发展,我们已经迎来了数据大爆炸的时代,数据的快速增长带来了数据存储、处理、分析的巨大压力,而大数据技术(Big data)的引入,不但满足了系统功能和性能的要求,带来良好的可扩展性,降低了IT部署的成本,还拓展了数据智能分析的应用领域。同时,大数据分析与云计算的发展密切相关,云计算是大数据处理的基础,而大数据技术是云计算的延伸,云计算的分布式存储和计算架构为大数据的快速处理和智能分析提供了一种合适的解决方案。本文将探讨建立在云计算基础上的大数据处理技术,包括分布式计算框架、分布式文件系统、大数据管理技术、实时流数据处理、机器学习以及可视化技术等。
【关键词】 云计算 大数据 MapReduce Hadoop
一、大数据
1.1什么是大数据
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务, 实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、Map Reduce编程模型,以及Hadoop Common。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。 Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
Pregel是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1 非关系型数据库
NoSQL,也有人理解为Not Only SQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2 数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
Google Dremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
流计算的数据本身就是数据流,不需要数据准备的时间,有数据流入就开始计算,解决了数据准备和延迟的两个问题。现有的解决方案中,Twitter的Storm和雅虎的S4框架更适合数据流计算的场景。Storm是开源的分布式实时计算系统,可以可靠的处理流式数据并进行实时计算,单机性能可达到百万记录每秒,开发语言为Clojure和Java,并具备容错特性。S4是面向流式数据和实时处理的,所以针对实时性较高的业务,可以很好地对数据做出高效的分析处理,而且系统一旦上线,很少需要人工干预,源源不断的数据流会被自动路由并分析。对于海量数据,它和MapReduce都可以应对,但它能比后者更快地处理数据。
三、思考与展望
以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对媒体融合具有重要意义。
新闻媒体的数据库中拥有海量信息存储,这些多媒体数据包括文字,图片,视频和音频等多种格式,符合大数据处理的基本特征,利用大数据技术对这些资源进行存储,计算和分析,了解用户行为,挖掘数据本质和关联,为领导提供决策支持,为终端用户提供更好的服务和新闻定制,增强新闻信息产品的质量和影响力。
如今,在开源社区,围绕Google MapReduce框架,已经成长出了一批优秀的开源项目。这些项目在技术和实现上相互支持和依托,逐渐形成了一个特有的“大数据”生态系统。系统为我们实现优质廉价的大数据分析和管理提供了坚实的技术基础。
新闻媒体可以顺应大数据的技术趋势,加强技术调研,早日选型,搭建大数据处理平台,利用云计算项目资源,将海量数据统筹管理,通过分析和挖掘,实现新闻产品的创新和跨越式发展,以现代化的传播手段向世界展示中国。
摘 要 随着我国社会经济的快速发展,电力事业得到了长足的发展,特别是科技的进步,使得智能电网取得了一定程度的发展。智能电网的建立,有利于将电力系统发电、输电、配电、用电实现全系统管理,随着越来越多的新型技术应用到电力网络中,特别是云计算平台的应用,大量的异构数据积累,大数据处理技术的研究也应运而生。在新的时期,智能电网大数据处理面临着新的机遇与挑战,文章就分析智能电网大数据处理技术应用现状,并探讨在新时期大数据处理技术面临的机遇与挑战。
关键词 智能电网;大数据处理技术;应用现状;困境
在智能电网系统中,系统运行的各个环节都会产生大量的数据,如智能电表安装、电力运行等环节。电力企业在一定时间间隔内对用电客户的用电数据信息进行收集,从而构成电网客户端大数据,根据对这些数据的分析更好的了解用电用户的实际情况,以便科学合理的设置大数据处理系统。
1 智能电网大数据概述
1.1 智能电网系统中的大数据
电网系统中的数据可以分为三种类型,包括电网运行中设备监测数据、电网运营数据以及电网管理数据。
根据电网数据内在结构,可以将其分为结构数据以及非结构数据。其中结构数据包括关系库中储存的数据,随着我国科技的进步,结构数据不断的增长。跟结构数据不同的是,非结构数据不方便用二维逻辑表现,主要包括图形处理数据以及视频监控产生的数据。由于智能化的发展,非结构数据每年以60%的指数上涨,逐渐成为智能电网中重要的组成部分。
与传统电网不同的是,智能电网具有很强的智能化,这就需要能够对电网运行实时数据及时的获取,目前智能电网大数据表现在以下几个方面。
1)为了能够实现对电网运行中实时数据的获取,就必须设置越来越多的采集点,监测设备应用也越来越多,每一秒都会产生大量的数据。
2)设备对电网运行信息采样的频率越来越快。
3)为了掌握电网运行的细节,就需要对电网运行中相关信息的实时变样采集。
1.2 智能电网大数据特点
智能电网中大数据具有以下几个方面的特点。
1)智能电网数据量大。随着智能化的发展,电网数据从TB级逐渐上升至PB级。
2)智能电网数据类型种类繁多。社会对电力需求量越来越多,为了能够满足电量数据要求,电网数据的种类也越来越繁杂,包括文本数据、媒体数据等结构数据,还包括非结构数据,在数据的应用以及处理上也不尽相同。
3)智能电网大数据利用价值密度较低。就以电网监控视频为例,在实时监控的过程中,有用的数据占总数据的比例很少,绝大多数的数据都属于正常数据,而少数的异常数据正是有用的数据,也才是对电网运行检修提供有力依据的数据。
4)数据处理速度快,智能电网大数据处理速度可以用微秒计算,能够在极短时间内分析数据,为电网运行决策的制定提供依据。
2 智能电网大数据处理技术应用面临的挑战
2.1 智能电网大数据传输、存储技术
智能化的发展,电力系统运行过程中各项数据、以及电力设备监测数据被全部记录下来,数据量越来越多,这给电网运行监控设备以及数据的传输、存储系统造成巨大的负担,并对电网智能化发展造成很大的影响。
对于智能电网大数据的传输,采用数据压缩的方式能够提高数据传输的效率,降低数据传输量。所以越来越多的网络数据压缩技术被应用到智能电网数据传输中,通过数据压缩能降低数据储存的空间,但在压缩以及解压过程中也会对系统中心带来一定的资源浪费,需要更为合理的平台支持。
对于智能电网大数据存储方面,采用分布式文件保存的方式能够实现对大量数据的存储,但对电力系统实时性数据处理方面还有一定的局限性。所以需要对系统中大数据性能进行分析并实行分类存储。
智能电网中非结构化数据占据很大的比重,在存储方面需要将这些海量的非结构化数据转换为结构化数据,这正是目前智能大数据处理技术面临的困境。
2.2 大数据实时处理技术
对于智能电网来说,大数据的处理速度至关重要,数据的规模越大,数据处理的时间就越久,如果数据量的规模超过了处理技术承受的能力,难免对电网正常运行造成影响,这就需要确保数据传输、分析、处理的速度。云计算系统能够为智能电网提供快速的服务,但也会造成网络堵塞现象的发生,虽然堵塞的时间较短,也会对电网服务器造成障碍。
2.3 智能化大数据可视化分析技术
智能电网运行中会产生海量的数据,将这些数据及时分析处理,并在有限的屏幕中将其展示给电力用户,这也是目前智能电网运行大数据处理面临重要的挑战。可视化分析技术能够有效的处理大数据,并逐渐应用到实际电网运行中。可视化分析技术,利用高度集成技术、高分辨率图像,以及交互工具,为电力用户提供明朗的数据处理结果。
随着科技水平的提升,可视化分析技术也面临着挑战,包括该技术的扩展性,以及重要数据的提取、显示以及图像合成方面的挑战。
另外,还需要保证智能电网数据网络的质量,对其进行定期检修与维护,如果在数据网络运行中出现故障,需要根据故障的现象,结合网络诊断技术,找出故障发生的原因,从根源上排除故障,使数据网络恢复正常。进行网络故障诊断,不仅需要及时的恢复发生故障的网络,不断的改善调度数据网络的性能,还需要掌握数据网络的运行状态,确保数据网络的通信质量。
3 总结
我国智能化技术在电网系统中应用越来越广泛,大数据处理技术成为了维护智能电网安全运行的主要手段。云计算为智能化数据处理、存储提供有效的平台,也能够保证智能电网大数据能够得到及时的分析与处理,为电网安全运行提供保障。但是随着电网智能化程度逐渐深入,大数据处理技术在实时性、隐私性、一致性等方面也遇到了很大的挑战,必须找出有效的解决方法,这就需要有关人员加大科研力度,不断的探索,相信我国智能电网系统运行会越来越稳定,必将推动我国电力事业的健康发展。
摘 要
随着云计算技术的不断完善,为了促进大数据处理系统的功能多样化,云计算技术在大数据处理系统上得到了广泛的应用。本文重点研究了在多元因素的影响下的数据模型对大数据处理的影响,并据此提出了一种基于融合思想,采用了混合架构以及分散处理的云计算环境下的大数据处理系统的整体部署策略。
【关键词】云计算 大数据处理 融合处理
1 引言
随着网络技术的发展,以及智能设备的普及,当前的数据增长速度已经呈现爆炸式增长,大数据时代已经来临。目前专家对大数据处理系统方面的研究主要是基于云环境下的分布式部署以及网络架构的融合和动态实时数据处理这三个方面。同时也取得了一定的研究成果,对于当前的云计算环境下的大数据处理系统的发展提供了很多理论和实践基础。
2 基于融合思想的大数据处理方案分析
云计算技术模式下,人机交互和数据处理以及网络逻辑处理技术等都相对交融,处于深度融合状态。因此基于融合思想的大数据处理方案就是以融合思想为核心,将云计算技术模式下的各种分散的网络资源进行协同组织,然后再进行融合,从而充分发挥分散状态下的资源优势,形成一种整体性的比较优势,因此这种融合式的大数据处理方案的应用前景十分广阔。
在云计算技术模式下,大数据处理研究更多的着力点放在了大数据处理系统的构建、分散资源的协同以及相关的辅助技术等。从宏观角度来看,可以氛围内混合处理和混合管理两个方面。其中混合管理的核心就是研究各种无线以及有线的处理机制和数据共享、资源共享机制的管理,同时还包括了分散数据管理机制和协同机制管理等。而混合处理的研究核心则是着力于系统运行模型和相关辅助技术上。
3 大数据处理系统的应用和处理系统分析
3.1 大数据处理系统的应用
大数据处理系统的应用主要包括三个方面:
(1)基于融合式架构的应用。这实际上就是一种客户机/服务器架构模式,其中服务器主要负责应用系统的管理和控制以及相关应用的逻辑处理和数据调度等。而客户端则是专门进行人机交互,当用户想要执行数据处理分析人物时,通过客户机向服务器发送请求,然后有服务器完成并返回给客户端。这个融合式架构相对简单,且容易维护,但是服务器功能有着极高的依赖,这也往往成为数据处理系统应用的瓶颈。
(2)分散式架构。这种架构的特点就是协同控制的节点都是平等地位,并且和处理系统有关的控制和管理模块都是分散在各个客户端上。客户端拥有一定的自治属性,因此具有通用性和灵活性和可扩展性等诸多优势。但是由于数据采用分布存储和分布操作,这样在维护方面就变得较为困难,而且节点之间的实时同步和用户动态注册的应用也难以实现。
(3)混合式结构。这种结构拥有前两两种结构有点,通过服务器实现数据信息的统一维护,而客户端一方面实现信息传输功能,同时也能够和用户在某些应用方面进行充分的交互,因此能够有效减轻服务器端的压力,这样也能够消除服务器端的瓶颈。提升系统的鲁棒性和灵活性。
3.2 云计算技术下的大数据处理系统具体分析
3.2.1 系统架构
云计算技术环境下的大数据处理平台的节点主要体现下面几个特点:其一是节点分散性;其二是数据处理动态性;其三是数据来源混构性。
这个处理平台架构采用了融合式的调度执行层和任务融合调度管理,并根据处理规则和不同的参数来调整处理引擎的数据和算法组合以及计算资源。对大数据资源的数据交互和任务分工工作进行了有效融合。同时在管理层,也对业务数据进行分布式存储,提升了容错处理能力。
3.2.2 系统处理流程
系统处理流程主要是对分散状态数据进行处理,其关键就是对分散的数据进行提取,因此首先给其他应用提供数据接口。然后数据管理部分要融合数据资源,并在一定容忍度的基础下,对不同的数据处理机制进行比较,进而优势融合。最后数据处理中心则是对数据进行集中处理,然后统一分配数据资源,从而在数据中心实现数据处理的融合。
3.2.3 处理系统的部署
某信息产业园的大数据处理系统的部署是根据信息企业集群的需求,然后对现有分散数据资源进行挖掘,比如企业内部的ERP和SCM系统中的数据,通过对这些数据进行深度挖掘从而为该企业提供战略发展资源。图1就显示了这个部署图。
从部署图可以看出,在这家企业中,ERP和SCM和CRM是其数据源,然后经过服务器处理之后,分布到n个数据库,然后进行合并进入到大数据管理模块,最终能够实现数据查询和数据决策服务。
4 结语
总而言之,目前采用融合式思想,在云计算技术条件下,对大数据处理系统进行部署的研究相对较少,特别是当前的信息产业,由于其自身的解决方案并不能够实现大数据条件的比较优势,所以本文提出的融合式的大数据处理技术,有效的提升了数据利用深度,拓展了大数据处理系统的应用范围。