时间:2022-05-21 11:09:17
绪论:在寻找写作灵感吗?爱发表网为您精选了1篇统计学数据分析论文,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
摘 要:随着信息化时代的发展,数据的形式多样化,数据结构具有复杂性特征。这标志着大数据时代的到来,这一时代的数据具有处理速度快、数据量大、样本复杂但价值密度低的特点。大数据时代的到来,高校应对其产生新的认识,并根据实际状况及时调整统计学专业的建设策略,使统计人才的培养能够适应时代的需求。
关键词:大数据时代;统计学;影响
随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。
一、大数据时代对统计学的影响
大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。
(一)大数据时代使数据结构和数据性质发生变化
网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。
(二)大数据时代要求统计分析方法和统计思维更新
大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。
二、大数据时代下的统计学发展新策略
为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。
(一)加强统计应用性教学
根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。
(二)培养大数据统计思维
在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。
(三)强化基础性统计知识
统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。
(四)加强复合型人才培养
为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。
三、总结
统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)
【摘要】大数据给统计学带来了机遇、挑战和紧迫感。本文描述大数据的环境,利用大数据的目的和大数据带来的变革;介绍国内外有关大数据的研究动向;探讨大数据包含的信息,大数据的预处理、抽样和分析方法。
【关键词】大数据 抽样 数据分析方法论
当今时代,一方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破。
一、大数据及其目的
狭义地讲,大数据是一个大样本和高维变量的数据集合。针对样本大的问题,统计学可以采用抽样减少样本量,达到需要的精度。目前大数据的环境包括了:数据流环境:数据快速不断涌来,现有存储设备和计算能力难以应付这种洪水般的数据流;磁盘存储环境:数据已不能完全存储在内存中,需要硬盘存储;分布存储环境:数据分布存储在多个计算机中;多线条环境:数据存储在一个计算机中,多个处理器共享内存。
大数据的目的是将数据转化为知识,探索数据的产生机制,进行预测和制定政策。把信息转变为有用的知识还需漫长的时间。“预测”不同于“制定政策”。一个儿童的鞋子越大,可以预测他掌握的词汇量越多;但是,制定政策强制他穿大鞋子并不能提高他的词汇量。
二、大数据带来的变革
大数据给我们的时代带来了变革。目前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”。就像我们出远门前常常查询目的地的天气、交通和宾馆那样,未来人们在研究和决策前将会通过查询数据做决定。目前已经有科学家开始使用软件搜索和汇总已中的成果。大数据中包含有各种不同目的的数据集,综合利用它们可以做出原来目的之外的意外成果。例如,将医院病历数据与信用卡消费数据结合,我们能发现食品与健康的相关关系,指导人们进行健康饮食。假若再加上手机和GPS等数据,还能随时对人们进行体检,指导健身,减少猝死,帮助医生诊断疾病等,应用大数据可以设想的用途不计其数。
三、大数据的处理、抽样与分析
(一)数据的预处理
大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。
(二)大数据环境的抽样
大数据的抽样方法有待研究。“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据已获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的热门数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。
(三)大数据的分析与整合
针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。研究多个数据资源的融合算法。研究利用数据流寻找模型变化时间点的动态变化模型。
在大数据环境,很多数据集不再有标识个体的关键字,传统的关系数据库连接方法不再适用,需要探讨利用数据库之间的重叠项目来结合不同的数据库,利用变量间的条件独立性整合多个不同变量集的数据为一个完整变量集的大数据库的方法。探索不必经过整合多数据库,直接利用局部数据进行推断和各推断结果传播的方法。另一方面,利用统计性质无信息损失地分解和压缩大数据。
四、结束语
一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。现今统计学的目标是通过获取数据和分析数据发现真理(总体的参数和性质),统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。我们在看到大数据给统计学带来了机遇的同时,也应该看到现在的统计方法普遍只适用于全部数据放在单个计算机内存的环境,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的应用领域,创造出迎合大数据的新统计方法,“机遇”与“挑战”并存。
[摘 要]以股票当中基本的股票价格计算数据着手,重点研究统计学在股票价格计算数据整理运算进程中有关的运用。全面地说明了如何计算股票价格的三种平均数和计算的公式;股票价格统计数据整理运算进程当中的取样研究以及股票价格统计数据的四个计算方法;依次列出在各个国家之间具有比较高影响力的几个股票价格统计数据在运算进程中统计学的有关运用。
[关键词]统计学;股票的价格;股票的价格统计数据
随着社会进步,股票已深入人们的生活当中,只有正确地对待股票与统计学之间的联系,这样能更全面利用统计学知识掌握股票交易市场的变动规律,从而促进个人与团体的利益一致性。
在平时常见的文章中我们能经常碰到的是统计学的取样数据分析、回归分析、标准差等在股票技术分析、投资收益、风险预测中的常见实际运用,在其实际运用中股票价格统计数据也是统计学里的一个,统计学在实际运用中有着广泛的作用,本篇文章是从股票中最基本的股票价格统计数据开始,侧重以统计学在股票价格统计数据整理运算过程中的实际运用进行分析、谈论。
1 统计学在股票中的定义
统计学通过收集相关的资料,剖析资料和数据得到的结果的一组概论,准则与办法。统计分析数据有描写和推测统计两种方法。
(1)看大盘:汇集股票的相关材料,即调查统计。从头到尾,即全方位的去调查;有重点的看,即重点的调查;随机的查看,即采样调查;查找各种各样的有象征性的个人股票,也是典型的调查。
(2)股票板块:以某一标志将股票进行分类,也就是分组统计。例如钢铁板块等。
(3)阴阳烛:交易成功量与交易成功价格的高低决定其趋势,即是频数分布。
(4)牛市:股价呈飙升趋势,即是正J型分布。
(5)熊市:股票呈下跌趋势,即反J型分布。
(6)摸高,回落:股票飙升,至某一点时受到阻力后呈下跌趋势,即是偏态分布。
(7)探底,反弹:股票价格下跌,到某一地方撑持后上升,也就U型的分布。
(8)股票指数:加权平均数的运算,是质量指标指数。股票的价格是质量指标,成交的数量或发行量是数量指标。
(9)黑股:存在感过低,易失诸交臂。
(10)均线:股价算术的平均数。一般为加权平均。
(11)震荡空间:股票价格的波动曲线的均值偏差,也就是标准偏差。
2 股票的价格统计数据
2.1 股票的价格均值
股票价格的均数是反馈不同股票价格上下浮动的基准。股票价格均数是由证券交易场所、金融类服务公司、银行或新闻媒体整理而成的。为了能时刻了解各种股票而联合形成的行情市场整体的价格水平和完整市场总和的变化方向。
2.2 简易的算术股票价钱均值
1981年6月,查尔斯・亨利・道在《客户午后通讯》首次了一组之后被称作“道・琼斯工业股的股票价格平均数值”,也是全球上最早股票价格平均数值。
2.3 加权指数
加权指数是依据各种样本股票的销售数量或者是交易成交的数量依照权术来进行加权指数运算的股票交易价格的均值。因此销售的数量是权数的加权均值的股票交易价格,即是抽样股票的市场价值总和除以抽样股票的销售数量;以成交数量作为权数的加权均值股票价格,就相当于是抽样股票的全部金额除以抽样股票的成交数量。
2.4 修正股票交易价格的均值
修正股票交易价格均值是通过简便的数字运算的基本上,如果有分割股票、增加投资、发行新股的时候,经过改动除数,让股票的交易价格的均值没有任何影响。做法是以新的股票交易价格的全部金额除以旧的股票交易价格的平均数值,因此得出新的除数,然后再以运算期的股票交易价格总金额去除以新的除数,就可以得出修正的股票交易价格的平均数值。
2.5 股票价格的波动情形
股票的价格指标是本期股票的交易价格和某个前期之间相对比的相对数变化,是因为证券交易的场所或者是金融中介机构经过对股票交易场所里有一些具有象征性的企业所发出的股票交易价格,进行平均运算和发展变化情况相比后整理出一个可以提供了解股票出价、发价或者是价格的指示数字。整理过程包括五个方面:①挑选一些具有象征性的股票,当作整理过程中指示数字的样品股票。②按照规定的时间去股票交易场所上去收集样品股票的交易价格,俗称采样。③选择一个基础期,基础期的股价交易价格水准是100或者是1000。④要运用科学的方法以及高科技的手段运算出股票的指数数值。⑤要对外公布。
3 股票交易价格的运算
3.1 算术平均数
简易的算术平均数是在运算出抽样股票单个价格指数的基本上,加上总和算出平均值的一种运算方式。现在运用这个方法计算的有算术平均股价指数、英国的《金融时报》精算股价指数等。
3.2 综合平均法
综合平均法是各自把前期和本期的股票交易价格实行求和,之后把本期的股票交易价格和前期的股票交易价格的总金额相对比,从而得出股票交易价格指标的一个运算方式。现在运用这个办法的有美国的纽约证券所整理的股票交易价格指标,等等。
3.3 几何平均法
几何平均法是各自把本期和前期的股票交易价格互相乘后开方,之后再用本期和前期的相比较从而得出指标的一个运算方法。
4 综合加权法
(1)以样品股票前期的成交量或者是销售量为权数。现在应用这个方法运算有上海综合股票交易价格指数等。
(2)以样品股票本期的成交量为权数。现在应用这个方法运算的有我国沪深300指数等。
(3)以样品本期销售量为权数。现在应用这个方法运算的有标准普尔股票交易价格指数、深圳综合指数等。
(4)加权几何平均法。在股票交易价格指标的运算当中,大家为了能够知道交易在本期与前期中区别,提议出了加权几何平均法。现在使用这个方法运算的仅有英国伦敦《金融日报》工业普通的股票指数和美国价值线工业指数。
5 结 论
成功创立一种模型可以取得金融领域的顶尖荣誉,表现出了金融与数学的统计是有着不可分割联系。统计学和其他有关的学术在证券交易场所起着非常重要的作用,人们在以前运用简易的计算和算术方式已然无法去满足逐渐困难的金融领域的进展。近这几年,许多学院也都创立了金融系和管理系;北方工业学院的统计学学科创立了许多证券期货的模拟工作间;设立有关学科的就特别多了。
摘要:大数据时代的到来,给与之密切相关的统计学专业带来了前所未有的机遇与挑战。本文针对统计学专业的自身特点,分析了专业中存在的问题,并从人才培养目标的定位,课程的调整与设置,教学手段创新和完善教学评估体系等几个方面提出了一些合理化的建议。
关键词:大数据;统计学;教学改革
一、引言
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据具有以下的鲜明特点:第一个特征是数据量大。第二个特征是数据类型繁多,多类型的数据对数据的处理能力提出了更高的要求。第三个特征是数据价值密度相对较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第四个特征是处理速度快,时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。
统计学专业是与数据分析处理联系最为紧密的学科之一。大数据时代的到来不仅为统计学专业的发展带来的前所未有的机遇,同时也带来了巨大挑战。传统的统计学专业已不再适应大数据时代的信息爆发式增长的要求,这就要求我们应该对统计学专业进行重新定位,并在此基础上调整相关课程,改革传统的教学手段以及完善教学评价体系,以适应大数据时代的到来。
二、统计学专业改革的建议
(一)人才培养目标的重新定位
如果说以往的统计学专业是以培养简单的“应用型”人才为目标,那么随着大数据时代的到来,社会不仅仅需要会应用基础统计知识处理相关领域的问题的单一的应用型人才,而是对人才提出了更高的要求:大数据时代下的统计学专业的人才除了应该具备基础的数据收集,处理和分析的能力之外,还应该了解相关应用领域的背景知识,而且应具备很强的自我学习能力,以适应大数据时代数据量大,总类繁多,时效性高等发展特点。因此,统计学人才培养目标应该重新作出调整,应该以培养全新的“复合型”统计人才为新的目标。
(二)课程设置的调整
随着人才培养目标的重新定位,随之而来的就是应该对不再适应时展要求的课程进行必要的调整。
首先,大数据的分析和处理与以往的经典分析方法有很大不同,以往的统计分析方法主要是建立在抽样基础之上,而大数据时代信息处理迅速,信息获得途径广泛,而且信息价值密度低,这就要求数据处理时,可以以全体作为样本,而不是进行抽样;分析时必须考虑所有数据而不是剔除所谓的异常数据。因此,以往的经典统计分析方法已不再适应大数据的处理和分析,必须适当的调整经典分析方法的课程设置,增加新的适用于大数据分析的课程。
其次,随着数据量的爆发式增长,所有的统计工作对计算机的依赖程度越来越高,这就要求统计学专业的学生不仅掌握统计学专业的基础知识,同时应该熟练掌握计算机专业知识相关知识,因此,在课程安排时,应注意计算机相关课程的适当增加。
基于上述原因,可以考虑增加如下课程:机器学习,模拟算法,数据挖掘,R语言软件分析等课程,同时适当降低传统分析方法课程的学时比重。此外,为了使学生能够对相关应用领域的背景知识有所了解,可适当增设与应用领域相关的通识课程。
(三)教学模式与手段的创新
以往的教学模式,通常是以课堂教学,掌握书本经典理论为主。虽然,传统教学手段有着学生理论基础扎实等诸多优点,但是同时也存才学生过于偏重理论知识的掌握,动手能力不足,理论与实践脱节等缺点。随着社会的发展,尤其统计学专业自身具有鲜明的应用专业特点。只采用传统的教学模式和手段显然不再适合大数据时代的需要;同时,随着大数据时代的到来,多媒体手段日益丰富多彩,为传统教学的创新提供了必要的支持。因此,为了适应大数据时代人才的要求,必须改革传统的教学手段和模式,在传统教学基础上,加大实验教学的比重,在传统教学外,增加社会实践环节,引入微课慕课,翻转课堂等全新教学模式,以提高学生的学习兴趣,锻炼学生理论应用于实践的能力,从而为以后使用大数据时代的工作打下坚实的基础。
(四)教学评价体系的完善
传统的教学评价体系,通常是采用书面考核的方式对学生的学习进行评价,随着时代的发着,单纯的笔试评价不足以衡量学生的全面能力,最后导致出现高分低能的情况的出现。
为了适应大数据时代对人才多方面能力的需求,必须对传统的考核评价体系做出适当的调整,以评价学生的多方面能力,尤其是动手能力,学习能力和应用相关理论处理实际问题的能力。具体可以采用多种考核方法相结合的方式。如:增加平时的考核力度,增加实践项目的考核,通过布置适当的项目论文,采用答辩的形式,以锻炼学生适应以后工作,独立分析解决问题的能力。
此外,传统教学评价体系通常是单方面的,只有对学生成绩的评价,为了适应大数据时代的到来,全面提高教学质量,可采取双向教学评价体系,如:增加学生对教学环节的评价体系。以及教师间同行间的评价体系等。
三、启示
通过以上分析表明,为适应大数据时代数据分析处理的要求,对统计学专业必然要进行必要的全面的改革,如:需要重新对专业惊醒合理的定位,重新制定人才培养目标,调整专业课程设置,改革传统的教学模式和手段等等。但是,统计学专业改革是循序渐进的过程,不可能一蹴而就,不是一朝一夕就能实现的,因此,必须制定长期改革方案,以及有效的检验机制,避免在改革项目太多而适得其反。可以采用先试点,再推广的方式,或者先局部进行改革试验,再进行多方面的改革。例如可以先重新制定合理的人才培养方案,只进行适当的课程调整。稳定后,在进行考核方式,评价体系等其他方面的改革。
摘要:大数据时代的到来对统计学提出了新的要求。本文从统计学专业发展的新特点出发,剖析了现有教学体系中存在的问题,提出了明确专业培养目标,重新设计主干课程内容;转变固有思维方式,推进统计学教学改革;创新实践教学模式,加强实践教学开展等统计学专业教学体系改革的发展方向。
关键词:大数据;统计学;教学体系改革
一、大数据时代统计学专业发展的新特点
(一)数据化的信息收集
传统的统计研究主要是对已收集的数据进行各种技术分析,包括描述性分析、推断性分析、截面分析、时间序列分析等,侧重点在于技术分析手段的使用上。然而大数据时代,关注的是信息本身。现代信息系统的使用使大数据成为可能,文字、地理方位、沟通等,任何事物都可以量化,一切现象都可以用数据或表格来诠释。因此,大数据背景下世界是由各种信息和数据所构成的。
(二)全数据模式的研究对象
在信息处理能力受限制的过去,人们缺少用来分析所收集数据的工具,因此产生了随机抽样。随机抽样法的目的是用最少的数据获得最多的关于总体的信息,从而使用样本对总体进行推断。然而,在大数据时代,数据处理的方式和技术发生了巨大的改变,人们可以通过互联网、数据库以及各种通讯工具获得海量数据,这时随机抽样就失去了它原来的意义。简单廉价的数据收集方法,足够的数据处理和存储能力,使得全数据模式成为可能。因此,大数据背景下样本即为总体。放弃随机抽样分析的捷径,采用所有数据的方法,可以发现一些隐藏在海量数据下的细节。
(三)混杂性的数据处理思维
传统的统计学处理数据的步骤是首先对数据进行整理和清洗,剔除不完整的或者异常值,然后再利用样本信息,在允许的误差范围内对总体进行推断和分析,即通过调整精确度的大小来对总体进行研究和分析。然而,在大数据背景下,来自各个时间和空间的数据来源纷杂,格式广泛,在萃取或处理数据的时候,很难做到把所有的数据都进行仔细地清洗。这种情况下,必须接受数据的混乱和不确定性,因为数据多比少好,因此更多的数据信息比更加智能、更加精确的算法系统还重要。当拥有大量数据的时候,可以忽略一部分精确性,但并不是说不需要精确性,而是数据规模不断扩大时,确切的数量已经不再那么重要了,可以通过大规模的数据来发现事物背后的规律。
(四)相关关系的基础分析方法
传统的统计中,大部分相关关系分析仅限于寻求线性关系,或是在建立假设的基础上揭示数据相互之间的因果关系,例如Granger检验就是依据时间序列数据对变量之间的因果关系进行的判断,但往往会产生一些虚假的因果关系。这是因为统计关系并没有蕴含多少真实的因果关系。在大数据背景下,数据点以数量级方式增长,用数据驱动的相关关系分析不再需要建立在假设的基础上,所以相关关系分析不容易受偏见的影响而发生错误。大数据时代相关关系通过回答“是什么”的问题,为人们认识世界提供了一种新的视角。因此,相关关系统计分析是大数据预测的基础。
二、统计学专业教学体系中存在的问题
大数据背景下传统的统计学专业教学体系存在的问题凸显,具体体现在以下几个方面。
(一)培养目标无法适应大数据时代的社会需求
传统的统计学专业教学体系的培养目标是通过统计专业核心课程内容的介绍,锻炼学生收集、整理和分析数据的能力,培养“应用型”统计专业人才。然而,大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力,从以往局限于少数的学术精英圈子扩大到了普通的社会机构、企业和政府部门,各行各业对统计数据、统计分析的需要使得统计学专业受到了前所未有的关注。大数据背景下,要求统计学作为一种分析工具,能够与其他专业相互衔接,相互服务,培养“复合型”专业人才。因此,传统的统计学专业教学体系培养目标存在两个方面的挑战:第一,如何协调统计与其他专业之间的关系;第二,如何从“应用型”向“复合型”人才进行转变。
(二)忽视数据的收集和创新
传统的统计学专业教学体系重视数据的分析技术,更多的课程设置是围绕着数据分析方法和技术展开的,例如多元统计分析、时间序列分析、统计预测与决策分析等。基础的数据收集部分只在统计学原理中有一章的内容介绍,而且是作为非重点一带而过的。大数据以海量的数据为分析研究的对象,将一切社会经济现象进行量化,重视的是信息的收集和数据的创新,包括数据的再利用,数据的重组,数据的扩展,数据的折旧以及数据的开放等各个方面。这些内容在原有的教学体系中是没有体现的。
(三)与大数据时代脱节的教学内容
传统的统计学专业教学体系仍然固守着原有的教学内容,在近二十年内变化不大。专业的主干课程有统计学原理、国民经济核算、计量经济学、抽样技术与方法等。而在大数据背景下,教学内容以全数据模式为研究对象,强调对所有的数据进行分析,而不是开展随机抽样;允许不精确的存在,而不是在给定的精确程度下对总体进行推断和分析;关注海量数据之间的相关关系,而不是强调数据之间的因果联系。这些内容都无法在现有的教学体系中体现,因此,传统的专业教学体系与大数据时代是脱节的。
(四)实践教学环节薄弱
随着“应用型”统计专业人才培养目标的提出,学校对实践教学的重视增强,与过去相比,现有的专业教学体系中已经增加了实践教学环节。但是,在大数据背景下,实践教学仍然是统计学专业教学体系中的薄弱环节。主要表现在两个方面:(1)以模型驱动为主的实践教学模式已不适应大数据时代的要求。现有的实践教学内容并不是从数据出发,而是通过寻求一些适合模型的数据来“证明”这个模型的确有意义。这种思维方式与大数据时代的要求是不适应的,因为创造模型的目的是适应现实数据,而不是由模型驱动。(2)以SPSS、Eviews为主的软件教学已无法处理大数据。现有的实践教学中,主要讲授的是传统的统计分析软件SPSS和Eviews,因为这两种软件发展成熟,操作简单,可以处理一般的计量模型和时间序列。但是,大数据时代数据是海量的、复杂的,用简单的软件已无法处理和实施。
三、统计学专业教学体系改革的方向
根据以上分析,时代的发展对统计学专业提出了更高的要求,现有的教学体系中存在的各种问题即为统计学专业教学体系改革的方向。
(一)准确定位统计学专业的人才培养目标,重新设计主干课程的教学内容
大数据时代要求培养“复合型”统计专业人才,因此教学体系的培养目标要从简单的“应用型”向“复合型”转变。“复合型”统计专业人才要求学生除了具备数据收集、处理和分析的能力外,还要对统计学应用领域的背景知识有一定的了解。因此,按这个培养目标,需要对现有教学体系中的主干课程重新进行调整和设计。专业主干课程分为方法和应用两个方面。方法类的课程除了原有的计量经济学、时间序列分析、多元统计分析等外,又增加了机器学习、模拟算法、数据挖掘、R软件分析(或SAS软件分析)等处理复杂大数据的方法的课程。应用类课程在保留原有的国民经济核算,金融统计,证券投资,会计学基础外,增加一些统计学应用领域的基础知识课程,例如商业统计、生物统计、保险与精算统计等。此外,适当调整各专业主干课程的课时,一些课程可以增加课时,如软件分析、数据挖掘等,一些课程可以缩减课时,仅作一些简单的介绍,如抽样技术等。
(二)转变固有的思维方式,在大数据背景下积极推进教学改革
大数据时代,数据更多、更杂,传统统计学思维方式受到了极大的挑战。因此,以大数据为背景,转变固有的思维方式,从以统计技术方法为中心转换到以信息数据为中心,推进统计学专业教学改革十分重要。具体来说,可以弱化传统的推理论证的教学模式,强化数据收集、数据处理和数据分析的能力培养;强调数据本身的价值,让数据说话,用简单的方法了解数据背后所隐藏的信息和规律;使用项目式训练,让学生从项目中真正体验数据化处理的整个过程,达到理论和方法的结合;加强课堂教学与实验教学的统一和贯通,如在传统的教学过程中,将统计学原理、多元统计分析结合SPSS软件介绍,而时间序列分析又采用Eviews进行介绍,造成学生疲于学习各种软件,实际上SAS、R等统计软件可以实现所有的功能,用一种软件与课堂教学融合贯通能帮助学生更好更深地掌握软件的使用。
(三)创新实践教学模式,加强实践教学的开展
从以模型驱动的实践教学模式转变为以数据驱动的教学模式,构造课堂案例教学、实验教学、课后项目式训练、校外实习基地锻炼四位一体的创新型实践教学模式。计算机快速发展的今天使得大数据成为现实,在处理数据的时候,根据数据的特征创造出新的计算方法来满足实际需要,这就是数据驱动模式。在实践教学的过程中,要强调统计数据、计算机编程以及统计分析软件的结合。目前,R软件和SAS软件显示出了强大的数据处理和数据分析功能,实践教学环节中可以把这两种中的一种融入到专业课程中去,将计算机软件与课堂教学结合起来。此外,课后的项目式训练和校外实习可以带动学生了解和掌握整个数据分析实践的流程,激发学生学习的兴趣,在实践教学的过程中要多鼓励、多开展。
摘 要:大数据对于统计学的影响日趋加深,促使负担着培育数据采集的统计学教育也面临着严峻的挑战,为了和新的外部趋势相适应,统计教育应该主动进行改革。然而,对于大数据会给统计学带来什么挑战,统计学在新形势下怎样变革,却很少有人给予关注,文章从大数据和统计学的联系和差异、大数据对统计学的挑战和新形势下统计学的改革三个方面来讨论这一问题。
关键词:大数据;统计学;新形势
大数据是互联网时代的新型产物,这一理念是在一九八零年由美国的未来学家埃尔夫托夫勒提出的。到了二十一世纪,随着互联网技术的普及和运用,全世界的数据量大概每2年翻一倍,这说明人类在最近两年产生的数据量等同于以往产生数据量的总和。大数据虽然在我国发展较晚,但是从起步之后就一直蓬勃发展,尤其是最近几年,新的大数据采集、发掘、储存、探析类企业和组织逐渐建成,大数据在我国各行各业的使用日趋广泛,遍及信息、金融、商品销售等行业。
一、大数据和统计学之间的联系和差异
统计教育是以统计学理论和统计学在相应领域的使用为主的教育内容,所以想要分析大数据时代统计学教育所面对的挑战和改革,首先应该搞清大数据和统计学二者的概念,明白两者之间的联系和差异。
大数据和统计学之间是有密切联系的。首先,大数据虽然是通过巨型数据采集构成,构成主要涵盖非结构化数据和半结构化数据,和通常结构化数据不一样,但是它的根本依然没有离开数据的属性,统计学依然可以把大数据看做探究的主要方面。第二,大数据对于数据的通常处理过程是:搜集―统计解析―发掘―找到需要的信息,而统计活动的主要顺序则是:统计设计―数据采集―数据整理―数据解析―发现数量联系和规律,二者对于数据的处理方式在某些方面虽然有部分差异,但是基本过程也有很多相似的地方。第三,一方面统计学为大数据的研究提供基本方式,比如大量的观察、数据分组、相关解析等也是分析大数据的主要方式,另一方面因为在大数据探究和处理过程中应该借助新的信息技术,所以大数据的发展在很大范围里提升了统计学探究设施和方式,使现代信息设备和互联网技术在统计学的使用更加广泛。
大数据和统计学的主要差别体现在探究目标、数据处理对象和解析技艺上。大数据通过发现数据机遇和数据价值,寻求数据回报为最终目标,数据所触及的范围比较宽泛,运用遍布互联网、经济分析、财产管理、商业投资和医疗器械等方面,处理的数据主要是海量、全面性的非架构化数据和半结构化数据。然而统计学以发现数据后映射物体的自身关联和规律为目的,处理的数据主要为数量不大的结构化数据,使用概率论、非全面调查、抽样推断和相应回归解析等数理统计理论为探究方式。所以,相对于统计学,大数据不但在技术和工具的运用里更为全面和智能,和互联网技术的联结的也变的十分紧密,而且在所处理的数据种类和探究目标上都和统计学有所区别。
二、大数据时代给统计学带来的挑战
大数据和统计学虽然密切相关,但是两者在探究目标、数据处理和解析设备方面却有着很大的不同,人类步入信息时代之后,随着非结构化、半结构化的大数据的比例急速上涨,互联网技术在数据采集和处理中的运用日渐宽泛,大家对数据价值和数据回报的追求更加猛烈。怎样汲取大数据探究里的价值理论,使受教育者把握良好、先进、适用的数据搜集、解析和处理的技术。在大数据时代统计教育将会面对的挑战主要表现为以下几点。
(一)对教育内容的挑战
当下统计学专业教育内容主要是概率论和数理统计、抽样抽查、统计形式和有关的统计运用学科,基本以结构化数据为主要的处理对象,而对非结构化和半结构化数据的解析和设备的运用则触及很少。然而,依据大数据时代对数据处理高端人士素养和技术的需求,目前统计学的内容已经不可以满足非结构和半结构的海量数据探究和商业运用对人才培育的需求。所以,统计学的教育应该看清形势,以对统计专业人士的现实需要为核心,不停地提升原来的科目内容,开设新的课程,才可以确保教育内容跟上大数据时代前行的步伐。
(二)对教育方法的挑战
目前统计学教育模式以课堂教育为中心,主要以老师讲解为主,注重理论,忽略应用,注重方式讲解,忽略技能培育,并且教育方式单调,教育方法陈旧,教育组织的合作观念较弱。所以现在的统计学教育方法已经不适合大数据时代对全面性数据处理和分析人才的素养需求,应该在教学方法上展开调适和改革。
(三)对人才培育方式的挑战
目前统计学教育方式以给予学生知识,培育政府、企业、事业单位需求的统计任务人才和学校、科研组织需求的统计教育和研究人员为主要内容和目的,另外大多高校老师综合素养不够,本专业之外的知之甚少,实验室的建成和设施的更新速度落后,形成培育出的学生偏重于公式推导、运算和数学模型解析,知识构架以数理认知为主,在经济学、管理学、计算机学等领域的认知较少,知识探究和观察的目光短浅,解决现实困难的能力不足。大数据时代虽然需要统计人才拥有数据处理和解析所需求的基础素养和技术,但是更加侧重它从海量的数据里掌控市场机遇,发现和发掘商业价值,为所处行业制造利益的内在潜力、奋发精神和探究欲望。
三、新形势下统计学的改革
信息时代对于统计人员的素质提出了更高的需求,统计学的教育方式也需要进行部分改革。
首先,统计人员应该提升对于新技术的敏感性。因为信息技术的不断发展、不断更新,这就需要统计人员具备职业敏感性,及时学习和理解新技能,能在大数据的环境下熟练运用专业技能。其次,统计人员应该提升团队合作意识。作为统计人员不仅要做好本职工作,还要及时了解团队内部各成员的工作进展状况,相互学习、互相共享信息资源。最后,统计人员应该具备自主创新能力。信息化社会的知识更新十分迅速,统计人员唯有不断学习、不断革新,才能够适应大数据时代的需求。
结语
大数据和统计学两者在本质、探究目标、数据处理对象和技能工具等部分,有联系也有差异。大数据时代的到来不但对统计学的固定探究方式和价值观念带来一定的冲击,并且致使统计学教育面对在教师知识结构、教育内容、教育方式和人才培育方式等方面的众多挑战。所以,为了适应大数据时代的发展潮流和培育更加有效、素养更高、适应能力更强的统计专业人才,统计学教师和统计教育都需要跟上时代,积极做出对应的调整和改革。(作者单位:太原市统计局调查监测中心)
摘 要:随着我国经济发展水平的不断提高,各行各业得到了显著发展,数据统计学方法也变得日趋多样,数据挖掘是建立在数据库与人工智能基础上发展起来的一种高新技术,其功能是从众多的数据当中挖掘到最有价值的信息,进而实现对数据资源的高效利用。聚类分析能够被当成一种数据分析工具,能真实反映出数据分布情况,本文主要对统计学在数据挖掘中的应用进行了探讨,从而表现统计学在数据挖掘应用中的重要性。
关键词:统计学方法;数据挖掘;应用分析
数据挖掘就是指从众多实际应用数据中获取批量大、有噪声、且随机性强的数据,将潜在的信息与数据提取出来,就是从数据中挖掘有价值的知识,而大多数原始数据具有一定的结构化特征,比如,关系数据库中的数据;也可以通过文本、图形、图像等半结构化发掘有用知识,这些知识可以是数学的也可以是非数学形式的;数据挖掘能以归纳形式存在,能够被广泛应用到信息查询、信息管理、信息决策控制中,方便数据的维护与管理。由此可见,数据挖掘是一门交叉性强的学科,加强对其的研究非常有意义,下面将对统计方法在数据挖掘中的具体应用进行分析。
一、数据挖掘与统计学的关系
(一)数据挖掘的内涵
通常来说,数据挖掘的定义较为模糊,没有明确界定,大部分对其的定义只是停留在其背景与观点的内容上。通过对不同观点的统一整理,人们最终将其描述为:从大量多样化的信息中发现隐晦性、规律性等潜在信息,并对这些信息进行创造、加工的过程。数据挖掘作为一门重要的交叉学科,能够将数据库、人工智能、机器学习、统计学等众多的科学融入到一起,从而实现技术与理论的创新与发展[1]。其中,数据库、人工智能与统计学是数据挖掘当中的三大支柱理论。数据挖掘的目的是从数据库当中发掘各种隐含的知识与信息,此过程的方法非常多,有统计学知识、遗传算法、粗集方法、决策法、模糊逻辑法等,还可以应用向邻近的可视技术、模式识别技术等,在以上所有技术的支持上能够使数据挖掘更为科学、有序。
(二)数据挖掘与统计学间的关系
通常来说,统计学的主要功能是对统计原理与统计方法进行研究的科学。具体来说就是指对数字资料进行的收集、整理、排序、分析、利用的过程,数字资料是各种信息的归纳与总结,可以将其作为特性原理的认知、推理方法[2]。而统计学则表示的是使用专业的统计学、概率理论原理等对各种属性关系的统计与分析过程,通过分析成功找到属性间的关联与发展的规律。在此过程中,统计分析方法是数据挖掘最为重要的手段之一。
在数据挖掘这一课题被提出来之前,统计分析技术对于人们来说更熟悉,也是人们日常开展工作、寻找数据间规律最常使用的方法。但是不能简单的将数据挖掘作为统计学的延伸与替代工具,而是要将两者的区别认识到位,再结合两者间的不同特点分析其应用特点[3]。大部分的统计学分析技术都是建立在数学理论与技巧上的,预测通常较为准确,效果能够让大部分人满意。数据挖掘能够充分借鉴并吸收统计学技术,在融入到自身特点以后成为一种数据挖掘技术。
统计学与数据挖掘存在的目标都是一致的,就是不断对数据结构进行发掘。鉴于统计学与数据挖掘在目标上的一致性,致使很多研究学者与专家将数据挖掘作为了统计学的一个分支机构[4]。但是这种认知非常不正确,因为数据挖掘不仅体现在与统计学的关系上还体现在思想、工具与方法上,尤其是在计算机科学领域对数据挖掘起到的作用非常大。比如,通过借助数据库技术与人工智能的学习,能够关注到更多统计学与数据挖掘上的共通点,但是两者存在的差异依然非常大。数据挖掘就是指对大量的数据信息不断挖掘的过程,DM能够对数据模式内的数据关系进行充分挖掘,并对观测到的数据库处理有着极高的关注度。
二、数据挖掘的主要过程
从数据本身出发探讨数据挖掘过程,数据挖掘的过程分为信息的收集、数据集成、数据处理、数据变换、数据挖掘实施等过程。
首先,要将业务对象确定下来,明确不同业务定义,并认清数据挖掘的目的,这是做好数据挖掘最关键的一步,也是最重要的一步,虽然挖掘的结果不能被准确预测到,但却需要对问题的可预见性进行探索[5]。其次,还要做好数据准备工作,包含数据清理、数据变换等工作,数据清理的实际意义是将噪声与空缺值补全,针对这一问题,可以使用平滑技术,而空缺值的处理则是属性中最常见的,可以将统计中最可能出现的值作为一个空缺值[6]。
信息收集指的是按照特定的数据分析对象,可以将分析中需要的特征信息抽象出来,并在此基础上选择出较为科学、适合的信息收集方法,将全部的信息全部录入到特定的数据库中。如果数据量较大,则可以选择一个专门的管理数据的仓库,实现对信息的有效保护与管理;数据集成就是指将来源不同、格式不同、性质不同、特点不同的数据集成到一起,进而为企业提供更为全面、系统的数据共享平台;数据变换就是通过聚集、概化、规范化等方式对数据进行挖掘,对于一些实用数据,则可以通过分层与分离方式实现对数据的转换;数据挖掘就是结合数据仓库中的数据信息点,并选择正确的分析方法实现对有价值数据的挖掘,事例推理、规则推理、遗传算法等都是应用较多的方法[7]。
三、统计学方法中的聚类分析
在统计学聚类方法基础上能够构建出潜在的概率分布假设,可以使用试图优化的方法构建数据与统计模型的拟合效果。基于统计学聚类方法当中,Cobweb方法是在1987年由Fisher提出的,能够以分类树作为层次聚类创建的方法,在分类树上,每一个节点都能代表着一个概念,该方法就是对节点概率描述的过程。Cobweb方法还使用了启发式估算方式,使用分类效用对分类树的构建进行指导,从而实现对最高分类的划分目的,能够将不同分类对象全部归类到一个类别中,并依据这些内容创建出一个新的类别。但是这种方法也存在一定局限性,局限性在于假设的属性概率分布都是独立的,并不能始终处于成立状态中。
只有在掌握了Cobweb算法以后才能对概念聚类算法的特点进行探究。Cobweb算法能够以分类树方式创建层次聚类,可以将概率表现为p(Ai=Vii/Ck)条件概率,其中,Ai=Vij是一个类别下的,同属于一个值对,Ck是概念类中的一种。在给出一个特定的对象以后,Cobweb能够将全部对象整合到一个节点上,从而计算出分类效应,分数最高的效用就是对象所在的节点位置[8]。如果对象构建失去节点,则Cobweb能够给出一个新的节点,并对其进行分类使用,这种节点计算方法起步较晚,能够对现有的节点与计算相互对比,从而划分出最高的分类指标,将全部对象统一到已有的分类中,从而构建出一个新的类别。
Classitci是Cobw eb方法的一种延伸与发展,能够使用其完成聚类数据的处理,在该方法下,节点中的每一个存储属性都是处于连续分布状态中,能够将其作为分类效果修正的方法,并以度量的形式表现出来,这种度量基础上能够实现连续性的积分,从而降低分散发生率,该方法是积分过程而不是对属性的求和过程。
Auto Class方法也是一种应用较为普遍的聚类方法,该方法主要采用统计分析对结果类的数目进行估算,还可以通过模型搜索方式分析空间中各种分类的可能性,还能够自动对模型数量与模型形态进行描述。在一定类别空间中,不同的类别内属性存在关联性,不同的类别间具有相互继承性,在层次结构当中,共享模型参数是非常重要的。
还有一种使用较为普遍的模型是混合模型,混合模型在统计学聚类方法上使用也非常普遍。该方法最为基本的思想就是概率分布决定着每一种聚类状态,并且模型中的每一个数据都是由多个概率在分布状态下产生的。混合模型还能够作为一种半参数密度评估方法,其能够将参数估计与非参数估计的优点全部集中到一起,并将参数估计法与非参数估价法的诸多优点融合到一起,因为模型具有一定复杂性,为此,不能将其限制在概率密度函数表达形式上,这种复杂性决定了模型与求解存在关联,与样本集合的联系非常少。通过以上的研究可以了解到,数据发掘中应用聚类方法非常有效,并且较为常见。比如,构建出Cobweb模型与混合模型,采用Clara与Clarans方法中的抽样技术,将Denclue方法用在概率密度函数中。
结束语
统计学方法自产生开始已经有非常久远的历史,将严谨的数学逻辑作为基础,将分类算法假定作为独立条件,属性值之前能够相互保持独立,对假定进行计算,当假定成立时,可以再与其他分类算法进行对比,这种分类算法准确性非常高。为此,其不仅能够对连续值进行预测,还可以通过线性回归方程对系数进行比较,从而归纳出结果。
摘 要:大数据已经承成为助力互联网+发展的重要手段,成为创客实现梦想星天地的必要途径,其已经成为我们生活中不可缺少的一部分,大数据正在以一种前所未有的态势推动着各行各业的发展,其蓬勃发展态势也标志大数据时代的袭来。
关键词:大数据;统计学
大数据时代以迅雷不及掩耳之势席卷世界,在全球范围内掀起了前所未有的数据革命浪潮。相对于政府单位的统计数据来说,大数据主要利用的是多层次、多样化的数据采集方式,整合了多种数据的开发优势,并且利用现代科学技术手段和高速处理以及信息架构数据等资源,兼具极高的使用价值和判断决策能力。一方面,统计调查数据的多样化发展趋势和电子商务产业的不断发展,为统计数据的使用方式和生产方式制造了不小的麻烦,不断地挑战者政府部门数据管理系统和统计数据的概念。另一方面,信息技术、网络发展以及空间信息技术的不断进步,为统计生产力的升级发展提供了广阔的视角和空间。数据量急剧增长的电子化、信息化和产业化数据,都成为了统计数据发展的重要来源。种类不断增多的“大数据”资源,正在成为政府统计部门利用研究的重要领域。
一、大数据与统计学的区别
统计知识在大数据的利用研究中有多样化的应用形式,主要是对“大数据”进行肢解,对爆炸增长的数据信息进行搜索、分类以及整合主要依赖于统计学。因此,大数据的相关研究在一定程度上运用了统计学的知识。但是,大数据的使用尚未被统计学这门学科充分利用,这主要是因为大数据的运用方式,使用模式和统计学之间存在着重要差异。统计学主要利用的是样本统计资源,样本主要在根据既定的概率标准从总体中抽样调查,但是随机抽样调查是带有成本属性的,例如消耗时间、资本投入的成本等。在样本数量逐渐增加的情况下,样本估计的误差范围是伴随着总体样本数量的增大而逐渐增加的,这是样本统计学不能忽视的缺点。大数据时代最具代表性的就是海量的信息数据化以及即时电子商务信息,大数据在整体上呈现出“总体样本数据化”的趋势,这样的特征恰好可以补充样本统计的弊端。大数据环境下的整体样本统计即使可以囊括全部的样本容量,但是因为很多情况下数据具有非结构性和半数据化的特征,而且大量的数据资源呈现的是重视尾部分布的状态,方差、标准差等标准化的方法变得毫无意义,整体依靠性和不稳定性经常会超越经典时间内的时间序列的整体假设性,所以概率论的应用范围呈现狭窄化的发展趋势。因此,统计学在利用大数据进行样本统计的过程中,可以对整体上的数据资源进行融合和选择,这和样本统计中的数据化处理技术存在异曲同工之妙。
二、大数据时代统计学教育的发展
1.全面培养人才素质
统计学专业的学生需要具备良好与人交往能力。统计学的学生很多都是理科出身的学生,不善于交际。但是在日常的工作中,有数据经验的科学家应该经常和每个部门的工作人员交流,协同工作。怎么样才能让颇具专业性的数据分析结果让普通的老百姓也可以读懂,让每个部门的工作人员都能无障碍地理解,这是不容易做到的。要训练自己的交往能力和沟通技能,主动地参加演讲活动是不错的渠道,演讲活动锻炼了演讲者的自信,在整个演讲的过程中,能否清晰地表达自己的思想以及给人以信服力是至关重要的。需要培养数据常识,广其见闻。数据科学家经常面对各种各样的海量数据,并需要从这些数据中挖掘出有价值的信息,这就需要数据科学家具有强烈的数据敏感性。对数据的敏感程度的训练不是一蹴而就的,要经过长时间的积累和数据分析工作的磨练,同时也可以根据阅读数据分析材料积累阅历,提升对数据资源的敏感程度。
2.培养应用型人才
大数据时代培养的数据科学家需要两方面的基本素质,第一是概念性,也就前面所说的数据科学家需要掌握的基本素养和专业知识;第二是实践性,也就是本文中我们提及的应用型人才,也就是实际操作中处理数据的能力。在高校开展大数据分析研究生学科,最大的问题是没有可用的数据,这就需要高效与大数据企业合作,进行研究生的联合培养,注重学生的实际操作能力,这里面涉及到我们的应用统计学专业硕士的双导师培养制度,一名校内导师一名校外导师,校内导师注重学生的概念性,校外导师注重学生的实践性,学生通过在校外导师单位的实习,从而熟悉并且掌握实际工作中所需要的技能。
3.促进统计与数学、计算机学科合作
“大数据”时代需要的海量数据分析资源仅仅凭借统计学科单一学科的发展是不能满足发展需求的,大数据的数据结构性特征已经抛弃了传统意义上的数据分析模式的非智能化框架,而且数据分析需要利用新型的数据运算方式以及计算机技能分析,这也是进行数据分析工作的拦路虎。所以,数据科学家的成长仅仅依靠单一的统计学科知识的学习是远远不够的,其需要的是数学、计算机和统计学三门学科融合发展,紧密结合。三门学科之间交叉发展,融会贯通,这样既可以发挥学科的优势资源,同时也能弥补其他学科的弊端。
三、结语
数据信息的爆炸式增长使我们在使用统计数据处理信息时需要更多的数据资源,更有甚者,在很多情况下可以利用全面化的数据,数据资源不再是制约统计分析的唯一因素,大数据前提下的统计学效用和粘合度预测的准确程度不断提升,而且可以发现诸多在样本统计基础上未能显现的细节。统计学关键优势就是“见微知著”,也是统计学在数据环境下的约束性妥协。在海量数据汹涌袭来的年代,充分发挥统计学的优势,和大数据资源整合发展,实现“以小见大”和“由繁入简”的有效结合。
摘 要:文章通过阐述大数据及其目的,分析大数据与统计学的对比,对大数据对统计学的挑战与机遇展开探讨研究,旨在为相关人员基于大数据及其目的、大数据与统计学的对比的大数据对统计学的挑战和机遇研究适用提供一些思路。
关键词:大数据;统计学;挑战;机遇;营销
引言
国际数据公司的相关研究指出,2011年全球数据生产量达1.8ZB,且全球信息总量每隔两年增长一倍[1]。在大数据时代下,对于统计学发展而言,挑战与机遇并存,挑战指的是现阶段传统统计学相关方法难以适用大数据,机遇指的是基于统计学,大数据展开数据处理、分析,促使大数据具备可视化特性。由此可见,研究大数据对统计学的挑战和机遇有着十分重要的现实意义。
1.大数据及其目的
现阶段,关于大数据仍旧没有一个十分明确的界定,大数据起初是源自于技术领域。在信息量不断扩大的情况下,使得常规电脑原有存储空间已不能对新处理数据进行承载,新兴数据处理技术得以产生,好比雅虎的Hadoop平台、谷歌的MapReduce等。此类技术能够对僵化层次结构、一致性予以消除,促进数据无需通过常规数据库表格进行排列,极大程度地提升了人们可处理的数据量[1]。
2.大数据与统计学的对比
2.1样本统计与全样本统计的区别
样本统计属于统计学不可或缺的依赖,样本指的是结合相应的概率自总体中随机筛选并视作总体代表的集合内容,值得一提的是随机抽样是需要成本的,包括社会关系、资金成本或者时间成本等。基于样本数量提升有限前提下,样本估计误差会随着总体数量增多而增大,这亦是样本统计无法避免的不足。大数据时代下,庞大的数据信息应运而生,数据信息发展表现出总体即是样本的态势,该属性很好的消除了样本统计这一不足。大数据时代下的全样本统计,通常情况下可对完全总体进行覆盖,然而受大部分数据属于半结构、半结构数据影响,使得概率论应用遭受一定的制约[2]。鉴于此,将全样本统计应用到统计学中,应当就总体数据展开相应的归纳、筛选,即好比在样本统计中展开数据预处理。
2.2预测分析与非预测分析的区别
统计学的创立,是为了对变量相互相关关系展开分析,因此获取数据是发生于变量确定之后的,数据分析价值是能够被预测的。相较于统计学的预测分析,庞大数据将互联网、传感器作为载体,存在于分析需求之前,因此构建于大数据上的分析多为非预测性分析。在统计学中,出现大数据无法有效应用局面,这是由于不具备非预测分析所需的庞大数据,庞大数据产生与数据中心、存储系统存在紧密的联系,并非短期产生。也就是说,统计学中大数据的应用发展,说明了非预测分析正逐步取代传统统计学预测分析,数据多次利用正逐步取代传统数据一次性利用的。
3.大数据对统计学的挑战与机遇
3.1数据生产、处理与应用的转变
相关统计部门经开展严格的统计设计工作,获得相关的统计数据,数据的预处理分别有数据清洗、非全面数据填补以及数据矫正等。大数据时代下的统计手段尚不十分明确,自大数据流环境而言,要不断探索新型抽样方法,并确保抽样方法的实时、连贯及可行性。除去传统的统计分析方法,还应当开发大数据动态分析、数据流算法等[3]。
3.2大数据时代对市场营销的机遇
3.2.1大数据营销的特点与价值
大数据营销的特点:I.数据采集多平台化特点,即大数据时代下,大数据的数据大多来源于不同的领域、不同的渠道。II.时效性特点,随着信息技术的急速发展,互联网用户消费、购物行为方式往往会瞬间出现转变。国际先进大数据营销企业AdTime基于此大数据营销特点,采取了时间营销措施,即采取相应的技术方式全面获悉用户所需,于第一时间对用户当下的需求进行回应,以使用户在下决心购买的最佳时间及时看到对应的产品广告。III.个性化特点,在大数据时代下,广告商传统媒体导向的营销理念逐步由受众导向取代,现如今,广告商可应用大数据了解用户的地理方位,需求内容等信息,达到对用户个性化营销的目的。
大数据营销的价值:I.升级营销与用户的匹配度,大数据营销不仅可提供给企业了解用户有效的途径,还能够于网络环境下,选取相关技术方法达到对用户精确定位的目的,从而开展好营销工作,升级营销与用户的匹配度。II.改善用户体验,大数据营销促使企业真正意义上认识到用户及其所使用企业产品情况,以给予用户最人性化的提醒。
3.2.2大数据营销的应用
(1)与消费者建立紧密关系
现如今,我国一些企业营销行为仍旧处于个性化定位信息、创意设计阶段,而无法对不同消费者展开个性化的营销活动。大数据时代下,经采用相关数据分析技术方法,基于对消费群体喜好、传媒接触习惯等展开有效的分析,达到特定营销活动明确开展的目的,实现企业精心开展的营销活动精准的辐射至目标消费群体处,与消费者建立紧密关系,极大的改善营销效率、质量[4]。
(2)掌握竞争对手数据
企业通过对竞争对手数据的有效掌握,获悉竞争对手发展状况,基于此帮助企业制定科学合理的产品价格,提升企业产品市场竞争优势。与此同时,企业务必要全面实施以事实为前提的决策手段,广泛地应用数据分析方式对企业每一个发展运营步骤进行优化,经对企业一系列数据的充分优化、对接,促使业务环节中潜在的价值得以被有效挖掘,降低生产成本,知己知彼,促使企业在日趋白热化的市场竞争中占据有利位置。
(3)挖掘企业内部数据
“市场未动,数据先行”俨然转变为国际上企业有效运营发展的一致认识,为了提升企业管理效率,要求企业要充分挖掘企业内部数据,并展开有效的整合、分析,以为企业相关人员做决策提供有利的参考依据,提升决策准确性,促进企业可持续发展。
3.2.4 企业的应用案例――以亚马逊为例
在应用大数据开展市场营销方面,美国亚马逊公司一直处于领先地位。亚马逊研发出“用户未下单,先发货”功能,即结合用户的购物需求数据信息,分析用户想要购买的产品,达到用户未下单,提前发货的目的。此外,亚马逊通过对用户检索信息的分析,评估流感的传播,但这仅仅为海量检索数据中的一项用途,相同的数据能够应用于预测大选结果、预测某类产品市场行情等等,极大地降低了统计成本[5]。
3.3大数据时代对市场营销的挑战
3.3.1信息收集
大数据并非就是对数据信息展开盲目的收集,即便收集了再多的数据,倘若这些数据并非是市场营销所需要的,如此便会导致前期收集来的数据信息,变成一堆“数据垃圾”。鉴于此,为了避免这一情况发生,务必要充分分析业务需求,再对自身存在价值的数据展开收集、归纳,如此方可实现大数据的有效收集应用。
3.3.2经验与数据
数据采集完毕后,面对参差不齐的数据,还应当做好数据评估工作,评估对何种目标受众开展市场营销工作。鉴于此,要求采取科学合理的手段,将这些参差不齐的数据整合成可被市场营销实践应用的,经结合过去的经验,与采集数据进行有机融合,实现对目标受众的有效分析确定。
3.3.3分析与优化
数据分析,一方面是实现数据优化,一方面是进行决策层面上的调整、转变。此环节对于专业人才的需求提出了严苛的挑战。数据分析、数据优化对于专业人才的知识框架要求大不相同,这要求相关企业不仅要培养专业的数据分析人才,还要打造数据优化人才队伍。
3.4大数据营销的未来发展趋势
信息技术不断发展,单一媒体导向的“消费者碎片化”俨然无法达到企业对于数据多样性的需求。大数据时代下,媒体的跨界融合实现对“碎片化”受众的充分聚合。在科学技术技术不断进步的背景下,跨媒介、跨平台、跨终端的多途径将不断被开拓,将使庞大的数据信息获取多维度的整合,并且在多样化网络环境下,消费者主观信息与客观数据有机融合,构筑全面用户数据库环节,将成为未来大数据营销发展的必然趋势[6]。
4.结束语
总而言之,大数据为传统统计学带来了严峻的考验,也为传统统计学有效发展创造了良好的契机。在大数据时展潮流中,我们应当充分的认识到大数据对于传统统计学而言,是补充而不是更替,构建于样本统计、预测分析内容上的传统统计学,仍旧于社会统计、经济分析中占据着主导位置。大数据时代下,为了实现企业市场营销的有效开展,相关人员务必要不断专研研究、总结经验,全面分析大数据与统计学的对比,充分认识大数据对统计学的挑战和机遇,“与消费者建立紧密关系”、“掌握竞争对手数据”、“挖掘企业内部数据”等,积极促进企业市场营销的科学合理化。
摘要:
基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。
关键词:
大数据;统计学;研究方法
随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。
1大数据的界定
根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。
Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。
2大数据与统计学分析方法的联系
从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。
(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。
(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。
3大数据与统计学分析方法的区别
(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。
(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。
(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。
4结语
综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。
摘 要:21世纪,随着互联网和信息技术的飞快发展,数据正在成为巨大的经济资产,成为新世纪的矿产和资源,为企业带来全新的创业方向、商业模式和投资机会。21世纪的学科不是经济学,也不是医学,是统计学在大数据时代的崛起。
关键词:统计学;大数据;利用;发展
统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。随着统计学发展的同时,一个大规模生产、分享和应用数据的时代正在开启:大数据的真实价值就像漂浮在海洋中的冰山,绝大部分的数据都隐藏在表面下等着人类去探索。
1 利用所有的数据
在传统的统计学中,由于记录,存储,分析数据的工具不够好,所以总是倾向于从总体中抽取样本来分析,因为统计学的一个目的就是用尽可能少的数据来证实可能重大的发现。统计学家证明:采样分析的准确性随着采样随机性的增大而大幅度提高,但是与样本数量的增大关系不大。当样本数量达到了某个值的时候,从新个体身上得到的信息会越来越少,就同经济学中的边际递减效应一样。
在大数据时代,不使用随机分析的方法,而是采用所有的数据。即“样本=总体”。统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的。慢慢的,就会抛弃样本分析。
2 接受不精确
对小数据而已,统计学已经可以把数据处理的很好了,但是在大数据时代,太多的数据使原始统计方法捉襟见肘,因为数据量的大增会使得结果不太精确。执迷于精确性是信息缺乏时代和模拟时代的产物,只有接受不精确性才能进入我们从未涉足的邻域。接受不精确是从“小数据”到“大数据”的重要转变之一。因为拥有更大的数据量所带来的利益远远超过增加一点精确性,所以也就能够接受不精确的存在了。要想得到大规模数据带来的好处,混乱应该是一种标准途径,而不应该是尽量避免。
3 追求相关关系而不是确定因果
在小数据时代,相关关系也是有的。统计分析的目的在于如何根据统计数据确定变量之间的关系形态及其关联的程度,并探索其内在的数量规律。人们在实践中发现,变量之间的关系分为两种:函数关系和相关关系。相关与回归是处理变量之间的一种统计方法。变量之间存在的不确定的数量关系,称为相关关系。一般来说,可以用散点图和相关系数来描述和测度相关关系。
相关关系的核心是量化两个数据之间的数理关系,它没有绝对,只有可能性。大数据的相关分析法更准确,更快,而且不易受偏见的影响。知道是什么就够了,没必要知道是什么。通过探求“是什么”而不是“为什么”,相关关系帮我们更好的了解这个世界。如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。
4 数据的来源并非那么简单
在一般看来,要想得到一些你所需要的数据是需要通过各种不同方法测量或是记录才能得到,而有时候,数据会从你意想不到的地方得到。也许你精心地设计了你的实验或是探究,但是到了真正操作才会发现事情并不像你想象的那么简单。
首先,由于在大数据时代,数据不是那么的有规律,所以才要考虑数据的一系列问题。这些数据或是资料是不是一定要自己去得到,或是可以参考别人已经有过的结果,这样可以节省精力和时间。如果是参考别人的数据要考虑时效性和使用范围。也许不是专门为你的设想而准备的数据。大的数据库有着小数据库所没有的价值,大数据的核心就是挖掘出大的数据库所拥有的独特的价值。
5 数据的利用方式
在统计学中,对数据的利用不仅包括对数据求平均值,方差,分位点,可以的话还要得到数据中的某种关系或是联系,如父母的身高会不会对下一代产生影响,不仅要分析父母的身高,还要分析孩子的身高,从中发现有没有相关关系,得出自己的结论。
在大数据时代,数据没这么简单的让你下手,所以对数据的利用方法也随着情况的不同而不同。数据的用途已经从基本的用途移动到了二级用途,使得数据随着时间的推移而变得更有价值。明白了隐藏在冰山下面的绝大部分数据的价值后,创新型企业就能够提取其潜在价值并获得潜在的巨大收益。尽管如此,数据再利用的重要性还没有被充分认识到。要解锁这些数据,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。
随着大数据的出现,数据的总和比部分更有价值。将数据的总体组合在一起,重组组合本身的价值也比单个更大。如果决定使用有生产价值的数据,就需要不断的更新数据库并淘汰无用的信息。即使数据基于基本用途的价值会减少,但潜在价值却仍然强大。潜在的数据价值需要通过创新的分析来释放。不出意外,给数据的潜在价值贴上价格标签会带来无限商机。
6 小结
个人认为统计学和数据挖掘一起可以更好的利用数据。一个可以对数据进行有效合理的分析,一个可以用多种多样的算法来更好地处理数据。在大数据时代,重要的是数据自身和大数据的思维观念。如果能做到数据,技能和思维三者具备,就能更好地服务于大数据时代,就能在大数据时代有非常大的竞争优势。
摘 要:广泛使用电算化处理统计数据的今天,学习统计学而不会使用统计学软件,在实际工作应用中寸步难行,本文从教材的选用;强化理论基础,重视实践技能;培养学生职业能力,激发学生学习兴趣等方面对大数据背景下高职院校统计学运用SPSS软件研究进行了探讨。
关键词:大数据;高职院校;统计学;spss软件
在2014年11月下《科技风》杂志上发表了“大数据背景下高职院校统计学的学习现状研究”, 对大数据背景下统计学在我国高职院校开设的现状及存在的问题进行了剖析,通过调查研究发现,目前在大数据背景下,高职院校开设的统计学课程运用SPSS软件的应用已成为必然。
1 教材的选用
总所周知,《统计学》课程是高职院校财经类专业的学生中开设的一门公共专业基础课程,也是学生工作后实际应用比较广泛的一门学科,小到自己的日常生活,大到工作都离不开统计数字,靠传统的手工计算办法早就行不通了,特别是互联网的应用,大数据背景下,如何在众多的信息中筛选出有用的信息,在学生学习的过程中教材和软件是必不可少的。
目前,统计学――基于SPSS系列教材,高等教育出版社、中国人银民大学出版社等都出版过本科、研究生使用的教材,专门为高职院校财经类的学生使用而出版的统计学教材很少,目前,通过多方面调查,笔者认为比较适合高职院校选用的是人民邮电出版社的《SPSS统计分析实用教程》,由谢蕾蕾、宋志刚、何旭洪主编,2013年出版。这本教材以SPSS16.0为基础,详细介绍了多种常用统计分析方法的原理和实践技能。全书分为十一章,主要内容包括SPSS简介;变量、数据文件、系统参数;统计描述;统计图制作;均值比较和T检验;方差分析;相关分析;回归分析;聚类分析和判别分析;因子分析和非参数检验等,结合实际问题详细介绍使用SPSS解决这些问题的步骤和结果。
这本教材克服了在选用传统统计学教材时,只注重理论知识讲授,死记硬背公式。学生们对统计计算不在望而生畏,对复杂的统计公式及数字计算,由于软件的使用变得简单了。因此,现在高职院校的学生必须要学习使用spss软件,教材是学生学习过程中不可缺少的,选好教材尤为重要。
2 强化理论基础,重视实践技能
2.1 转变教学观念,理论引导下,重点强调应用
统计学是一门实践性较强的学科,学生既要掌握扎实的基础理论知识,也要熟练运用各种计算工具,才能具备高超的解决实际工作中问题的能力。这样,必须对传统的高职统计学课程进行改革。我们学校在讲授这门课时,介绍统计的基本理论、基本概念、基本方法的同时,侧重对统计软件使用的讲解,很好的将二者有机结合起来,做到学以至用。
2.2 以企业为依托,实现校企共育
全面建立和完善“校企共育”的人才培养模式,主动顺应黄河三角洲高效生态经济区和山东半岛蓝色经济区发展带来的产业结构优化升级和企业岗位需求变化,推行“基于工作岗位”系统化课程改革,突出学生职业岗位能力的培养,增强社会服务能力,为企、事业单位提供高素质技能型人才。
按照“知能兼备,德业为本”的财经人才培养要求,以统计职业岗位要求为目标,以就业为导向,打破传统学科体系,建立以知识、能力、素质并重的课程体系及工学结合的校内外实践教学机制,构建符合统计职业培养要求的人才培养模式;采取专职教师“顶岗实践”和兼职教师“项目指导”相结合的方式,建设一支具有优秀专业带头人、品质优良、专兼结合的“双师”素质教师比例达到95%以上的教学团队;确立与职业要求相适应的教学标准,通过课堂教学与岗位实践一体化,着力培养学生的实践能力、创造能力,为spss软件的应用提供了有利条件。
3 培养学生职业能力,激发学生学习兴趣
3.1 深入企业工作岗位,由让他学变成我要学
山东铝业职业学院依托山东铝业公司办学,山东铝业公司隶属于中国铝业公司,是全国成立的首家职业教育集团,我院的学生,具有其他院校学生无可比拟的学习优势,我们学院在学生学习的过程中,为调动学生学习的积极性,将学生带到企业有关岗位,如到销售处,现场看我们的销售人员如果对收集来的数据进行处理、加工、整理到提取出有用的信息,将spss软件的应用过程让学生亲身体会,企业导师认真讲解、操作示范,激发了学生的学习兴趣。特别是老师们以通俗易懂的语言对统计方法的核心思想进行系统讲解,辅助以“操作示意图”的方式对SPSS软件的操作进行了详细介绍,带领学生以看图做题的方式非常简单方便地学会用SPSS软件完成各种统计方法的计算工作,面对众多数据,同学们个个都想试试,看看杂乱无章的初始数据,在spss软件的操作下,很快得出自己想要的数据,真的由让他学变成我要学。
3.2 改革考核办法,注重职业能力
随着统计学教学的改革,我们改革了考核办法,引导教师采用过程考核的方式促进学生有效学习。建立了《山东铝业职业学院考试管理规定》和考试模式改革相关通知和制度,使课程考核方式真实反映学生完成实际工作任务能力的最佳方式进行考试。课程考核采用过程考核与结果考核相结合、理论考核与实践考核相结合的模式,每门课程都进行了考核评价方案设计。目前我院财经专业以培养职业能力为核心的教学方法,得到社会承认,培养的学生已获得企业认可。
综上所述,在大数据时代,高职财经学生spss软件的应用学习很好地解决了传统统计学理论与实际相脱节的问题,激发学生的学习兴趣,培养学生解决实际问题的职业能力,有利于推动学生就业。
【摘要】大数据对统计学的发展带来了巨大的机遇与挑战。文章分析了大数据与统计学之间的基本关系,并针对大数据环境下的统计学课程教学提出了对策与建议。
【关键词】大数据 统计学 挑战 机遇 教学
1.引言
“大数据”时代的来临和“大数据”处理技术的发展深深的影响着统计学的发展。能否利用传统的统计理论和统计方法对海量的数据做出快速、准确的处理并获取相关信息?如何对传统的统计理论与方法进行改进或探索新的统计理论和方法来对大数据进行挖掘与处理以获取信息?如何在“大数据”时代背景下培养符合市场需求的统计分析师或数据分析师?如何将“大数据”处理技术融入相关统计学课程教学以促进数据处理与分析技术的发展?这些都是我们在统计学相关课程教学过程中必须思考的一个问题。
2.大数据与统计学
“大数据”随着社交网络、物联网、云计算等的兴起而产生。一般认为大数据具有规模性、多样性、实时性及价值性四个基本特征,包含分析、带宽和内容三个要素。“大数据”在数据来源、数据结构和处理方法方面对传统的统计分析方法产生了冲击。第一,在大数据背景下,数据来源不再是原来的简单抽样,而是“样本即总体”,直接将总体作为研究对象。第二,在大数据时代,研究对象也不是原来单一的结构化数据,由于数据的多样化与规模化,我们更多的是研究非结构数据,采用人工智能来进行数据挖掘和信息获取。第三,数据处理方法也不是简单的采用传统的假设检验方法进行研究,特别是对于统计学中的异常点,不再采取以往的丢弃或者平滑处理方式。
“大数据”处理技术对统计学的发展提出了巨大挑战,但我们必须认识到学科之间的发展是相互交融的,“大数据处理技术”其本质上是数据处理与分析技术,其发展对统计学学科的发展也有积极的一面,同时统计学作为一门独立的学科,有其自身独特的学科优势。首先,海量的数据有利于提高各类统计分析的精度,如减小抽样误差等。其次,较之于传统的统计学方法,现有的“大数据”分析方法难度较大、成本较高、耗时较长。而在实际的应用中,我们关心的不是数据量的多少,而是数据量所蕴含的信息。传统的统计学分析方法是以较少的数据进行精确度相对较高的统计分析,这是“大数据”分析所无法替代的。另一方面,统计学在数据收集方法、模型选择、模型假设以及模型诊断方面有很大优势。而且并不是所有的问题都具有海量的数据,并不是每一个“大数据”问题都适合用现有的“大数据处理技术”来处理。
3.对策与建议
3.1 夯实基础教学
针对以上的分析我们可以看出,大数据对统计学的发展既是机遇,又是挑战。因此我们在教学过程中要夯实统计学基础知识的教学,讲清楚统计学的基本原理与基本方法,特别是数据分析与数据处理的基本原理与方法。对于许多传统领域,如生物、医药以及质量与可靠性工程等,我们面对的多是“小数据”而不是大数据,因此基于样本的统计分析方法仍然是进行此类问题研究的最有效的科学手段。
另一方面,我们要结合大数据技术的特点,对统计学的基本知识进行拓展教育,引导学生思考怎样将已有的统计学基本原理与方法运用到大数据处理的技术研究中。如在大数据环境下怎样进行数据的收集、筛选与甄别、存储与分析等,如何分析并厘清可能的数据来源与范围,如何建立相关指标体系并对数据进行分类,如何制定或调整相应的统计参考标准,以及如何对依靠非传统数据源加工生产的统计数据进行规范的统计推断等。
随着大数据时代的来临,各行各业对具有统计背景知识人才的需求必定越来越多。因此,在统计学教学过程中,一定要结合各专业的特点,特别是“大数据”的特点,切实加强统计学的基础知识教学与拓展教学。
3.2 加强统计学专业软件教学
“大数据”环境下,对统计人才需求也发生了变化。面对海量的数据与多样化的数据,一名合格的统计人才或数据分析人才不单需要良好的统计素养与扎实的统计基础知识,更需要具有数据的存储与整理能力、计算能力以及数据分析与处理能力等。这就要求在教学过程中,加强统计软件或数学软件的教学。
针对传统的“数学证明+手工计算”或“重理论轻专业统计软件”的统计学课程教学模式,可将统计软件或数学软件融入课堂教学并安排一定的课时上机学习统计软件,以此提高学生数据处理能力,加深对统计学基本原理的理解与掌握。
在加强统计软件或数学软件,如SPSS、R、SAS以及Matlab的教学过程中,要摈弃“会软件的操作即会统计技术”的思维,要让学生真正掌握相关操作与相关算法,深入思考算法的实现与相关理论的应用。同时引导学生思考对“大数据处理”的技术要求,包括数据搜集、发掘、存储以及计算分析过程中的算法与设备要求等,引导学生针对大数据进行软件升级与开发。
3.3 突出案例教学与实践教学
大数据的产生和发展源于规模经济问题或超规模经济问题的研究。每一个大数据问题的研究都是与实际经济或社会问题紧密相联的,因此,在实际教学过程中,要突出案例教学与实践教学,由易到难,通过案例教学逐步引入大数据的概念以及大数据处理的基本技术,提高学生的分析全局观以及进行实际数据分析与处理的能力。
教学改革的目的是培养在“大数据”时代背景下,符合市场需求的专业统计人才,而合格的专业统计人才必须具备良好的统计实践能力。案例教学与统计实践活动是培养学生统计实践能力的有效途径。因此,在教学过程中,一方面,教师可融合各种与实际问题相关的案例进行分析和讲解,加深学生对相关统计理论知识的理解,激发学生的学习兴趣,培养学生解决实际问题的能力。另一方面,教师可以组织多种形式的课堂或课堂外的统计实践活动以培养学生统计实践。如,指导学生针对他们感兴趣的与经济、社会发展相关的统计实际问题展开统计研究,设计调查问卷,收集数据、整理和分析数据,撰写研究报告,实现对实际问题的分析和解决等。
4.结束语
总之,在“大数据”环境下我们既要积极面对挑战,又要紧紧抓住机遇,切实结合“大数据”的特点和“大数据处理技术”发展的需求,既加强对传统的统计学方法、统计理论的教学,又积极开展 “大数据“环境下的拓展教学,推动统计学的发展,在数据收集、数据分析以及统计制度等方面进行改革和创新。
阿根廷一直被怀疑有低估其通货膨胀数据的嫌疑,以避免为那些与通货膨胀指数挂钩的政府债券支付高利率。希腊和意大利也被指称在加入欧元区前对预算赤字数据进行过粉饰,这种做法使希腊政府从投资者处获得了较低的借款利率。其他一些国家也常被怀疑对增长数据进行润色。这个名单还可以继续盘点下去,世界各地许多国家都有因战略原因而篡改经济数据的嫌疑,意在吸引投资者或获取较低成本的债务融资。
笔者搜集了100多个国家近20年的国际收支平衡数据,运用统计学对这些数据进行检验。从理论上来说,这些数据的首位数字不应呈均匀分布,而应出现本福特定律所揭示的特殊分布规律。根据本福特统计定律,较小的数值(比如1、2和3)在首位数字中出现的频率应当比较高数值的数字出现的频率高。
由于任何数据只要数量足够大即应符合本福特定律,因此该定律可用于检验自1990年代以来,各国的审计和财务数据是否出现过篡改。我们利用这一方法来检验国际收支平衡标准化数据,发现一系列的国家都谎报了宏观经济数据。尽管这种方法无法使他们查证某一政府具体在哪一时点了虚假信息,但仍可通过某些特征,例如汇率类型或海外资产头寸,来对国家进行分类,从中总结出一定的规律。
谁是做假账的家伙?
第一类不符合本福特定律的国家是采用了“固定汇率”机制的国家,在这类国家中,还有一个子类,即允许资本自由流动的那些国家,其公布的经济数据的统计分布偏离了本福特定律,与标准的分布差距的幅度尤其大。这些国家都有强大的篡改不良数据的诱因,因为其货币一旦受到攻击,就会面临爆发经济危机的高风险。国际收支平衡对于这些国家来说格外重要,因为投资者可以从国际收支平衡推断出该国经济的对外失衡程度――例如国家整体借贷需求以及融资构成、是否出现热钱等。这些问题都会影响该国中央银行在危机状态下保卫其货币的能力。相反,使用浮动汇率制度的国家,其数据分布与本福特定律的吻合程度较高。
另一类首位数字分布异常的国家是那些有“经常账户赤字”的国家,这类国家同样有着对经济数据进行篡改的强大诱因,使其需要对外伪装出稳健的形象。当你向世界其他地区借款时,你不希望自己看起来很惨。类似地,那些在净海外资产项目上负债最多的国家,也有着可疑的数据,可以从中发现同样的问题。从地域上来看,一些非洲国家和中东地区国家的经济数据的首位数字分布也比较引人怀疑,有的拉美国家也是如此。但数据篡改实际上是经济诱因问题,而非文化问题。的确,在经济困难时期,国家经济数据更易遭到篡改。在2008年的最后一个季度,乌克兰和斯洛伐克等国家甚至拒绝公开数据,预防爆发货币危机,避免使已发生的货币危机进一步恶化。
最后,如果数据造假是个普遍现象,那么数字是否还有意义?在任何情况下,投资者对经济数据都会留有戒心,持保留态度。即使是在环境比较透明的西方国家,甚至是经济强健的德国,也会对失业率的定义进行调整,使政府能够好看一点的经济数据。
(作者为巴黎HEC商学院经济学教授)
1 对基线资料进行统计学分析
搜集资料应严密遵守随机抽样设计,保证样本从同质的总体中随机抽取,除了对比因素外,其他可能影响结果的因素应尽可能齐同或基本接近,以保证组间的齐同可比性。因此,应对样本的基线资料进行统计学分析,以证明组间的齐同可比性。
2 选择正确的统计检验方法
研究目的不同、设计方法不同、资料类型不同,选用的统计检验方法则不同。例如:2组计量资料的比较应采用t检验;而多组(≥3组)计量资料的比较应采用方差分析(即F检验),如果组间差异有统计学意义,想了解差异存在于哪两组之间,再进一步做q检验或LSD-t检验。许多作者对多组计量资料进行比较时采用两两组间t检验的方法是错误的。又如:等级资料的比较应采用Ridit分析或秩和检验或行平均得分差检验。许多作者对等级资料进行比较时采用检验的方法是错误的。
3 假设检验的推断结论不能绝对化
假设检验的结论是一种概率性的推断,无论是拒绝H0还是不拒绝H0,都有可能发生错误(Ⅰ型错误和Ⅱ型错误)。因此,假设检验的推断结论不能绝对化。
4 P值的大小并不表示实际差别的大小
研究结论包括统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。P值的大小不能说明实际效果的“显著”或“不显著”。统计结果的解释和表达,应说对比组之间的差异有(或无)统计学意义,而不能说对比组之间有(或无)显著的差异。P≤0.01比P≤0.05更有理由拒绝H0,并不表示P≤0.01时比P≤0.05时实际差异更大。只有将统计结论和专业知识有机地结合起来,才能得出恰如其分的研究结论。若统计结论与专业结论一致,则最终结论也一致;若统计结论与专业结论不一致,则最终结论需根据专业知识而定。判断被试因素的有效性时,要求在统计学上和专业上都有意义。
5 假设检验结果表达
P值传统采用0.05和0.01这2个界值,现在提倡给出P的具体数值和检验统计量的具体数值(小数点后保留3位有效数字),主要理由是:①以前未推广统计软件之前,需要通过查表估计P值,现在使用统计软件会自动给出具体的P值和检验统计量的具体值(t值、F值、χ2值等)。②方便根据具体情况判断问题。例如P = 0.051与P = 0.049都是小概率,不能简单地断定P = 0.051无统计学意义而P = 0.049有统计学意义。③便于对同类研究结果进行综合分析。
6 统计学符号的使用
统计学符号的使用应按照GB3358-82《统计名词及符号》的规定,具体可参阅本刊稿约中的有关要求。