时间:2023-07-24 09:23:24
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇统计学参数概念,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
大学数学教学大纲
课程代码318.009.1编写时间
课程名称数理统计
英文名称Statistics
学分数3周学时3+1
任课教师*徐先进开课院系**数学学院
预修课程
课程性质:
本课程为数学学院本科生开设,是概率论基础的继续,介绍数理统计学的基础知识。
基本要求和教学目的:
课程基本内容简介:
数理统计是一门理论研究与数学实践相结合的学科,它区别于概率论基础部分,不从概率空间出发,而是考虑如何给随机现象装配一个概率空间。
数理统计学研究数据资料的收集、整理、分析和推断,广泛地应用于社会科学、工程技术和自然科学中。
教学方式:
教材和教学参考资料:
作者教材名称出版社出版年月
教材概率论,第二册,数理统计(两分册)人民教育出版社1979
参考资料陈希孺数理统计引论科学出版社1981
峁诗松,王静龙,濮晓龙高等数理统计高等教育出版社,施普林格出版社1998,2003
J.O.BergerStatisticaldecisiontheoryandBayesionanalysis,2ndedition
中译本:贾乃光译,统计决策理论和贝叶斯分析Springer-Verlag,NewYork
中国统计出版社1985
1988
教学内容安排:
第一章引论
本章的教学目的是阐述数理统计学的基本问题,介绍数理统计学的基本概念。指出了现阶段的教学内容是研究如何利用一定的资料对所关心的问题作出尽可能精确可靠的结论,而不是考虑如何设计获得数据的试验。
统计量是从数据中提取信息的工具。本章介绍了两种常用求估计量的方法,介绍了刻画统计量性能的一致最小方差的概念。
§1统计学的基本问题
§2数理统计学的基本概念
§3求估计量的两种常用方法
§4一致最小方差无偏估计
第二章抽样分布
本章假定待研究的母体服从最常见的正态分布,导出了常用统计量,,的分布。本章的结论是对小样本讨论的,由于正态分布的特殊性,它们也可作为大样本情形的极限分布。
本章还介绍了与正态母体相联系的柯赫伦定理与费歇定理。
§1正态母体子样的线性函数的分布
§2分布
§3分布和分布
§4正态母体子样均值和方差的分布
第三章假设检验(I)
本章的教学目的是让学生认识到参数估计、假设检验和区间估计是针对问题的不同性质而作的三种统计推断,掌握并正确理解显著性检验问题的处理步骤。在本章的执行过程中,给出了一些典型的假设检验问题的分析和理解,以帮助学生掌握和运用这一统计思想。
本章介绍了具有一般意义的广义似然比检验。
§1引言
§2正态母体参数的检验
§3正态母体参数的置信区间
§4多项分布的检验
§5广义似然比检验
第四章线性统计推断
本章主要讨论数理统计学中两类重要的问题,线性模型和回归分析,介绍了处理另一类问题的方差分析。在数学过程中,解释了在复杂问题中使用线性模型的合理性,也分析了统计假设在实际问题中的意义。
在本章的执行过程中,比较了回归分析与线性模型的异同点。
§1最小二乘法
§2回归分析
§3方差分析
第五章点估计
本章从理论的角度讨论了一致最小方差无偏估计的性质。介绍了一些寻找一致最小方差无偏估计的方法。
§1最小方差无偏估计
统计学是一门基于试验数据的搜集、整理,对研究目标的统计性质进行分析和推断的学科,更是一门综合运用数学科学、计算机科学、信息学等工具学科、并与自然科学、社会科学相结合的多学科相交叉的边缘学科。在我国,早期的统计学设置比较狭隘,多作为数学学科的概率统计和经济学科的经济统计等子学科。直到 1998年,国家教育部设立了统计学专业[1],2011年颁布的《普通高等学校本科专业目录》更把统计学提升为一级学科!由此可见,统计学的专业地位及其重要性得到了广泛的认可。
与之相反,关于统计学专业教学的研究还处于起步阶段。相比于其他大类专业的教学研究,关于统计专业教学的教学语言设计的研究还未得到深入发展。
教学语言是一类广义的语言,是教学者与教学对象的多种感官的交流;同时,也是一种人文文化的载体,是一种民族文化的展示。教学语言的设计,就是通过调动教学对象的听觉、视觉、感觉等多方面来实现教学目标。
统计学专业的教学语言主要包括:口语语言、文字语言、符号语言、图表语言和肢体语言,本文将从上述五个方面对统计学专业的教学语言设计展开讨论与研究。
一、充分运用口语语言阐述教学内容
口语语言,是教学内容阐述的主要载体之一,是师生之间思想、情感交流的主要工具。由于统计学是与自然科学、社会科学相结合的多学科相交叉的边缘学科,统计学专业教学的口语语言与一般教学的口语语言既有联系,又有区别,主要具有以下特点:
1.对于基础理论的教学,口语语言要准确、规范
由于统计学的基础理论主要是基于各种模型,通过逻辑推导来进行分析和推断,并以高等数学形式来描述,因此相关教学的口语语言应以标准的数学口语语言来准确、规范地阐述相应的数学理论,特别要注意相应的模型理论的提出和逻辑关系的表述、推导等,依此来帮助学生准确地理解、把握统计学的基础理论; 同时,对复杂的逻辑关系及符号含义,要做出准确的表述,帮助学生在有限的课堂教学时间内了解、体会相应的含义,并能进行熟练、独立的运用。
2.对于后续课程的具体教学内容,口语语言要亲切、生动
在针对特定的知识点的教学过程中,教师要通过口语设计,把抽象的数学理论转换为具体的形象感觉,并结合适当的现实案例加以说明。特别是抽象的概念,比如随机过程中“下鞅”、“上鞅”、“鞅”以及“遍历性”等概念,要努力避免平铺直叙、照本宣科地进行授课,而是把该概念与日常实例相结合。
该定理是其后重要结论的基础,具有重要意义,但其证明太过数学化,因此在课堂教学中,并不进行证明,而采用简明的语言来进行说明。对第一个不等式,可以强调为“在每个样本点上,取所有随机变量的最小值,做成一个新的随机变量,它的均值不会大于所有随机变量先做平均再取最小的那个值”,即“最小值的期望,小于等于期望的最小值”;从而整个定理叙述为“最小值的期望,小于等于期望的最小值,小于等于期望的最大值,小于等于最大值的期望”。
由此可见,在课堂教学过程中,通过语言设计来调动学生的积极性,再结合语音、语调、语速等变化来突出重点、强调难点、控制教学节奏,可以让学生更好地理解具体教学内容。
二、准确运用文字语言刻画基本内容
文字语言,是教学内容可视化的主要载体之一,是学生明确认知教学内容的主要途径。统计学专业教学的文字语言的“准确性”,应具有如下特点:
1.对于基础理论的教学,注重文字语言的“数学性”
由于统计学是以数学理论为基础的,因此,文字语言要符合数学描述的一般要求;同时,也要注重结合教学目的,进行适当的调整来强调重点。
比如,统计量的定义:“设x1,x2,…,xn为取自某总体的样本,若样本函数T=Tx1,x2,…,xn中不含有任何未知参数,则称T为统计量”。在该定义中,应当注意三个非常重要的细节:“x1,x2,…,xn”、“任何”和“未知”。如果在教学过程中,不强调这几个细节,就可能忽略了小标“n”这个已知参数,从而产生对统计量概念的混淆,影响对统计量“样本均值”的认识。
2.对于后续课程的案例教学,强调文字语言的“概括性”
统计学处理的是实际的、非数学的对象,特别是一些来自社会经济活动的、真实物理环境的或现实遗传学科的具体实例。此时的文字语言,不仅要具有抽象性,抛弃不必要、不相关的、过多的背景描述,还要朴实易懂,最大限度地概括试验的理论背景、数据的研究意义。其意义在于,既利于学生理解研究的问题,明确研究的目标,同时也为学生的思考留出相应的空间。
三、简明地运用符号语言,压缩复杂意义
符号,是一些基本概念、基本性质、运算法则的缩写;符号语言,就是利用基本符号,以简单、明确和形式化的方式来简化复杂关系及大量文字性描述。在形式上,符号语言可以简化计算和推理过程,明确其中的逻辑过程,展现其抽象性;在意义上,通过结合具体试验背景,符号语言精练了相关信息的描述,体现其简洁性。由此可见,符号语言对相应学科的发展、传播和普及都有重要的推动作用。
对统计学专业而言,其基础理论部分的符号语言基本与高等数学的符号语言是相似的,因此,在教学过程中,教师要有意识地训练学生对符号的灵活运用,并提及相应符号的意义。
对统计专业低年级学生,教师要通过符号语言的设计,消除学生对符号的陌生感,使学生牢固地掌握各类符号的意义,熟练地运用各类符号描述相对复杂的含义,并将复杂的文字性描述利用符号来进行简化描述,进而培养学生利用符号语言来压缩复杂意义的能力。
例如,在概率统计中,随机变量的期望EX是一个重要概念,通过不同的角度可以得到不同形式的符号描述。在符号语言下,概率空间记为Ω,F,P,随机变量记为X,对应的密度函数和分布函数分别记为px和Fx,从而随机变量的数学期望EX有如下表述记为
其中,EX是数学期望(expectation)的符号,第一个等式为实空间R中的数学期望描述,这是一般概率论中的结论;第二个等式为实空间中的一般随机变量的数学期望表达式;第三个等式则为在概率空间Ω,F,P中的描述形式,是Riemann-Stieltjes积分,这是在随机分析范围下常用的描述方式。因此,在教学过程中,教师应强调上述关系式的意义及使用范围。
再如Lindeberg-Levy中心极限定理:设{Xi}∞i=1是相互独立、同分布的随机变量序列,且EXi=μ,VarXi=σ2& gt;0都存在;若记Y*n = X1 + X2 + 上述定理中的符号沿袭了高等数学的符号方式,同时,将σn改写为nσ2,其目的在于强调正态分布关于参数μ和σ2的依赖关系。强调这种依赖关系,有利于学生对正态分布的掌握,进一步明确随机变量与其特征参数的关系,也为后续其他重要分布和统计量的学习奠定基础。
对统计学专业高年级的学生,教师要注意引导学生基于基本符号,在特定的实际问题中,创造性地定义一些新符号,并赋予明确的含义,从而把特定问题进行符号化描述,简化统计分析、推断过程。这里需要注意的是,所定义的新符号首先要遵循一般的符号原理与意义,不只是符号的数学意义,还有在特定问题下的符号意义;其次,满足问题分析的需要,充分利用特有名词的缩写、符号的上、下标等。
比如,在回归分析中,基于多变量的多项式回归模型中,因变量y关于自变量x1,x2的二元二次回归模型为:y = β0 + β1 x1 + β2 x2 + β11 x21 + β22 x22 + β12 x1 x2 + ε。在该表达式中,β的小标1、2分别代表与变量x1,x2有关,而重复出现的次数则表征了相应变量的阶数。因此,建议在教学过程中,对该类下表可以进行改进,比如将β12改记为β1,2,即下标中的“12”改为“1,2”,通过添加“,”进一步明晰变量的交互关系。
四、合理运用图表语言,明晰基本关系
图表语言,是利用图像、表格等直观的形象来描述复杂的概念、关系以及抽象数据所具有的含义。与符号语言的简洁和抽象相比,图表语言更具形象、直观的特性,能记录数量变化趋势、表达变量之间的关系以及展现概念之间的相关关系,因此,在统计学专业教学中,图表语言具有非常重要的意义与作用。
1.数据图表,记录数量变化趋势
数据图表,主要是对试验结果所获得的数据的形象表达,比如某地区的生产总值、居民消费额、空气中污染物含量等具体数据的excel表格或柱状图,以及对抽象数据处理之后所形成的频数直方图、频率直方图、盒子图等。依据不同的目的,选用不同的数据图表来说明进行统计分析的依据,并掌握进行统计推断的方向。
2.分析图表,表达变量之间的关系
分析图表,主要是指基于概率论与统计分析所得到的分析结论的图表,目的在于展示分析结论,进而解释变量关系。主要包括:(1)教材所附的典型分布的分布表,如正态分布表、F分布表、t分布表等;(2)数据分析表,如回归分析中所得到的Model Summery、ANVOA、Coefficients等;(3)结论预测表,如变量拟合图、时间序列分析表等。
3.关系图表,展现概念之间的相关关系
关系图表,主要是指为了那些抽象描述多个概念之间的相关关系,是对各种概念、方法、思想等的总体描述。从大的角度上讲,借助于关系图表,学生对统计学的发展、不同统计思想与方法间的异同等方面,会形成整体认识,常见于导论一类课程。从小的角度上讲,通过建立关系图表,学生可以进一步区分具体的概念,深化知识点的理解和运用。
五、巧妙运用肢体语言,深化教学效果
肢体语言,主要是指教师在教学过程中通过动作、姿势、表情等肢体的动作和变化来传达教学内容、实现教学目的的行为。首先,肢体语言具有形象、生动、操作性强;其次,易于学生的模仿与体会,以形成对抽象概念的形象认识;再次,可以很好地控制教学进程,如加速新课程的引入、教学内容的转换等。同时,可以活跃课堂气氛,调动学生的积极性,传递教师对学生的关怀。
总之,教学设计是指为实现教学目标,教师依据学习原理和教学理论,对各个环节进行具体计划,进而形成完整、有效的教学方案的过程。为了充分、有效地利用课堂教学,教师应该运用多种方法和技巧来实现与学生的交流。因此,教学语言的设计就显得更为重要。通过不断地研究与实践,教师的教学语言设计能力将会得以丰富和提高,取得事半功倍的效果。
随着社会的发展,大数据时代的到来,统计思想与技术日益受到重视,统计人才更是供不应求。为更好地培养社会所需的专业技术人才,作为统计学专业的教师,在日常的教学过程中,应该深刻地考虑教学语言的设计,从而更好地实现教学目标,努力做到知识、技术、思想的传播,也做到人文关怀的传承,培养出一批具有社会责任感的专业人才。
对专门从事相应的统计工作的人来说,有效掌握最基本的统计方式对其发展有着十分重要的影响意义,并且数理统计这门学科不同于一般统计形式,数理统计更加注重应用随机变化的方式。在实际环境中允许的观察是非常有限的,因此在数理统计中占据的份额非常小。在数理统计学中仅抽取一部分对象进行观察研究,这样就能够获取推断的总体,并且这也是数理统计中较为基本的方式。数理统计的研究形式,主要是随着科学技术与生产形式发展逐步扩大的,将其有效概括起来就能够被分为两种:一种是研究怎么样对随机产生的现象进行观察实验,这样就能够获取具有代表性的内容,这一部分的内容就是描述统计学;另一种就是统计推断的内容,这一部分主要是对已经获取的抽样内容进行整理分析,之后就能够推测其规律性,这一部分实际上属于推断统计学。推断统计学的应用范围十分广泛,其中涉及的概念较为广泛,并且研究对象是随机抽取完成的,其应用概念较为新颖,不仅涉及各行各业的发展问题,并且应用的数学知识较为广泛,大部分初学者并不能够找到较好的学习形式以及解决方式,学习起来难度较大,所以,想要有效掌握数理统计学知识内容并不容易。
二、数理统计学的主要内容与研究形式数理统计学中推断
统计学内容被分为两个方面内容,其中一项就是抽样分布,在这一部分中首先需要研究抽样分布,弄清楚抽样分布的基本概念,也就是总体、样本以及统计量方面的内容。并且推断统计中常用的分布形态有t分布、F分布等,后面分布内容主要是受到正态统计影响的,这些内容都是随着变量函数分布变化的。在抽样分布状态中一定要有效领会它们之间的概念,掌握各种分布曲线状态特点,熟练概率分布表的使用;其次,就是统计估值以及假设检验,这一部分内容主要是数理统计学习中重难点问题。并且统计估值主要包含区间估计与点估计方面的内容。假设检验中包含的内容较多,就能够将其划分为非正态总体与正态总体方面的内容,就其划分内容包含总体参数与概率分布方面的内容,并且这两个总体中包含多个总体假设检验,概率检验分布也分为不同发展形势,从这一点来看,其内容较为繁杂,不容易进行改良。但是,在现实生活环境中,一些随机现象对应产生的随机变量大多数都是服从正常分布状况进行,对于一些不能够服从正态分布的随机变量来说,其对应大样本也能够依照服从正态分布状况进行。
三、总结
自从Paelinck提出“空间经济计量学”这个术语,Cliff和Ord(1973,1981)对空间自回归模型的开拓性工作,发展出广泛的模型、参数估计和检验技术,使得经济计量学建模中综合空间因素变得更加有效。
Anselin(1988)对空间经济计量学进行了系统的研究,它以及Cliff和Ord(1973,1981)这三本著作至今仍被广泛引用。Anselin对空间经济计量学的定义是:“在区域科学模型的统计分析中,研究由空间引起的各种特性的一系列方法。”Anselin所提到的区域科学模型,指明确将区域、位置及空间交互影响综合在模型中,并且它们的估计及确定也是基于参照地理的(即:截面的或时-空的)数据,数据可能来自于空间上的点,也可能是来自于某个区域,前者对应于经纬坐标,后者对应于区域之间的相对位置。
国外近几年空间经济计量学得以迅速发展,如Anselin和Florax(1995)指出的,主要得益于以下几点:
(1)人们对于空间及空间交互影响的作用的重新认识。对空间的重新关注并不局限于经济学,在其它社会科学中也得以反映。
(2)与地理对应的社会经济大型数据库的逐步实用性。在美国以及欧洲,官方统计部门提供的以区域和地区为统计单元的大型数据库很容易得到,并且价格低廉。这些数据可以进行空前数量的截面或时空观测分析,这时,空间(或时空)自相关可能成为标准而非一种特殊情况。
(3)地理信息系统(GIS)和空间数据分析软件,以高效和低成本的计算技术处理空间观测的发展。GIS的使用,允许地理数据的有效存储、快速恢复及交互可视化,为空间分析技术的艺术化提供了巨大的机会。至少目前线性模型中,缺少针对空间数据和空间经济计量学的软件的情况已经大为改观。目前已有一些专门的空间统计分析软件,并且SAS、S-PLUS等著名统计软件中,都已经包括用于空间统计分析的模块。
(二)空间经济计量学与相关学科的关系
空间统计学是研究空间问题的另一门学科,它是应用数学的一个快速发展的分支。它起源于20世纪50年代早期,用以帮助采矿业进行矿藏量的计算。最早的工作是采矿工程师D.G.Krige和统计学家H.S.Sichel在南非进行的。70年代随着计算机的普及以及运算速度的大幅提高,空间统计分析技术逐渐扩展到地球科学的其它领域。目前已经普遍存在于需要处理时间上或空间上相关的数据的科技领域中。
空间经济计量学与空间统计学的区分不太容易。Haining和Anselin的观点认为空间统计学的研究大多由数据驱动,而空间经济计量学由模型驱动,即从特定的理论或模型出发,重点放在问题的估计、解释和检验上。空间统计学的主流是研究生态学和地质学中的物质现象,空间经济计量学主要研究与区域及城市经济有关的模型。有一种观点认为二者的区分应基于作者将其工作对应于空间经济计量学还是空间统计学,这种区分办法可能较为简单。
地质统计学(Geostatistics)发展于20世纪60年代,主要用于研究地质学现象的空间结构和进行空间估值。例如,在探矿过程中,通常是在空间上布点进行钻探,然后对采样得到的样品进行分析,估计矿藏的分布和储量。由于矿藏不开采的话,在时间上结构几乎是不变的,因此地质统计学研究的问题主要是空间相关。空间经济计量学所研究的问题不仅存在空间相关,往往所研究的问题在时间上也存在相关。
在区域经济学的理论中,人们建立了各种理论以及关系式来描述人类在空间上的行为,如研究城镇问题的“引力模型”等。但在利用模型进行定量研究问题的时候,需要将理论或关系式用数学模型来进行刻划,利用统计方法对模型进行估计、检验,并进行评价,这些正好是属于经济计量学研究的范畴。应该说,空间经济计量学主要研究区域经济问题,依据的是区域经济学理论,但它还需要综合数学,以及空间统计学等学科,因此它不等同于区域经济学,而是一门交叉学科。
二、研究的问题
空间经济计量学主要研究存在空间效应的问题。空间效应主要包括空间相关和空间差异性。在研究中涉及空间相邻、空间相邻矩阵等概念。
(一)空间相关
空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即
附图
存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按省、市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。
对于空间相关,空间自回归通常是其核心内容,空间自回归模型的一般形式为:
附图
在这个模型中,β解释变量X(n×k矩阵)的参数向量(k×1),ρ是空间滞后相关变量的参数,λ是残差空间自回归(空间AR)结构中的参数。
W[,1]和W[,2]为n×n矩阵,是标准化或未标准化的空间加权矩阵,分别对应于因变量以及扰动项中的空间自回归过程,这两个矩阵可以不同,这意味着两个过程由不同的空间结构生成。
这个模型可以退化成为普通的线性回归模型、(纯)空间自回归模型、混合回归与空间自回归模型、残差空间自回归模型等形式。
对这个模型,普通最小二乘估计不仅是有偏的,而且是不一致的,参数的估计通常采用极大似然估计,近几年,有学者尝试采用贝叶斯估计对参数进行估计。
(二)空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。
研究空间差异性的模型主要有:
E.Casetti提出的空间扩展模型(1972)和回归参数漂移分析方法(简称DARP)模型(1982)。这时,空间差异性表现为模型参数随空间位置变化,并以空间单元的位置信息作为辅助变量(称为扩展参数)。
y=Xβ+ε
附图
模型(3)为以经纬坐标(Z[,x],Z[,y])作为扩展参数的空间扩展模型。同样可以以到中心区域的距离作为扩展参数设计模型。
将模型(3)的第二个式子右边加入随机扰动项,则为DARP模型。E.Casetti(1992)进一步提出了贝叶斯空间扩展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;Martin Charlton(1996),提出地理加权回归模型(简称GWR模型)。
附图
(三)时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。如果数据不存在空间相关,则可以采用Panel Data模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR模型。
三、应用前景及需要进一步研究的问题
(一)在中国的应用前景
在我国,地质统计学是较早应用空间统计学的领域,在20世纪80年代中国科学院就有人研究并应用Krige模型。空间统计学除了在地质学的研究中发挥作用,近十年来,周国法、徐汝梅等学者研究生态学中的空间相互作用,并于1998年出版了《生物地理统计学》。20世纪80年代以来,我国利用卫星遥感技术,对土地、森林、农业、矿产、能源、作物估产、灾患检测等进行应用,开始了我国空间统计学在经济领域应用中统计调查的工作,为了将空间遥感调查技术逐步纳入到我国统计的常规性工作中,1998年10月,国家统计局成立了空间统计研究室,并与中国科学院地理所合作,组成了“空间信息多重采样设计的空间统计学应用研究”课题组,运用遥感技术和空间分析对我国农业耕地、森林、草地等资源以及城镇动态变化进行调查,该项目获得国家统计局2000年课题研究一等奖。
在我国地质统计学、生物地理统计学及利用遥感技术进行的各种调查,都属于空间统计学的范畴。地质统计学、生物地理统计学主要研究空间相关及空间估值,在生物地理统计学的研究中还包括物种的空间扩散过程。所用的方法主要是各种Krige模型、方差图模型,以及空间自回归模型。空间动态采样的研究,与地质矿产调查类似,主要涉及样本在空间上的布局、有效样本量的确定、采样误差的计算等问题的研究,根据其研究的问题和方法,也可以将其归入统计学的抽样调查分支之中。
随着我国按地区进行统计的统计基础资料不断积累,尤其是遥感技术应用到统计调查中来,都将使得按时间和空间排列的数据资料极为丰富,对数据进行空间甚至时空分析成为可能,人们将逐渐从时间的角度转向普遍从时空的角度来考虑问题。
从经济分析的角度看,空间经济计量学在我国以下几个方面将有很大的应用前景。
由于区域之间存在相关性,或者存在差异性,因此一项政策对每个区域的影响是不同的,通过运用空间经济计量学方法对各区域进行研究之后,找到政策在各区域上作用的关系,对于政府决策、正确制订政策具有很大的参考价值。
由于区域之间存在先进地区和后进地区,通过空间经济计量学方法可以对先进地区与后进地区之间的相互关系进行研究。
按区域编制投入产出表时,空间的概念将发挥作用。
对房地产的价值进行评估时,在考虑外界影响因素的基础上,充分考虑地区之间的相互关系,将对正确评估房地产的价值有很大帮助。
对环境污染进行研究时,运用空间经济计量学方法对污染的传播方式进行研究,有助于人们对环境污染进行控制。
在交通领域的研究,可以利用空间经济计量学方法对人员、货物在空间上的流动方式进行研究,同时对通道上的不同区段进行研究。
在对某种疾病(如流感)在空间上的传播过程进行研究之后,对于疾病的预防控制将有很大的帮助。
建立了空间的概念之后,人们对于在空间上的抽样将综合考虑空间单元之间的相关性。而空间抽样在空间上的布点方式也可以用作商业网点的布局研究。
总之,只要问题涉及到空间的概念,空间经济计量学就将发挥其作用。对空间经济计量学的深入研究及应用,将促使人们面对问题的时候,从空间或时空的角度思考问题。
(二)需要进一步研究的问题
目前的研究中,系统内的空间单元受到系统内其它位置单元的影响,但边界处的单元还受到系统外与之相邻的单元的影响,如何将这个影响考虑在模型中值得研究。
在具体问题中,距离的概念需要加以认真对待,单用地理上的距离有时并不合适,例如国与国之间的经济联系在今天并不是距离远近决定的,电子化交易使得资金的流动非常迅速方便,因此,在研究这类问题时,如何将贸易、人员、资金的流动充分考虑到空间加权矩阵中去,尚值得研究。
贝叶斯方法在统计学各个分支的应用越来越广,空间贝叶斯模型也是目前空间经济计量学研究的热点之一。
可变单元的问题。当数据汇总的级别变化,可能整个模型的描述都发生变化,对于不同的问题,可能影响模型变化的汇总的级别也不同,能否有一个统一的模式对系统进行描述尚待进一步研究。
时空数据的综合分析,参数估计的渐近性质,模型的各种检验方法等,还有待进一步的研究。
经济问题中,许多需要研究的对象是多维的,即研究对象是一个向量,如何在空间问题中建立一系列空间VAR模型,尚需研究。
不易获得较为详细且价格低廉的区域统计数据,将大大限制空间经济计量学模型的应用。建立我国区域统计数据库,要求价格低廉且方便实用,是摆在统计工作者面前的一个重要课题。
【责任编辑】彭非
【参考文献】
1 Anselin,L.1988.Spatial Econometrics.Methods and Models,Dordrecht Kluwer Academic
Publishers.
2 Anselin,L.and R.J.G.M.Florax ed.1995.New Directions inSpatial Econometrics,Springer-Verlag.
3 Brundson,C.,A.S.Fotheringham,and M.E.Chalton.1996."Geographically Weighted
Regression:A Method for ExploringSpatial Nonstationarity,"Geographical Analysis,
Vol.28,p281-298.
4 Brunsdon,C.,A.S.Fotheringham,and M.E.Chalton.1999."SomeNotes on Parametric
Significance Tests for GeographicallyWeighted Regression,"Journal of Regional
Science,Vol.39,No.3,p497-524.
5 Casetti,E.1972."Generating Models by Expansion Method:Applications to Geographic
Research,"Geographical Analysis,Vol.4,p81-91.
6 Casetti,E.1982."Drift Analysis of Regression Parameters:An Application to the
Investigation of Fertility ofFertility Development Relations,"Modeling and Simulation
13,p961-966.
7 Casetti,E.1992."Bayesian Regression and the ExpansionMetod,"Geographical
Analysis,Vol.24,p58-74.
8 Cliff,A.D.and J.K.Ord.1981.Spatial Processes:Models andApplications,Pion.
9 Haining,R.P.Spatial Data Analysis in the Social andEnvironmental Science,Cambridge
University Press.1990.
10 Paelinck,Jean H.P.and Leo H.Klaassen.1979.SpatialEconometrics,Saxon House,
Teakfield Ltd.
11 庄大方,张稳,罗建国.土地资源遥感调查中的空间信息多重采样框架设计与GIS实现,统计研究,1999年第1期.
自从Paelinck提出“空间经济计量学”这个术语,Cliff和Ord(1973,1981)对空间自回归模型的开拓性工作,发展出广泛的模型、参数估计和检验技术,使得经济计量学建模中综合空间因素变得更加有效。
Anselin(1988)对空间经济计量学进行了系统的研究,它以及Cliff和Ord(1973,1981)这三本著作至今仍被广泛引用。Anselin对空间经济计量学的定义是:“在区域科学模型的统计分析中,研究由空间引起的各种特性的一系列方法。”Anselin所提到的区域科学模型,指明确将区域、位置及空间交互影响综合在模型中,并且它们的估计及确定也是基于参照地理的(即:截面的或时-空的)数据,数据可能来自于空间上的点,也可能是来自于某个区域,前者对应于经纬坐标,后者对应于区域之间的相对位置。
国外近几年空间经济计量学得以迅速发展,如Anselin和Florax(1995)指出的,主要得益于以下几点:
(1)人们对于空间及空间交互影响的作用的重新认识。对空间的重新关注并不局限于经济学,在其它社会科学中也得以反映。
(2)与地理对应的社会经济大型数据库的逐步实用性。在美国以及欧洲,官方统计部门提供的以区域和地区为统计单元的大型数据库很容易得到,并且价格低廉。这些数据可以进行空前数量的截面或时空观测分析,这时,空间(或时空)自相关可能成为标准而非一种特殊情况。
(3)地理信息系统(GIS)和空间数据分析软件,以高效和低成本的计算技术处理空间观测的发展。GIS的使用,允许地理数据的有效存储、快速恢复及交互可视化,为空间分析技术的艺术化提供了巨大的机会。至少目前线性模型中,缺少针对空间数据和空间经济计量学的软件的情况已经大为改观。目前已有一些专门的空间统计分析软件,并且SAS、S-PLUS等著名统计软件中,都已经包括用于空间统计分析的模块。
(二)空间经济计量学与相关学科的关系
空间统计学是研究空间问题的另一门学科,它是应用数学的一个快速发展的分支。它起源于20世纪50年代早期,用以帮助采矿业进行矿藏量的计算。最早的工作是采矿工程师D.G.Krige和统计学家H.S.Sichel在南非进行的。70年代随着计算机的普及以及运算速度的大幅提高,空间统计分析技术逐渐扩展到地球科学的其它领域。目前已经普遍存在于需要处理时间上或空间上相关的数据的科技领域中。
空间经济计量学与空间统计学的区分不太容易。Haining和Anselin的观点认为空间统计学的研究大多由数据驱动,而空间经济计量学由模型驱动,即从特定的理论或模型出发,重点放在问题的估计、解释和检验上。空间统计学的主流是研究生态学和地质学中的物质现象,空间经济计量学主要研究与区域及城市经济有关的模型。有一种观点认为二者的区分应基于作者将其工作对应于空间经济计量学还是空间统计学,这种区分办法可能较为简单。
地质统计学(Geostatistics)发展于20世纪60年代,主要用于研究地质学现象的空间结构和进行空间估值。例如,在探矿过程中,通常是在空间上布点进行钻探,然后对采样得到的样品进行分析,估计矿藏的分布和储量。由于矿藏不开采的话,在时间上结构几乎是不变的,因此地质统计学研究的问题主要是空间相关。空间经济计量学所研究的问题不仅存在空间相关,往往所研究的问题在时间上也存在相关。
在区域经济学的理论中,人们建立了各种理论以及关系式来描述人类在空间上的行为,如研究城镇问题的“引力模型”等。但在利用模型进行定量研究问题的时候,需要将理论或关系式用数学模型来进行刻划,利用统计方法对模型进行估计、检验,并进行评价,这些正好是属于经济计量学研究的范畴。应该说,空间经济计量学主要研究区域经济问题,依据的是区域经济学理论,但它还需要综合数学,以及空间统计学等学科,因此它不等同于区域经济学,而是一门交叉学科。
二、研究的问题
空间经济计量学主要研究存在空间效应的问题。空间效应主要包括空间相关和空间差异性。在研究中涉及空间相邻、空间相邻矩阵等概念。
(一)空间相关
空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即
存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按省、市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。
对于空间相关,空间自回归通常是其核心内容,空间自回归模型的一般形式为:
在这个模型中,β解释变量X(n×k矩阵)的参数向量(k×1),ρ是空间滞后相关变量的参数,λ是残差空间自回归(空间AR)结构中的参数。
W[,1]和W[,2]为n×n矩阵,是标准化或未标准化的空间加权矩阵,分别对应于因变量以及扰动项中的空间自回归过程,这两个矩阵可以不同,这意味着两个过程由不同的空间结构生成。
这个模型可以退化成为普通的线性回归模型、(纯)空间自回归模型、混合回归与空间自回归模型、残差空间自回归模型等形式。
对这个模型,普通最小二乘估计不仅是有偏的,而且是不一致的,参数的估计通常采用极大似然估计,近几年,有学者尝试采用贝叶斯估计对参数进行估计。
(二)空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。
研究空间差异性的模型主要有:
E.Casetti提出的空间扩展模型(1972)和回归参数漂移分析方法(简称DARP)模型(1982)。这时,空间差异性表现为模型参数随空间位置变化,并以空间单元的位置信息作为辅助变量(称为扩展参数)。
y=Xβ+ε
模型(3)为以经纬坐标(Z[,x],Z[,y])作为扩展参数的空间扩展模型。同样可以以到中心区域的距离作为扩展参数设计模型。
将模型(3)的第二个式子右边加入随机扰动项,则为DARP模型。E.Casetti(1992)进一步提出了贝叶斯空间扩展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon
,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回归模型(简称GWR模型)。
(三)时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。如果数据不存在空间相关,则可以采用PanelData模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR模型。
三、应用前景及需要进一步研究的问题
(一)在中国的应用前景
在我国,地质统计学是较早应用空间统计学的领域,在20世纪80年代中国科学院就有人研究并应用Krige模型。空间统计学除了在地质学的研究中发挥作用,近十年来,周国法、徐汝梅等学者研究生态学中的空间相互作用,并于1998年出版了《生物地理统计学》。20世纪80年代以来,我国利用卫星遥感技术,对土地、森林、农业、矿产、能源、作物估产、灾患检测等进行应用,开始了我国空间统计学在经济领域应用中统计调查的工作,为了将空间遥感调查技术逐步纳入到我国统计的常规性工作中,1998年10月,国家统计局成立了空间统计研究室,并与中国科学院地理所合作,组成了“空间信息多重采样设计的空间统计学应用研究”课题组,运用遥感技术和空间分析对我国农业耕地、森林、草地等资源以及城镇动态变化进行调查,该项目获得国家统计局2000年课题研究一等奖。
在我国地质统计学、生物地理统计学及利用遥感技术进行的各种调查,都属于空间统计学的范畴。地质统计学、生物地理统计学主要研究空间相关及空间估值,在生物地理统计学的研究中还包括物种的空间扩散过程。所用的方法主要是各种Krige模型、方差图模型,以及空间自回归模型。空间动态采样的研究,与地质矿产调查类似,主要涉及样本在空间上的布局、有效样本量的确定、采样误差的计算等问题的研究,根据其研究的问题和方法,也可以将其归入统计学的抽样调查分支之中。
随着我国按地区进行统计的统计基础资料不断积累,尤其是遥感技术应用到统计调查中来,都将使得按时间和空间排列的数据资料极为丰富,对数据进行空间甚至时空分析成为可能,人们将逐渐从时间的角度转向普遍从时空的角度来考虑问题。
从经济分析的角度看,空间经济计量学在我国以下几个方面将有很大的应用前景。
由于区域之间存在相关性,或者存在差异性,因此一项政策对每个区域的影响是不同的,通过运用空间经济计量学方法对各区域进行研究之后,找到政策在各区域上作用的关系,对于政府决策、正确制订政策具有很大的参考价值。
由于区域之间存在先进地区和后进地区,通过空间经济计量学方法可以对先进地区与后进地区之间的相互关系进行研究。
按区域编制投入产出表时,空间的概念将发挥作用。
对房地产的价值进行评估时,在考虑外界影响因素的基础上,充分考虑地区之间的相互关系,将对正确评估房地产的价值有很大帮助。
对环境污染进行研究时,运用空间经济计量学方法对污染的传播方式进行研究,有助于人们对环境污染进行控制。
在交通领域的研究,可以利用空间经济计量学方法对人员、货物在空间上的流动方式进行研究,同时对通道上的不同区段进行研究。
在对某种疾病(如流感)在空间上的传播过程进行研究之后,对于疾病的预防控制将有很大的帮助。
建立了空间的概念之后,人们对于在空间上的抽样将综合考虑空间单元之间的相关性。而空间抽样在空间上的布点方式也可以用作商业网点的布局研究。
总之,只要问题涉及到空间的概念,空间经济计量学就将发挥其作用。对空间经济计量学的深入研究及应用,将促使人们面对问题的时候,从空间或时空的角度思考问题。
(二)需要进一步研究的问题
目前的研究中,系统内的空间单元受到系统内其它位置单元的影响,但边界处的单元还受到系统外与之相邻的单元的影响,如何将这个影响考虑在模型中值得研究。
在具体问题中,距离的概念需要加以认真对待,单用地理上的距离有时并不合适,例如国与国之间的经济联系在今天并不是距离远近决定的,电子化交易使得资金的流动非常迅速方便,因此,在研究这类问题时,如何将贸易、人员、资金的流动充分考虑到空间加权矩阵中去,尚值得研究。
贝叶斯方法在统计学各个分支的应用越来越广,空间贝叶斯模型也是目前空间经济计量学研究的热点之一。
可变单元的问题。当数据汇总的级别变化,可能整个模型的描述都发生变化,对于不同的问题,可能影响模型变化的汇总的级别也不同,能否有一个统一的模式对系统进行描述尚待进一步研究。
时空数据的综合分析,参数估计的渐近性质,模型的各种检验方法等,还有待进一步的研究。
自从Paelinck提出“空间经济计量学”这个术语,Cliff和Ord(1973,1981)对空间自回归模型的开拓性工作,发展出广泛的模型、参数估计和检验技术,使得经济计量学建模中综合空间因素变得更加有效。
Anselin(1988)对空间经济计量学进行了系统的研究,它以及Cliff和Ord(1973,1981)这三本著作至今仍被广泛引用。Anselin对空间经济计量学的定义是:“在区域科学模型的统计分析中,研究由空间引起的各种特性的一系列方法。”Anselin所提到的区域科学模型,指明确将区域、位置及空间交互影响综合在模型中,并且它们的估计及确定也是基于参照地理的(即:截面的或时-空的)数据,数据可能来自于空间上的点,也可能是来自于某个区域,前者对应于经纬坐标,后者对应于区域之间的相对位置。
国外近几年空间经济计量学得以迅速发展,如Anselin和Florax(1995)指出的,主要得益于以下几点:
(1)人们对于空间及空间交互影响的作用的重新认识。对空间的重新关注并不局限于经济学,在其它社会科学中也得以反映。
(2)与地理对应的社会经济大型数据库的逐步实用性。在美国以及欧洲,官方统计部门提供的以区域和地区为统计单元的大型数据库很容易得到,并且价格低廉。这些数据可以进行空前数量的截面或时空观测分析,这时,空间(或时空)自相关可能成为标准而非一种特殊情况。
(3)地理信息系统(GIS)和空间数据分析软件,以高效和低成本的计算技术处理空间观测的发展。GIS的使用,允许地理数据的有效存储、快速恢复及交互可视化,为空间分析技术的艺术化提供了巨大的机会。至少目前线性模型中,缺少针对空间数据和空间经济计量学的软件的情况已经大为改观。目前已有一些专门的空间统计分析软件,并且SAS、S-PLUS等著名统计软件中,都已经包括用于空间统计分析的模块。
(二)空间经济计量学与相关学科的关系
空间统计学是研究空间问题的另一门学科,它是应用数学的一个快速发展的分支。它起源于20世纪50年代早期,用以帮助采矿业进行矿藏量的计算。最早的工作是采矿工程师D.G.Krige和统计学家H.S.Sichel在南非进行的。70年代随着计算机的普及以及运算速度的大幅提高,空间统计分析技术逐渐扩展到地球科学的其它领域。目前已经普遍存在于需要处理时间上或空间上相关的数据的科技领域中。
空间经济计量学与空间统计学的区分不太容易。Haining和Anselin的观点认为空间统计学的研究大多由数据驱动,而空间经济计量学由模型驱动,即从特定的理论或模型出发,重点放在问题的估计、解释和检验上。空间统计学的主流是研究生态学和地质学中的物质现象,空间经济计量学主要研究与区域及城市经济有关的模型。有一种观点认为二者的区分应基于作者将其工作对应于空间经济计量学还是空间统计学,这种区分办法可能较为简单。
地质统计学(Geostatistics)发展于20世纪60年代,主要用于研究地质学现象的空间结构和进行空间估值。例如,在探矿过程中,通常是在空间上布点进行钻探,然后对采样得到的样品进行分析,估计矿藏的分布和储量。由于矿藏不开采的话,在时间上结构几乎是不变的,因此地质统计学研究的问题主要是空间相关。空间经济计量学所研究的问题不仅存在空间相关,往往所研究的问题在时间上也存在相关。
在区域经济学的理论中,人们建立了各种理论以及关系式来描述人类在空间上的行为,如研究城镇问题的“引力模型”等。但在利用模型进行定量研究问题的时候,需要将理论或关系式用数学模型来进行刻划,利用统计方法对模型进行估计、检验,并进行评价,这些正好是属于经济计量学研究的范畴。应该说,空间经济计量学主要研究区域经济问题,依据的是区域经济学理论,但它还需要综合数学,以及空间统计学等学科,因此它不等同于区域经济学,而是一门交叉学科。
二、研究的问题
空间经济计量学主要研究存在空间效应的问题。空间效应主要包括空间相关和空间差异性。在研究中涉及空间相邻、空间相邻矩阵等概念。
(一)空间相关
空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即
附图
存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按省、市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。
空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。
对于空间相关,空间自回归通常是其核心内容,空间自回归模型的一般形式为:
附图
在这个模型中,β解释变量X(n×k矩阵)的参数向量(k×1),ρ是空间滞后相关变量的参数,λ是残差空间自回归(空间AR)结构中的参数。
W[,1]和W[,2]为n×n矩阵,是标准化或未标准化的空间加权矩阵,分别对应于因变量以及扰动项中的空间自回归过程,这两个矩阵可以不同,这意味着两个过程由不同的空间结构生成。
这个模型可以退化成为普通的线性回归模型、(纯)空间自回归模型、混合回归与空间自回归模型、残差空间自回归模型等形式。
对这个模型,普通最小二乘估计不仅是有偏的,而且是不一致的,参数的估计通常采用极大似然估计,近几年,有学者尝试采用贝叶斯估计对参数进行估计。
(二)空间差异性
空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。
对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。
研究空间差异性的模型主要有:
E.Casetti提出的空间扩展模型(1972)和回归参数漂移分析方法(简称DARP)模型(1982)。这时,空间差异性表现为模型参数随空间位置变化,并以空间单元的位置信息作为辅助变量(称为扩展参数)。
y=Xβ+ε
附图
模型(3)为以经纬坐标(Z[,x],Z[,y])作为扩展参数的空间扩展模型。同样可以以到中心区域的距离作为扩展参数设计模型。
将模型(3)的第二个式子右边加入随机扰动项,则为DARP模型。E.Casetti(1992)进一步提出了贝叶斯空间扩展模型。
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回归模型(简称GWR模型)。
附图
(三)时空数据空间模型
在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。如果数据不存在空间相关,则可以采用PanelData模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR模型。
三、应用前景及需要进一步研究的问题
(一)在中国的应用前景
在我国,地质统计学是较早应用空间统计学的领域,在20世纪80年代中国科学院就有人研究并应用Krige模型。空间统计学除了在地质学的研究中发挥作用,近十年来,周国法、徐汝梅等学者研究生态学中的空间相互作用,并于1998年出版了《生物地理统计学》。20世纪80年代以来,我国利用卫星遥感技术,对土地、森林、农业、矿产、能源、作物估产、灾患检测等进行应用,开始了我国空间统计学在经济领域应用中统计调查的工作,为了将空间遥感调查技术逐步纳入到我国统计的常规性工作中,1998年10月,国家统计局成立了空间统计研究室,并与中国科学院地理所合作,组成了“空间信息多重采样设计的空间统计学应用研究”课题组,运用遥感技术和空间分析对我国农业耕地、森林、草地等资源以及城镇动态变化进行调查,该项目获得国家统计局2000年课题研究一等奖。
在我国地质统计学、生物地理统计学及利用遥感技术进行的各种调查,都属于空间统计学的范畴。地质统计学、生物地理统计学主要研究空间相关及空间估值,在生物地理统计学的研究中还包括物种的空间扩散过程。所用的方法主要是各种Krige模型、方差图模型,以及空间自回归模型。空间动态采样的研究,与地质矿产调查类似,主要涉及样本在空间上的布局、有效样本量的确定、采样误差的计算等问题的研究,根据其研究的问题和方法,也可以将其归入统计学的抽样调查分支之中。
随着我国按地区进行统计的统计基础资料不断积累,尤其是遥感技术应用到统计调查中来,都将使得按时间和空间排列的数据资料极为丰富,对数据进行空间甚至时空分析成为可能,人们将逐渐从时间的角度转向普遍从时空的角度来考虑问题。
从经济分析的角度看,空间经济计量学在我国以下几个方面将有很大的应用前景。
由于区域之间存在相关性,或者存在差异性,因此一项政策对每个区域的影响是不同的,通过运用空间经济计量学方法对各区域进行研究之后,找到政策在各区域上作用的关系,对于政府决策、正确制订政策具有很大的参考价值。
由于区域之间存在先进地区和后进地区,通过空间经济计量学方法可以对先进地区与后进地区之间的相互关系进行研究。
按区域编制投入产出表时,空间的概念将发挥作用。
对房地产的价值进行评估时,在考虑外界影响因素的基础上,充分考虑地区之间的相互关系,将对正确评估房地产的价值有很大帮助。
对环境污染进行研究时,运用空间经济计量学方法对污染的传播方式进行研究,有助于人们对环境污染进行控制。
在交通领域的研究,可以利用空间经济计量学方法对人员、货物在空间上的流动方式进行研究,同时对通道上的不同区段进行研究。
在对某种疾病(如流感)在空间上的传播过程进行研究之后,对于疾病的预防控制将有很大的帮助。
建立了空间的概念之后,人们对于在空间上的抽样将综合考虑空间单元之间的相关性。而空间抽样在空间上的布点方式也可以用作商业网点的布局研究。
总之,只要问题涉及到空间的概念,空间经济计量学就将发挥其作用。对空间经济计量学的深入研究及应用,将促使人们面对问题的时候,从空间或时空的角度思考问题。
(二)需要进一步研究的问题
目前的研究中,系统内的空间单元受到系统内其它位置单元的影响,但边界处的单元还受到系统外与之相邻的单元的影响,如何将这个影响考虑在模型中值得研究。
在具体问题中,距离的概念需要加以认真对待,单用地理上的距离有时并不合适,例如国与国之间的经济联系在今天并不是距离远近决定的,电子化交易使得资金的流动非常迅速方便,因此,在研究这类问题时,如何将贸易、人员、资金的流动充分考虑到空间加权矩阵中去,尚值得研究。
贝叶斯方法在统计学各个分支的应用越来越广,空间贝叶斯模型也是目前空间经济计量学研究的热点之一。
可变单元的问题。当数据汇总的级别变化,可能整个模型的描述都发生变化,对于不同的问题,可能影响模型变化的汇总的级别也不同,能否有一个统一的模式对系统进行描述尚待进一步研究。
时空数据的综合分析,参数估计的渐近性质,模型的各种检验方法等,还有待进一步的研究。
1.医学统计学标准化试题库建立的必要性
近年来选修医学统计学的学生逐渐增多,考试的客观性、公正性显得尤为重要。当前,不同的学校采取的考试方式不尽相同:有的学校建立了“整卷库”,以整套试卷为单位进行存储,考试时随机抽取一套试卷对考生施测,这种方式固化了试卷结构,不能根据实际需求灵活调整;有的学校简单地将试题按章节存放在一起,试题未经测试与合理的分析,未按能力层次及学科要求进行划分,考试时按章节选出一部分试题组卷,费时又费力;还有的学校指定每位代课老师出一定数量的题目,最后把所有老师提交的题目汇总、组合成卷,由于代课老师往往根据课堂上强调的授课重点出题,因此不能全面考察学生的真实水平。可见,医学统计学考试制度存在诸多问题,要想通过考试客观、准确地评价每个考生的真实能力,充分发挥考试对教学的反馈作用,实现科学化、标准化、规范化、公正化的考试,建立高质量的医学统计学标准化试题库〔1〕势在必行。所谓试题库〔2〕(itembank),并不是试题的简单堆集,而是以一定的教育测量理论为基础,通过相应的数学模型对试题进行多项性能指标分析后,选出符合要求的优秀题目,按次序集中储存的一种形式,并能按要求调出所需试题,最终按规定的条件组合成卷〔3-5〕。医学统计学标准化试题库以合格、优秀的试题为基本单位,能克服现有考试制度的弊端。因此,建议建立医学统计学标准化试题库。
2.理论依据———项目反应理论(itemresponsetheory,IRT)
建设医学统计学标准化试题库的中心环节就是命题、选题。选题时必须根据一定的评价指标对试题进行评估,优秀的、符合要求的试题方可进入试题库。教育测量是以一定的理论为基础,目前用于试题评价的理论主要有经典测量理论(classicaltesttheory,CTT)和项目反应理论(itemresponsetheory,IRT)〔6,7〕。CTT存在很多无法克服的技术问题,如具有试题依赖性和样本依赖性、被试的能力分数与试题难度未建立在同一量尺上、忽略了每位被试的反应组型等等〔8-11〕。于是,近代在CTT基础上发展起来了一种新的测量理论,即IRT,又称潜在特质理论(latenttraittheory)或项目特征曲线理论〔12〕(itemcharacteristiccurvetheory)。IRT以几项基本假设(如单维性假设、局部独立性假设〔13,14〕等)为前提,试图通过建立恰当的数理统计模型来反映被试特质水平、试题参数与该被试在试题上的反应表现之间的关系。相对于CTT,IRT的优势主要有:(1)具有试题独立性和样本独立性,即扣除测量误差的影响后,被试能力参数的估计值不会随试题的不同而不同,试题参数的估计值也不会随被试的不同而不同。(2)每位被试具有相应的测量误差。(3)考虑了每位被试的反应组型。(4)引入了信息函数的概念,其可代替CTT中信度的概念〔15〕。IRT克服了CTT的不足,已逐渐成为试题评价的主流理论。许多大型的考试如美国的研究生入学考试GRE及著名考试TOFEL等试题评价均采用了IRT〔16〕。本文也将应用IRT,阐述医学统计学标准化试题库建设的基本思路。
资料与方法
1.资料
从中山大学公共卫生学院资料库中搜集2008年至2011年期间的医学统计学考试试卷,共5116份。试题题型主要是单项选择题、简答题和计算分析题。这些试题面向7个不同专业的考生,包括临床专业、预防专业、药学专业、法医专业、口腔专业、康复专业以及护理专业。此外,这些考生来自于不同层次,包括本科生、硕士生。
2.方法
IRT强调的核心是数学模型的建立和对模型中各个参数的估计〔13〕,通过对模型中各个参数适当估计和选取,解决在现实中CTT遇到的大部分问题。IRT假定学生对测试项目的反应不仅受到特定“能力”的影响,还受到许多随机因素的影响,其将被试的能力看作是一个潜在的不可观测的变量,同时将难度、区分度、猜测度等参数看作是项目的固有属性,独立于被试样本,并将被试在某项目上的反映情况与该被试的特质水平联结起来,与表示试题特性的参数一起,共同建立起数理统计学概率模型〔17,18〕。不同形式的数据应采用不同的模型进行拟合。本研究拟应用IRT,从以下几个方面进行分析。
(1)考生反应组型的整理
采用EpiData3.1软件包,根据搜集到的试题输入每位受试者的反应组型(responsepattern),即:考生在一组测验试题上的作答情形。数据处理如下:对于单项选择题,假定某考生对试题i的反应为ui,其中答对用ui=1来表示,答错用ui=0来表示(属于二元化计分);对于简答题,每一道简答题满分为h=6分,我们将其分为以下四个等级:h=0分、0<h≤2分、2<h≤4分、4<h≤6分,分别用0,1,2,3来表示(属多元计分);对于计算分析题,每一道计算分析题满分为k=12分,我们将其分为以下四个等级:k=0分、0<k≤4分、4<k≤8分、8<k≤12分,分别用0,1,2,3来表示(属多元计分)。
(2)模型选择
①单维三参数logistic模型(3parameterlogisticmodel,3PLM)对于单项选择题,其反应数据为二元化计分形式,项目反应理论中可采用的数学模型有logistic模型和正态卵形模型,其中应用最广的是前者〔9〕。logistic模型根据参数数目的不同,可分为单参数模型、双参数模型和三参数模型〔19〕。在理论和实践中,三参数模型得到了充分的验证,相对成熟、可靠,并且可以提供更多的试题信息,能更好地对参数进行估计〔20〕。因此,本文对单项选择题的数据采用单维三参数logistic模型〔21-22〕进行处理,其表达式如下:Pi(θ)=ci+(1-ci)eDai(θ-bi)1+eDai(θ-bi)(1)其中θ表示考生能力估计值;ai表示第i题的区分度系数;bi表示第i题的难度系数;ci表示第i题的猜测度系数;D表示标化因子,一般取D=1.702〔19〕;Pi(θ)表示能力为θ的人答对此题目的概率。②等级反应模型对于简答题和计算分析题,将原始分数进行转化后,反应数据变换为多元计分形式,此时,可采用项目反应理论中的等级反应模型〔23-25〕(gradedresponsemodel,GRM)。GRM假设每一个反应类别各自对应一条特征曲线,如果对某试题i而言,被试的反应可以划分为g+1类,其得分可以表示如下:Xi=0,1,……,g,那么被试在该试题上恰好得某一等级g分的概率可表示如下:Pi,k(θ)=P*i,k(θ)-P*i,k+1(θ)(2)公式(2)中,Pi,k(θ)表示对于试题i而言,能力值为θ的被试恰好得k分的概率;P*i,k(θ)表示对于试题i而言,能力值为θ的被试得k分以及k分以上的概率,P*i,k+1(θ)表示对于试题i而言,能力值为θ的被试得k+1分以及k+1分以上的概率。其中P*i,k(θ)按双参数logistic模型可以写为:P*i,k=11+e-Dai(θ-bi,k)(3)公式(3)中,θ、ai、D的含义与公式(1)相同,bi,k表示第i题第k个等级的难度系数。
(3)试题参数估计
应用MULTILOG软件,采用最大边缘似然估计〔26,27〕(marginalmaximumlikelihoodestimate,MMLE)法来估计IRT模型中的参数。以L(ui|θ)表示能力为θ的某考生对题目i的反应ui(答对:ui=1;答错:ui=0)的概率,用对数似然函数表示为:L(u1,u1,…,un|θ)=∏ni=1PuiiQ1-uii(4)其中n为题目数,Puii表示考生答对第i题的概率,Q1-uii表示考生答错第i题的概率。当各参数的偏导数为0时函数取得最大值,分别求得每一个试题相应参数值,即:试题区分度系数ai,难度系数bi,猜测度系数ci。
(4)试题筛选入库
在筛选试题以决定哪些试题可以入库时,不能仅以试题参数作为能否进入试题库的唯一标准,需同时考虑估计出的各试题参数以及任课教师的专业意见,筛选符合一定标准的试题进入试题库。试题难度过大或过小,会使分数呈偏态分布,从而使考试的信度系数值降低,因此,选取难度系数位于[-4.0,4.0]范围内的试题进入试题库。区分度越大的题目,表明对学业水平不同的考生的鉴别力或区分能力越强。通常,教学过程完毕后进行的考试,是以考察考生对知识掌握情况为目的的,因此,区分度不应过大。我们选取区分度位于[0,3]范围内的试题进入试题库。此外,试题的猜测度也不应太大,猜测度系数过大的试题对于考察学生对知识的掌握意义不大〔28〕,我们将猜测度小于0.25的试题选入试题库。根据试题参数筛选出试题后,再由5~7位任课教师,独立地逐一对初步筛选的试题进行审核,以判断试题文字表述是否恰当、是否会引起歧义、是否符合医学统计学逻辑、是否具有考试价值、是否具有内容典型性、是否具有编写格式统一性,是否重复等,经全部任课教师认可的试题方能最终进入试题库。除了将试题及试题参数录入数据库外,各个试题库还应包括试题编号、试题类型、所考知识点、认知层次、参考答案、选中标识等。医学统计学标准化试题库建立的流程图见图1。结果该研究的预期结果是成功建立医学统计学标准化试题库,该试题库以单个试题为基本单位,每道试题都有编号、题型、难度、区分度、猜测度、知识点、认知层次、参考答案以及选中标识这9个属性,且试题库中的试题参数都建立在同一量尺上。试题库中的所有试题均符合大纲要求,且试题知识覆盖面广,每一章节均有一定数目的试题。该试题库可用于期末考试,也可用于阶段性小测验,可供临床、口腔、康复、护理、预防医学等专业使用,可根据不同专业的不同要求(如预防专业的学生应该掌握医学统计学知识,考试时理应选取难度较大的试题进行测验;而康复专业的学生理解医学统计学知识即可,那么考试时应选取中等难度或低难度的试题进行测验)选取试题,进而实现自动化组卷或者计算机自适应考试,从而使各种考试得以方便、快速、顺利地进行。结论与讨论采用项目反应理论建立的医学统计学标准化试题库可以满足各种目的的考试要求。不仅大大节省了时间、节约了人力,还使考试更加客观、公正,具有重大的实际意义。
在建设医学统计学标准化试题库的过程中,以下几个问题值得引起我们的注意:
1.必须明确医学统计学的教学大纲,并结合本校的实际情况列出考核知识点,然后将搜集到的试题归类于相应的知识点。以知识点而非章节作为试题的属性,更便于我们有针对性的命题、将试题进行分类以及对试题进行搜索。
2.在考生人数和试题库试题题量方面,当然是考生人数越多,试题参数估计的稳健性越好;选入试题库的题量越大、试题知识覆盖面越广越好。但是在实际中,由于考生人数以及符合大纲要求的试题题量有限,可以先根据现有的资源创建试题库,然后不断地修正试题参数,不断地为试题库注入新的“血液”,使试题库不断的发展完善。为了增加试题库题量,我们还可以借鉴兄弟院校的试题,或者组织经验丰富的专家或教师命制新的试题。
3.每一道试题须包括以下9个属性:编号、题型、难度、区分度、猜测度、知识点、认知层次、参考答案以及选中标识,以便于对试题进行分类、存储、检索、维护与管理。
4.医学统计学试题往往带有各种数学符号、表格甚至图形,这就提醒我们在录入试题前,应选择合适的软件平台,以保证所有的试题均能完整无误地输入或输出试题库,以确保各种工作的顺利进行。
关键词: 医学硕士;学位论文;数理统计;调查
摘 要:目的 分析医学硕士研究生学位论文中数理统计应用情况. 方法 随机抽取2000/2001年100位河南医科大学应届医学硕士学位论文初稿,对其中数理统计应用情况进行统计分析. 结果 论文中采用单因素设计者占94.0%,多因素设计占6.0%,应用正确率为96.6%;论文中使用经典基本数理统计方法为97.9%,统计学方法的正确应用率为75.7%;应用参数统计时出现的主要问题是未进行适用条件判断,而应用非参数统计时出现的主要问题则是推断结论有误. 结论 应加强硕士学位论文的数理统计设计和审查工作.
Keywords:medical master graduates;thesis;statistics;in-vestigation
Abstract:AIM Analysis case of using statistical theory in the thesis of2000~2001master graduates.METHODS 100thesis of this year’s medical master graduates in Henan Medi-cal University were taken out randomly.Their theoretical scores and practical application of health statistics in their thesis were analyzed.RESULTS Master graduate has grasped the theory of health statistics preferably.The abso-lute majority,namely97.9%of the total students,have used the basic statistic method in their thesis,75.7percent could use statistic method correctly.The main problem arising in using parametric test is that they hadn’t judged the applying condition,while in non-parametric test is that the conclusion is wrong.CONCLUSION Ought to strengthen checkup health statistical in the thesis of master graduates.
0 引言
数理统计的应用正确与否是论文科学性的重要标志.近年在医学学术期刊(包括国内著名的核心期刊)上发表的论著,数理统计方面还存在问题,甚至导出错误的结论[1-4] .数理统计作为一门应用学科已成为医学硕士研究生学位课程的主要内容之一,越来越受到硕士研究生的重视.为了解医学硕士生学位论文中数理统计的应用情况,为课题的统计设计和论文审查提供科学依据,为教学改革提供参考,作者随机抽取河南医科大学应届硕士学位论文100篇,对其数理统计应用情况进行分析.
1 材料和方法
2000/2001年河南医科大学共有医学硕士研究毕业生222人,应用随机数表随机抽取100名硕士研究生学位论文的初稿作为研究对象,对实验设计类型、使用的统计学分析方法及使用的统计学工具,存在的问题等进行调查.结果推断利用SAS(6.12)统计分析系统进行分析.
2 结果
2.1 实验设计类型 硕士学位论文中采用单因素设计的比重较大,占94.0%,统计学设计正确率较高(Tab1).
2.2 统计学方法 论文中使用经典的基本统计学方法的占绝对多数,为97.9%(856/874),统计学方法的正确应用率为75.7%,且不同的统计学方法之间的正确应用率存在着差别.应用参数统计方法者518次,应用正确者357次,正确应用率为68.9%;应用非参数统计方法者346次,应用正确者305次,正确应用率为88.1%.对参数统计方法的正确应用率低于非参数统计方法(χ2 =35.8,P
表1 硕士论文的实验设计类型及正确应用情况 略
表2 论文中应用的统计学方法分布及正确应用情况 略
表3 获取结果时使用的计算工具 略
2.3 数理统计问题 论文中存在的问题在参数统计与非参数统计中的构成不同,应用参数统计时出现的问题是未进行使用条件判断者159次,未正确应用统计方法者9次,推断结论有误者19次;而应用非参数统计时出现问题是未进行使用条件判断者8次,未正确应用统计方法者14次,推断结论有误者21次(两者相比χ2 =48.31,P
3 讨论
在硕士研究生的基础理论教学中,开设数理统计学的主要目的是为了指导研究生正确地应用统计学的原理与方法,解决医学研究中如何科学地进行科研资料的搜集、整理和分析推断问题.传统的经典的和基本的统计学理论与方法仍然是当前硕士研究生进 行科研工作的统计学方面的主要工具.论文中采用的完全随机、配对及配伍等单因素设计的比重较大占94.0%,多因素设计占的比重较少为6.0%,总的来说,其统计学设计的正确率是比较高的.说明学生对统计学设计理论比较重视并能正确应用.论文中使用经典的基本统计学方法占绝对多数为97.9%(856/874),主要为t检验、F检验、χ2 检验及秩和检验等,这与这些方法成熟、简单明了且实用性极强有很大关系,而近些年来新发展的比较前沿的统计学分析方法[5-12] ,由于对设计要求严格,使用过程复杂,非专业人员在短时间内难以掌握而实际应用较少.这提示在今后的研究生教学过程中,除应继续进行基础部分内容的学习外,还应加强新的统计学方法和使用条件的教学力度.
论文中以基本的经典的统计学方法为主,但实际应用时的正确应用率仅为75.7%,且不同的统计学方法之间的正确应用率存在着差别,对参数统计方法的正确应用率低于非参数统计方法.经进一步分析,应用参数统计时出现的主要问题是未进行适用条件判断,而应用非参数统计时出现的主要问题则是推断结论有误.作为一门应用学科,数理统计学有着其独特的逻辑性,概念多、公式多且连贯性强,众多的公式和分析方法既有联系又有区别,同时有着严格的适用条件.传统的教材编写和教学重点是统计学方法的计算技巧,其结果容易将学生引导到仅注重学习统计计算方法上,忽略了各种方法的适用条件和对资料的综合分析.所以t检验、F检验等经典的统计方法虽看似简单,但要正确应用到实际工作中,对学生来说仍有相当难度.秩和检验等非参数统计由于其适用条件较参数统计宽松,使得其正确应用率高于参数检验,而并非学生对非参数检验掌握的比参数检验更好.
随着计算机技术和统计软件的完善与普及,各种复杂的统计计算不必再用手工计算.本次研究表明大部分人(91.0%)通过应用著名的统计分析软件SPSS及SAS获取结果,这些结果比手工计算的更准确、更规范,所以各种统计方法的计算过程大可不必细致介绍,而要重点介绍各种数理统计方法的使用条件,加强资料分析实践,提高硕士生解决实际问题的能力.
参考文献
[1]Wang GS,Qian GS,Yang XJ,Huang CJ,Wei H.The statis-tics of application of laboratory animals in clinical research pa-pers in China [J].Di-san Junyi Daxue Xuebao(Acta Acad Med Militaris Tertiae),1997;19(2):163-165.
[2]Chen P,Zu SX.The analysis of statistical techniques used in the Chinese journal of clinical medicine [J].Anhui Yike Daxue Xue-bao(Acta Univ Med Anhui),1998;33(2):108-110.
[3]Fang JQ,Ling L,Zhang MR.Frequently appearing statistical mistakes in recent medical articles and relevant suggestions [J].Zhongshan Yike Daxue Xuebao(Acad J Sun Yat-sen Univ Med Sci),1999;20(4):314-318.
[4]Wang Q,Zhang BH.Current use of statistical methods in five core Chinese medical journals [J].Zhonghua Yixue Zazhi(Natl Med J China),1998;78(3):230-233.
[5]Zhang GK,Yao C,Xu YY.Contrast between two schools of thought on hypothesis test [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999;16(2):85-87.
[6]Shang L,Xu YY,Hou RL,Zhang SP,Zhou YR,Chen CS.Comparison of different approaches of fitting centile curves for growth standard [J].Di-si Junyi Daxue Xuebao(J Fourth Mil Med Univ),2000;21(6):676-678.
[7]Li XS,Ni ZZ.On the problems of fitting linear regression mo-dels for hierachically structured data in medical research [J].Huaxi YikeDaxueXuebao(J WestChina Univ Med Sci),1999;30(1):59-62.
[8]Li XS,Zhang WT,Ni ZZ.Multilevel models in analysis of crossover design [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999;16(5):273-275.
[9]Li XS,Liu QY,Ni ZZ.Meta analysis using multilevel models [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999:16(3):133-135.
[10]Sun XW,Fang JQ,Yang XF.Number-theoretic method for pa-rameters estimation in multivariate nonlinear regression with ap-plication [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999;16(1):6-7.