试卷质量分析8篇

时间：2022-09-13 16:08:04

绪论：在寻找写作灵感吗？爱发表网为您精选了8篇试卷质量分析，愿这些内容能够启迪您的思维，激发您的创作热情，欢迎您的阅读与分享！

试卷质量分析

篇1

[关键词)试卷分析；教学评估；程序

试卷分析是教学质量监控体系的重要组成部分，其目的是为了进一步提高课程考试的科学性和严密性，不但可为教学效果反馈信息，还可以为改善题库、改进教学提供参考。

上海中医药大学的试卷分析针对的是专业基础课和专业课课程。校方采用标准答题卡，通过光标阅读机将答题信息读取到计算机，用FOXPRO程序编写试卷分析程序。输出的试卷分析报表包括3部分：考试成绩、试题质量分析和试卷质量分析。本文就试卷分析系统的设计特点及实现功能作一介绍。

1设计特点

1．1运行环境

该校试卷分析系统采用的是光标阅读机与计算机相结合的工作方式。校方使用的光标阅读机(OpticalMarkRead―er，OMR)是一个通用阅读系统，它可以完成信息卡格式编辑、选纸、通用阅读、评分、结果文件浏览及标准答案打印等功能。OMR通过阅读答题卡上的涂点信息，转化为计算机可识别的文本方式和FOXPRO数据库文件方式，便可达到将信息录入计算机的目的。

计算机采用Windows98以上操作系统即可，安装FOX―PR06．0软件，在此环境下编写试卷分析程序，接收来自OMR的数据，完成各项分析功能，教学研究并输出分析报表。

1．2试卷编制要求

所使用的标准答题卡是根据该校实际情况设计的，包括客观题和主观题。试卷分析系统对试卷编制的要求是：客观题数≤75题，可以是单选题、多选题；是非题；主观题数≤30题。对试题分数的限制：主观题每小题的满分不得大于9．9分。学生答题卡客观题部分考试时由学生填涂，主观题得分由教师阅卷后统一填涂，标准答案卡由教师填涂，教师还要填写一份考试信息卡，其中信息用于系统中试卷数据库的建立。

2实现功能

此试卷分析系统目前实现的功能包括考试成绩的输出、试题质量分析和试卷质量分析。

2．1考试成绩输出

考试成绩报表输出字段包括：学生学号、客观题分数、主观题分数和总分。

2．2试题质量分析

校方采用的分析指标有每道试题的难度、区分度以及客观题的备选答案选答比例。

2．2．1试题难度分析系统给出每道题目的难度指数。难度是指试题的难易程度，是评价试题质量的一个量化指标，过难，或过易都不能真实、准确地反映出考生的实际水平。因此，难度指数可以用来筛选题目。[1]难度指数越大，试题的难度越大；难度指数越小，试题的难度越小。一般认为，难度指数在0．65以上的为较难，在0．35～0．65之间为难度适中，在0．35以下则试题比较容易。为更好地检验学生对知识的掌握，通常应以难度适中的试题占多数为好。

2．2．2试题区分度区分度是指试题对考生实际水平的区分程度和鉴别能力。区分度是反映试题效用高低的参数，好的试题应能反映各档次学生的知识掌握水平，即拉开学生的得分档次。如果有的试题全体学生都不会，或者都会，就说明该试题区分度低。区分度是评价试题质量，筛选试题的主要指标与依据。

美国测验专家RobertEbel根据长期实验研究提出区分度的标准：区分度指数在0．40以上的说明试题区分度很好，区分度指数在0．3～0．4之间的说明试题良好但改进更佳，区分度指数在0．20～0．29之间说明试题尚可但仍需修改，在0．20以下则表明试题区分度较差应淘汰或修改。

一道试题的质量由该试题的难度和区分度共同构成，当试题的难度系数在适中的范围内，而且有相对较高的区分能力时，这道题就被看成是质量好的试题。

2．2．3客观题备选答案选答比例分析系统给出每道客观题各个备选项的选答人数百分比。它提示我们题目可能在以下几方面存在问题：①如果所有考生都选择的是正确答案，则说明该题目太容易或者题目中可能提供了某种暗示。②如果某个错误答案没有一个考生选择，说明该备选答案不具有迷惑性，错得过于明显。一般说来，除非有2％以上的人选择，否则这个备选答案则应该修改。③如果大部分或全部考生都选择了同一个错误答案，可能是编制测验时把答案定错了，也可能是在教学中发生了错误。④如果高分组考生的选择集中在两个答案上，二者选择比例很相近，提示该题可能存在两个正确答案或另一答案也有道理。⑤如果某题目考生未答人数过多或选择各个备选答案人数相等，则说明题目过难或题意不清，使得考生无法作答或是仅凭猜测作答。

2．3试卷质量分析

校方选用了集中量分析、差异量分析、试卷信度、成绩频数分布、试卷难度分布情况和试卷区分度分布情况作为评定指标。

2．3．1集中量分析给出试卷满分和平均分。平均分反映学生成绩的总体水平，理想状况在70分～80分之间。

2．3．2差异量分析给出最高分、最低分和标准差。标准差反映学生成绩的离散程度，用以检验考试区分学生掌握学业内容程度的能力。标准差越大表明成绩的离散度越大，通常标准差在9分～13分之间较为理想。

2．3．3试卷信度信度是衡量一个试卷质量高低的重要指标之一。信度高的试卷表明考试能较真实地反映出学生的学业水平。信度不合要求的试卷是不能使用的。校方采用克朗巴赫a信度系数。

通常影响信度的因素包括：①样本情况。样本的异质程度与分数的分布有关，样本越是异质，其分数分布的范围也就越大，信度系数也越高。②题目数量。一般来说，测验越长，试题越多，信度值越高。这是因为测验加长后，试题取样的代表性增加，每个题目的随机误差也较小。③难度。测验的难度与信度没有直接对应关系，但当测验太难或太易时则分数的范围就会缩小，从而降低信度。

2．3．4成绩频数分布分析系统以10分为组距、成绩为横坐标、人数为纵坐标给出成绩频数分布图。它的作用是，当成绩分布曲线呈正偏态时，说明低分学生多，可能题目偏难；成绩分布曲线呈负偏态时，说明高分的学生较多，可能题目偏容易；而理想状态为成绩呈正态分布，此时说明成绩很好和很差的学生较少，接均分的学生较多。

2．3．5试卷难度分布难度对考试的影响主要表现在：①影响考试成绩的分布形态，正常人群智力的高低分布服从正态分布，所以在适宜难度的考试中，学生的成绩分布应基本服从正态分布，难度过大或过小都会使成绩分布偏离正态。②影响考试成绩的离散度，过难或过易的考试会使成绩相对集中在高分端或低分端。③影响考试区分度。一套高质量的试卷应该合理分配题目的难度，整个试卷的平均难度基本控制在0．35～0．65之间，试题难、中、易的比例大致为20％、60％、20％。

2．3．6试卷区分度分布分析系统汇总整个试卷上所有题目的区分度，以区分度值从0～1．0为横坐标，以不同区分度值的试题数为纵坐标，给出整个试卷上区分度分布情况。通过区分度分布分析，可以提示试卷是否需要进一步改进。

篇2

关键词：机械制图；竞赛；试卷分析；评价

中图分类号：G642.4文献标识码：A文章编号：1009-3044(2012)16-3892-03

Analysis and Evaluation of Contest Test Paper of Mechanical Drawing

FANG Qing-hua

(College of Electromechanical & Architectural Engineering，Jianghan University，Wuhan 430056，China)

Abstract: The difficulty, distinction, coverage and reliability of examination papers were analyzed in this paper. The results show that the difficulty coefficient was 0.598, the distinction coefficient was 0.504, the coverage coefficient was 0.762, the paper reliabity was 0.667. The difficulty of the test was more difficult, the distinction was good and thus test was reliable. This paper suggests some recommendations how to raise the level of preparing test papers and adjust arrangement of the teaching in the future.

Key words: mechanical drawing; contest; analysis of test paper; evaluation

机械制图是一门工科学生的专业技术基础课，是后续课程学习、课程设计和毕业设计不可缺少的工具。在制图教学中开展竞赛不仅是检查教学效果的一种有效手段，更能促进学生自主学习。而命题对于竞赛而言又是中心环节。题目设计得过于简单，与平时的期中期末考试区别不大，调动不了学生学习积极性；题目设计过难、过偏，又达不到以赛促学的目的。该文给出了此次竞赛试卷质量的分析方法和分析结果，以对该竞赛作出正确地分析和评价，更有利于以后的教学改革，从而提高学生的综合应用能力。

[1]马治勇,谢良军,车承红.临床药学专业药理学试卷分析与评价[J].中华医学教育杂志，2008,28(5):120-122.

[2]赵景波.流行病学试题质量评价研究[J].疾病控制杂志,2004,8(4):313-314.

[3]张雅波,李媛媛.试卷质量的分析评价模型[J].职业教育研究,2008(5):51-52.

篇3

一、试卷评阅的总体情况本学期文科类数学期末考试仍按现用全国五年制高等职业教育公共课《应用数学基础》教学，和省校下发的学要求和复习指导可依据进行命题。经过阅卷后的质量分析，全省各教学点汇总，卷面及格率达到了54%，平均分54.1分，较前学期有很大的提高，答卷还出现了不少高分的学生，这与各教学点在师生的共同努力和省校统一的教学指导和管理是分不开的。为进一步加强教学管理，总结各教学点的教学经验不断提高教学质量，现将本学期卷面考试的质量分析，发给各教学点，望各教学点以教研活动的方式，开展讨论、分析、总结教学，确保教学质量的稳步提高。

二、考试命题分析1、命题的基本思想和命题原则命题与教材和教学要求为依据，紧扣教材第五章平面向量；第七章空间图形；第八章直线与二次曲线的各知识点，同时注意到我省的教学实际学和学生的认识规律，注重与后继课程的教学相衔接。以各章的应知、应会的内容为重点，立足于基础概念、基本运算、基础知识和应用能力的考查。试卷整体的难易适中。2、评分原则评分总体上坚持宽严适度的原则，客观性试题是填空及单项选择，这部分试题条案是唯一的，得分统一。避免评分误差。主观性试题的评分原则是，以知识点、确题的基本思路和关键步骤为依据，分步评分，不重复扣分、最后累积得分。

三、试卷命题质量分析以平面向量、直线与二次线为重点，占总分的70%左右，空间图形约占30%左右，基础知识覆盖面约占90%以上。试题容量填空题13题，20空，单选题6题，解答题三大题共8小题。两小时内解答各题容量是足够的，知识点的容量也较充分。平面向量考查基本概念，向量的两种表示方法，向量的线性运算，向量的数量积的两种表示形式，与非零向量的共线条件，两向量垂直与两向量数量积之间的关系，试题分数约占35%左右。直线与二次曲线考查，曲线与方程关系，各种直线方程及应用，二次曲线的标准方程及一般方程的应用，方程中参数的求解，各几何要素的确定，试题分数约占35%左右。空间图形着重考查平面的基本性质、两线的位置关系、两面的位置关系、线面的位置关系、三垂线定理的应用、异面直线所成的角、线面所成的角、距离计算等问题。表面积和体积的计算，为减轻学生负担末列入试题中（但复习中仍要求应用表面积和体积公式），该部份试题分数约占30%。三章考点放在平面向量、直线和二次曲线，其次是空间图形部份。故考查的主次是分明的，符合高职公共课教学大纲的要求。

四、学生答卷质量分析填空题：第1至3题考查向量的线性运算和位置向量的坐标线性运算，答对率约85%左右，其中大部份学生对书写向量遗漏箭头，部分学生将第3题的答案（-9，3）答成（9，-3）或（-9，-3）等。符号是不清楚的，反映出部份学生对向量的线性运算并非完全掌握。第4~7题涉及立体几何问题，主要考查线面关系，面面关系。答对率70%左右，其它学生主要是空间概念不清，不能确定线面间、平面间的位置关系。多数对异面直线的位置关系不清楚。第8~13题涉及解析几何的问题，考查曲线方程中的待定系数，直线方程，点到直线的距离问题，情况尚好，答对率70%左右。第11~13题反而答错率占65%左右，主要反映出学生对各种二次曲线的标准方程混淆不清，对几何要素的位置掌握不好，突出表现在对二次曲线的几何性质掌握较差，不牢固。单项选择题：学生一般得分为12—18分第1题选对的占80%以上，学生对平面的基本性质中的公理及推论掌握较好。第2题选对的占70%左右，学生对两向量垂直与两向量数量积之间的关系掌握较好。答错较多的是第4和第6题，其次是第5题。第5题多数错选（A）或（B），可见学生对一般圆方程用公式求圆心和半径不熟悉，同时用配方法化圆的一般方程为圆的标准方程，求圆心和半径也掌握不好。特别是第4题平行坐标轴，坐标变换竟有33%的学生错选（B）或不选（空白），可见不少学生对坐标轴平移引起坐标变换的新概念并不清楚，对新、旧坐标的概念也不清楚。第6题不少学生错选（B），反映出学生对向量平行和垂直的条件混淆，判断两向量相等的条件也不明确，才会出现如此的错误。第三题：（1）题是考查异面直线的成的角及长方体对角的计算。对本题的解答约80%的学生能找到异面直线A1C1与BC所成的角，但有30%~40%的学生不习惯用反正切函数表示角度，反而用反正弦或反余弦函数表示角度，教学中应引起跑的重视。计算长方体的对角线长仅有20%的学生会用简捷方法“长方体的对角线的平方等于长、宽、高的平方和”。其余学生计算较繁琐。（2）题是考查证明三点共线问题。约有80%的学生采用不同的方法证明，有用解析法的，也有用向量法的，也有用平面几何与解析几何综合知识证明的“三点连线中，两线之和等于第三线则三点共线”，反映出各教学点对该问题给出了多种证明法和思路，值得提倡。第（3）题考查根据不同的己知条件选用向量数量积的表达式。第四题：1题主要考查动点的轨迹方程，学生的解答，多出现两种方法，按轨迹满足椭圆定义求解或按求轨迹方程的四大步骤求解，但解答中又出现不少错误。第五题：1题是考查由给定双曲线的条件求它的标准方程和渐近线方程，但不少学生将双曲线中的参数a，b与随圆中的参数a、b、c混为一谈，对渐逐近线方程掌握不好，不能根据渐逐线的位置，写出渐近线的方程。2题主要考查用向量法证明四边形是矩形的方法，但不少学生随心所意，反而用解析几何的方法去证明，严格讲这是错误的，应该引起重视。有的学生在证明中逻辑混乱，逻辑推理叙述不严密，在矩形的证明中，用“垂直证明垂直”。对向量的知识掌握不牢固，求向量的坐标时，差值的顺序不对，导致计算错误。第六题：本题是一道立体几何题，主要考查的知识点一是两平面垂直的性质，二是直线与平面所成的角。本题评阅结果，有近60%的考生得满分，这些学生是掌握了考查的知识点，解题思路清晰，能迅速地用两平面垂直的性质，证明ΔABC和ΔBDC是直角三角形，求出BC和CD后，又用三角函数计算CD与平面所成的角。有的学生构造三角形思路灵活，连接AD得直角ΔABD，在此三角形中求出AD，又在直角ΔDAC中求出CD，最后在直角ΔDBC中求出DC与平面所成的角，即∠DCB。在20%的学生错答的原因是找不准直角，把直角边当成斜边来计算，导致解答错误。有近20%的学生空间概念较差，交白卷，有的认为AB与CD是在一个平面上且相交，完全按平面几何的知识来解答本题，如用全等三角形和相似三角形的知识来解，这是完全没有空间概念的主要表现。:

五、通过考试反馈的信息对今后教学的建议通过以上考试命题，试卷质量，答卷质量，基本概况的综合分析，实行统一命题，统一考试，统一阅卷是非常必要的。将考试成绩通报各教学点，对互通信息，相互学习，取长补短，努力改进教学方法，分析和探索初中起点五年制大专教育（高职）的教学规律，也是很有必要的。特别是通过考生的答卷分析，各教学点要开展教研活动，分析教学中的薄弱环节，采取有针对性的措施，不断的提高教学质。

篇4

一、引言

考核是检验教学质量最重要的手段之一，试卷的质量和学生考试成绩是衡量教学质量的主要方法。通过对试卷分析，可以反馈学生学习情况，评估教学效果，为进一步推进教学改革、提高教学质量提供参考。[1]

虽然目前许多高校在教学评价方面都呼吁评价形式的多样化，但试卷测试仍然是最主要的方法，因此试卷质量分析成为高校教师教学过程中的一个必备环节。目前多数学科如数学和医学专业已经重视试卷成绩和试题质量分析，[2-7]]对世界自然地理的课程与教学改革方面进行研究较少，[8-10]贺丹君等从评价体系上对地理课程进行定性分析和评价，未对试卷质量进行定量分析。[11]然而，《世界自然地理》是高等院校地理专业的必修课程之一，它最能体现地理学的综合性、区域性和人地相关性，具有其它地理学分支学科不可比拟的优势，所以对《世界自然地理》试卷成绩进行定量分析，评价试卷的优劣是很有必要的。本文对2007级地理科学专业57名学生的世界自然地理期末考试成绩进行分析，评判试卷对学生学习情况的反映能力，旨在为今后的考试命题和教学改革提供参考依据。

二、数据来源与研究方法

1. 数据来源

2007级地理科学本文由收集整理专业的本科生共57名学生的世界自然地理期末考试试卷。试卷由任课教师命题，试卷评判严格按照评分标准和标准答案进行，由任课教师评分。试卷卷面分值满分为100分，包括4种题型，26道小题：第一题单项选择题包含15道小题，占总题目数的57.69%，共15分；第二题简答题包含5道小题，占总题目数的19.23%，共40分；第三题填图题包含4道小题，40个空，占总题目数的15.38%，共20分；第四题论述题包含2道小题，占总题目数的7.69%，共25分。

2. 方法

试卷分析主要是指通过收集一定量的原始数据，按照设定的评价指标，运用测量学和统计学的理论，通过计算各种统计量数和绘制统计图表，对试卷进行定量分析和评价。[12]可以针对某一门课程，比较学生各成绩段的比例，分析学生成绩的分布是否合理，与试卷内容是否相关等。评价指标可以从教学大纲、命题、试题数量比例等方面来设定。

试卷质量的统计分析是运用数理统计描述和统计推断的方法，对试卷的数量特征和数量关系进行分析和判断。[12]根据《教育测量学》的介绍，[13]本文主要选取难度、区分度两个指标对试卷质量进行统计分析。

（1）难度。试题的难度是衡量试题难易程度的指标。[13]

在编制试题时，难度分布从易到难，逐步增加难度，这样有利于考生水平的正常发挥。试题的难度即考生对该题的通过率或得分率，对于答对得1分、答错或不答得0分的试题，难度（p）就是答对（或通过）试题的人数与考生总数之比：

（1）

式中，r为答对该题的人数，n为考生总数。

对于满分量大于1分的试题，难度则是考生对该题的平均得分与该题的满分之比：

（2）

式中，为考生对该题的平均得分，为该题的满分。p值越大，试题越容易。因为百分制以60分为及格，通常情况下，把平均难度控制在0.45～0.75之间比较合适。[13]试题难度的评价标准见表1。

表1 试题难度的评价标准

（2）区分度。题目区分度是指检验题目对其学业水平不同的考生的区分程度或鉴别能力，它是学生掌握知识水平和能力差异的指标。[14]通过考试，学习好的学生得到高分，学习差的学生得到低分，则说明试题的区分度高；如果学生中好、中、差三个层次的考试成绩处于同一个分数段中，就反映不出学生学习水平，那么这样的试题区分度就低。所以一般采用比较方便的两端分组法来计算试题的区分度。所谓两端分组法，即当测试成绩成正态分布时，将考试总分进行排序，然后选出得分最高的27%列为高分组，将得分最低的27%列为低分组。区分度计算公式如下：

，其中i=1，2，3，……n （3）

式中，和分别表示全体考生中的高分组和低分组中第i题的平均分；表示第i 题的满分值。d≥0.40为优秀；0.30≤d<0.40为良好；0.20≤d<0.30为尚可，需改进；d<0.20为劣，需淘汰或修改。[15]试题区分度的评价标准具体见表2。

表2 试题区分度的评价标准

3. 结果分析

从2007级地理科学专业世界自然地理期末考试的成绩分布来看，试卷满分为100分，客观题总分为35，主观题总分为65，学生考试的平均成绩为68.35，最高分为91，最低分40.5，标准差10.10，及格率为80.7%，不及格率为19.3%。

一是课程成绩分布情况分析。

（1）试卷总成绩分布：2007级地理科学班的57名学生，有39名学生成绩分布在60～79分内，占68.42%；有6名学生成绩分布在80～89分内，占10.53%；有10名学生成绩分布在50～59分内，占17.54%；仅1名学生成绩高于90分和低于40分，各占1.75%，见表3。通过绘制成绩分布直方图可以看出，该班期末成绩总体呈正态分布，见图1。教育统计学统计规律表明：学生的智力水平，包括学习能力，实际动手能力等呈正态分布。考试成绩分布应基本服从正态分布，这样才能真实反映学生的实际，也能够说明试卷设计是合理和具有科学依据和实际意义的。[15]本试卷总成绩呈正态分布，说明试卷总体设计合理、可靠、科学。

转贴于

表3 《世界自然地理》期末考试总成绩分布情况

图1 《世界自然地理》期末考试成绩分布图

（2）试卷各大题成绩分布。该试卷共四个大题，因为各题总分不一样，所以把各大题以100分为基准，对分数段进行折合计算，具体各分数段的人数和比例见表4。通过对各大题绘制直方图可以看出，单选题、填图题成绩分布呈偏正态分布，简答题成绩呈偏态分布，但是没有单选题和填图题严重，大体还呈正态分布，这看出就大题而言，单选和填图题设计过于简单，不能很好反应学生的学习能力，但是单选和填图属于识记类知识类型，本来就不好区分学生层次，所以总体看来还是符合实际的；简答和论述题成绩大致呈正态分布，能较好地体现学生学习效果的差异和智力水平，设计很好，见图2。

二是难度、区分度分析。从总成绩看，试卷难度为0.680，试卷区分度为0.402，表明整卷难度适中，区分度好，总体来说试卷质量优良。在各大题中，难度都适中，区分度除了单项选择题为0.29，试题尚可，须进一步改进外，其它三道大题都为优良。结合2007级地理专业的学生为理科生的专业背景，地理基础知识相对薄弱的实际情况，可以看出该试卷的论述题等反映综合能力的试题偏难，但区分度较好，适合考核学生的实际学习水平，有利于提高学生考试的有效性程度，见表5。

三、结论及建议

通过结果分析可以看出，该试卷整体的命题结构好，学生总成绩和大部分大题成绩呈正态分布，试题难度适中，除了选择题之外，其他题型区分度很好。建议以后命题要严格按照教学文件规定的要求，不断完善命题工作，特别是选择题的要加强命题的难度和区分度，同时应该从新课改的理念出发，不断改进命题工作，让考试在教学过程中发挥其应有的积极作用。

1. 试卷构成

整卷共四道大题，26道小题，客观题和主观题的比例为7：13；客观题主要考核学生对世界自然地理的基本概念及基本知识的掌握与理解的程度，而主观题则是考核学生归纳总结、分析、理解和应用知识的能力。本试卷考试内容覆盖面较广，基本涵盖教学大纲要求的大部分教学知识点，符合教学大纲的要求。该试卷试题综合了教学大纲的多个知识点，适当增加了一定的难度和深度。试卷结构记忆类占20%，理解类占40%，简单类占15%，综合应用类占25%；试卷各类题型所占的比例均符合教学要求，难度适中则反映出本课程的基本知识点、重点和难点。

2. 考试成绩分布

由于2007地科班属于理科生，没有高中地理知识的基础，所以本次试卷的命题不但注重学生综合分析能力的提升，同时也关注学生的地理基础知识，因此试题大约有70%是考察学生综合思维能力和分析能力的，涉及知识范围较广，其目的是提高学生对所学课堂内容进行总结提炼及实际应用，也设计有30%左右的基本知识题，如选择和填图题。从总成绩来看，该卷的成绩分布是呈正态分布，反映出绝大多数学生对考查综合能力的试题还是比较适应的，其分值大部分集中在60～80分，见图1；从各大题成绩来看，简答和论述题成绩基本呈正态分布，试卷能很好区分学生层次和体现他们各自的能力水平，能很好达到测验目的，但是单选、填图题的成绩分布呈偏正态，虽然这两大题属于识记型，但是作为试卷设计，还是应该从科学性测验出发，更好体现学生水平为原则，所以在以后的命题中，会更加注重这两部分题目的科学性和实践性。综合以上分析表明，本次考试基本反映出学生对世界自然地理知识学习的实际水平，同时也说明命题者对试题难度等因素掌握得较好。

3. 试题的难度与区分度

难度和区分度都是判断试题质量的重要指标，用于衡量考生能力的程度。通过一次考试将不同程度和不同能力的学生区别开来。难度系数（p）是反映试题难易程度的重要参数，难度系数越小，说明试题难度越大。一般认为试题的难度系数应控制在0.45～0.75之间比较合适。[10]本次试卷的平均难度系数为0.68，四个大题的难度分别为（单选题0.72，简答题0.70，填图题0.71，论述题0.62），不管是从整个试卷来看还是从各大题来看，本套考卷所有类型试题的难度系数在0.62～0.72之间，根据表1（试题难度的评价标准）来看，试题难易程度适中，比较合理，能区分学生能力。

区分度（d）是衡量试题质量的另一重要因素，是评价试题质量、筛选试题的主要指标，d值越大，区分效果越好。一般认为，d≥0.4，区分度极好；0.3≤d≤0.39，区分度良好；d≤0.19，区分度极差；所以试题区分度≥0.20即为可用试题，而区分度≤0.19的试题应该被淘汰。世界自然地理是地理学的一门基础主干课程，有其特殊性，概念多，需要记忆的知识多，尤其记忆各大洲的山脉、河流、湖泊容易记错，各周的地理位置不易描述，而且该级的学生是理科生出生，地理基础知识掌握有待提高，诸多因素使命题者难以把握试卷的难易程度及区分度。在本试卷中，整卷区分度为0.402，各大题中，除了单选题的区分度<0.30（为0.29）外，简答题、填图题和论述题的区分度均>0.40（分别为0.53、0.48和0.52），而且简答题、论述题的区分度非常好（d>0.5）。通过试卷分析表明，本套试题的区分度、易难度良好，其分析结果为命题者今后的命题工作提供了参考依据。但今后对单选题和绘图题的区分度还需要进一步加以改进，判断题应淘汰或注意完善该题型的区分度。

4. 今后命题工作的导向

篇5

期中考试已经过去了，我们班孩子的语文成绩也已经揭晓。最高分是：99、5，最低分是51。基于本班的语文考试成绩，我对这次的期中考试情况做了一下分析：

一、试卷分析

本次考查试卷以教材的内容为基本素材，充分体现了《语文课程标准》的基本精神和要求，贴近教学实际和学生实际，重视对学生对基础知识的运用和说话能力的考查，试题灵活，重视考查学生的基础知识。从学生答题情况来看，大多部分学生对基础知识掌握比较扎实，尤其是看拼音写字、多音字注音、组词和第六题的“减一减变新字，再组词”第九、十二题等，这几题得分率较高，大部分学生能正确答题。但也有个别学生对多音字注音掌握不够扎实。

学生失分较高的内容是第八题，我会填中的第三小题，有三四个孩子把问题的“题”和提问的“提”弄反了，第十一题：把下列词语连成一句通顺的话，并加上标点。由于个别学生读句子的语感训练还不到位，造成错误。第五题：写出下面词语的反义词，个别孩子失分较多由于他们平时懒于背诵，对反义词掌握的不够好。十三题：让写一段话来夸夸我们的家乡，大部分孩子都写得较好，只有许家辉小朋友一个字也没写，只考了66分。由于许方哲这个孩子一年级的基础知识就比较差，好多生字都不会写，但是近一年来，他学习很认真，似乎还没有掌握到学习的窍门。以前他都是三十多分的成绩，这次他通过自己的努力竟然考到了51分，的确出乎了我的意料。

二、整改措施

针对这次学生答题所暴露出的部分学生基础知识掌握不牢，个别学生的说话、写话能力较差，和学生做题态度不端正等问题。在今后的教学活动中，我将采纳以下措施：

1、语文教师对《语文课程标准》要加强学习和研究，吃透精神，准确把握新的教学理念。

2、继续培养学生良好的学习习惯，如：认真写字，多读、多写、多说、多练，抓好学生的语文基础知识的训练，及时进行阶段检测，以便了解学生的学习情况。

3、抓好课堂教学，落到实处，课文中要求背诵的课文及片段，一定要严格把关，力求每个学生都会背，都会写。

篇6

我班共有46位学生参加考试，总分4277分，平均分93分，及格率100%，优秀率76.1%。

二、试题分析：

一年级数学期中试题较好地体现了人教版《新课程标准》的新理念和目标体系。具有如下特点：本卷注重考查了学生基础知识的掌握、基本能力的培养情况，也适当考查了学生学习过程。试题内容全面，共计七个大题。试题整体较好地体现了层次性。本试卷题从学生熟悉的现实情况和知识经验出发，选取源于孩子身边的事和物，让学生体会学习数学的价值。尽管平时教学中讲、练比较全面，但通过这次检测仍发现了一些问题：

1、不会读题或读不懂题意，理解题意能力方面差，这是普遍存在的一个问题，这也是失分原因最多的一项的，这些现象应该提醒我们低年级的数学教师，在课堂教学中要注重课堂常规训练。例如课堂上多给学生们说的机会，充分考虑每一层次的学生需求和学习能力，渗透数学语言并加强学生说的训练，是我们今后的一个教学思想。

2、由于粗心造成的丢分。像加看成减，丢、漏题等。本来学生会做，但由于粗心而丢分，比如今后计算题我们可以这样要求学生：第一，抄一个数、一个符号就要养成回头看一眼的习惯，这样为后面结果的正确提供了保障，第二，要求学生每计算一步要进行简单的验算。第三，做完后要看一下最终的结果是否写在了符号的后面。这样的要求在习惯形成的开始比较费时间，但学生的习惯一旦养成学习效率就会事半功倍。

三、典型错题分析：

1、第一题：看图写数，无人丢分。

2、第二题：比一比。（1）比高矮，无人丢分。（2）比轻重。多部分学生失分，其原因主要是学生对间接地比较不理解或粗心造成错误。从卷面上看学生看图的能力以及分析事物的能力较差。

3、第三题：填空题。共5小题。其中第（1）看图比多少（2）填> < = 号（3）填写序数（5）考核数的组成和分解。只有个别学生丢分。主要原因是由于平时练习时不够灵活，学生没有有效地学习方法，或因为粗心，导致个别学生丢分。第（4）小题，看图填空，考核基数、序数和方位，此题丢分较多。有凤英等5位学生掌握知识不好；学逸、陈蕾两位学生不会读题；紫仪等8位学生不注意辨别方位（前后、左右）；两位学生漏题不做；14位学生弄错三只和第三只（这是我上课时调的学习重点和难点），但因考试前一天刚自行测试了同图形的题，并进行了讲评，导致这十几位学生因粗心而丢分。

4、第四题：统计图形个数。考查学生对平面图形和立体图形的认识，大部分同学掌握不错，能够准确认出图形，填出数字，并进行合计。但也有不少同学出现了错误，其原因是个别同学对图形的认识不清或是粗心丢漏，而数错个数。

5、第五题：分类。丢分的学生不少。原因同第三大题的第（4）小题。但最主要的原因还是学生对这部分知识掌握不透或根本不理解。

6、第六题：计算。个别学生因粗心丢分（算错或漏题）。

7、第七题：看图列式计算。这道题考查出学生灵活运用课本基础知识和分析、解决生活中的数学事物的能力。4位学生错了一道题，出现错误原因：是学生不理解图意，分析、推理能力比较差，学生对知识的掌握不牢固。从而导致错误。还有两位学生计算的结果出错。在课堂上，缺乏有意识地对学生进行收集信息、处理信息、分析问题、解决问题的方法和策略指导，今后要培养学生良好的学习方法和习惯。如：独立思考的习惯，认真读题、仔细审题的习惯等等。

四、教学中存在的问题

1、对学生学习习惯和主动学习能力的培养不够，过分关注对知识的掌握，对学生学习习惯的养成抓得还不够。

2、课堂教学不够扎实，个别学生对所学的知识掌握得不好，当时应对其加以辅导。

3、学生灵活运用知识和解决实际问题的能力及举一反三的灵活性的思维有待于提高。

4、对学的知识缺乏广度的关注，同时忽略质量，导致有的同学，学一道忘一道，没有起到应有的作用。

5、对个别学生关注不够多。

五、自我反思与改进措施：

1、依据《新课程标准》，对学生加强直观教学，培养学生学习数学的兴趣。

2、提高课堂教学质量。每堂课都在课前做好充分的准备课前备好课，，每一课都要做到“有备而来”。联系生活实际，创造性地使用教材，提高教学的有效性。根据一年级学生的年龄特点，思维水平设计生动有趣、直观形象的数学活动，让学生在具体的情境中理解和认识数学知识。并制作各种利于吸引学生注意力的有趣教具。

3、注重双基。加强基础知识与基本技能的学习，使学生学有所得，学的扎实。

4、注重学生良好学习习惯、学习态度和学习策略的培养，如：听课认真、审题细心、答题仔细、书写规范、勤于思考、乐学善问等等。

5、关注生活，培养实践能力加强教学内容和学生生活的联系，让学生适当关注生活中的数学问题，接触一些开放性问题，改变数学教学过于追求“精确”、“答案”和“化”的状况，留给学生充分的思维空间和情感发展空间，鼓励和培养学生的创新精神、创新意识。注重引导学生从不同角度去思考问题，充分发表自己的见解，从而有效地提高学生数学思考能力及培养学生解决问题的能力。

篇7

关键词：经典测量理论信度难度区分度

一、引言

教育测量与评价是教育研究领域中重要的组成部分，是学科教学活动中科学管理的有效手段。《国家中长期教育改革和发展规划纲要（2010-2020年）》明确把提高教育质量作为教育改革发展的核心任务，并多次强调与教育质量的监测和评价相关的内容[1]。显然，在当前教育制度下，各种笔试仍是一种重要而有效的教育质量定量评价方式。试卷质量自然影响对教育质量的正确评价，因此，针对笔试试卷的质量分析显得尤为重要。

试卷质量的分析一般是利用经典教育测量理论（CTT： Classical Test Theory）和项目反应理论（IRT：Item Response Theory）进行分析。

经典测量理论又称为真分数理论，假定观察分数X与真分数T线性相关，即CTT的数学模型为X=T+E，其中，随机误差E服从均值为零的正态分布。该理论最重要的四个指标正是反应试卷是否真实可靠、准确有效、难易适中、鉴别力强的信度、效度、难度和区分度等测验质量指标[2]。当然，由于其比较依赖样本、信度估计精度不高、难度和被试水平没有定义在同一参照系上，同时，无法回答总分相同的考生的真实能力有无差异等问题，该理论也存在一定的局限性[3]。

项目反应理论是一种新兴的心理与教育测量理论。该理论的前提假设非常严格，主要包括单维性假设和局部独立性假设[4]。主要方法是在利用参数模型的基础上，利用项目特征曲线、试题信息函数进行探讨，同时利用EM算法，用边际极大似然估计方法寻找项目参数的一致估计[5]。

本文主要利用南宁市某中学2013年秋季学期数学期末考试成绩，在经典测量理论（CTT）范畴下探讨该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况。通过试卷“四度一分布”了解试卷质量，并反馈教学效果情况。

二、基于CTT的试卷质量情况分析

1.成绩分布情况

一般而言，一份好的试卷考试的成绩都服从或近似服从正态分布，因此，考试成绩的正态性是考察试卷质量的一个首要指标。检验正态性的方法很多，常见的是利用直方图和卡方检验、K-S检验。从参加本次考试的872人中随机抽取387人的成绩进行检验，结果如图1所示：

图1 学生成绩的直方图

正态分布的K-S统计量显著性概率P值为0.095>0.05，因此，这次考试学生成绩服从正态分布。

2.信度

中学试卷中，选择题分数可简化为0，1得分情况来解释，解答题和填空题可以看成非0，1记分的项目。因此，选择题信度主要采用折半信度[斯皮尔曼-布朗（Spearman-Brown）公式、卢隆（Rulon）公式、弗拉纳根（Flanagan）公式]和库德-理查逊（Kuder-Richardson）信度（K-R20、K-R21公式）进行分析[7]。填空题和解答题为非0、1记分的项目，采用克龙巴赫系数进行统计，结果如表1所示。

表1 试卷信度分析结果

结果表明，每种方法计算的选择题信度都接近0.7，信度系数处于尚可使用范围之内。研究表明，对于标准化的大型测试题目信度要求一般要在0.9以上，而学校期末考试的信度在0.6以上即可接受[1]。选择题、解答题的克龙巴赫系数为0.905，可以认为填空题和解答题的信度非常好，综合考虑，试卷整体信度是可信的。

3.效度

效度（validity）是指测验结果的有效性或准确性，即通过测验能够正确测量出它所要测量的属性的程度[5]。测量的效度的种类很多，其中基于专家和教师对试题与所涉及的范围进行符合性判断的逻辑判断法的内容效度使用较多。内容效度是指测验内容对所要测验的全部内容的代表性程度。但一次考试很难包含学生所学课程的所有内容，因此只能选择具有代表性的试题进行考核，来了解学生的知识技能掌握情况[8]。

根据测量的目标与内容的双向细分表，经过该校7位一线数学教师（其中高级教师4位，中教一级2位，中教二级1位）不记名反馈信息来看，本次考试所设计的试题覆盖了所要测内容的主要方面，考查目标清晰明确，题型和分数结构合理恰当，总体符合考试大纲和教学要求。

4.难度

试题难度是反映考题难易程度的指标，一般而言是按照答对人数的百分比确定的，是衡量试卷质量的最主要的数量性指标，简单来说可以利用测验分数的分布情况和特征进行观测，例如考察测验分数的全距、零分、满分、众数、平均分数等相关指标进行定性的判断，也可以根据不同的情况，利用有关公示进行精确计算。

一般而言，难度的取值范围在[0，1]之间，取值越大，难度越小。难度在0.7以上的为比较容易的题，在0.4-0.7为中等难度的题，在0.4以下的则为较难的题或是难题。在实际教学中试卷难度水平的选择，应取决于测验的目的和试题的形式。如果测验是用于区分学生水平，那么应该将试题或试卷的难度系数控制在0.5左右，各试题难度值在0.2-0.8，同时各题平均难度值在0.5左右是比较适宜的[5]。

对于采用0，1记分的选择题，用通过率P、平衡猜测的校正公式CP和极端分组法计算各个试题的难度。

表2 选择题的难度

对于非0，1记分的填空题、解答题和总分，用难度系数和极端分组法计算各个项目的难度。

表3 填空题、解答题的难度

结果显示，就选择题而言，三种计算方法的计算的难度差异不大，整体趋势较一致，从三种公式的难度均值看，第1、2、5、6、7、8、9属于难度较小的题目，3、4、10、11、12属于难度中等偏上的题目，其中第4题难度最大，10，11，12三题难度也较大，选择题总体难度为0.767，属于比较容易，从试题编排上看，除个别题目外，整体趋势是容易的题型放在前面，中等难度试题放在题型中间，较难试题放在题型后面，较合理。

对填空题和解答题而言，题目难度显然大于选择题，填空题总体难度均值为0.499，难度中等，解答题总体难度均值为0，472，属于中等偏难程度，8道解答题的难易程度也和题目顺序基本一致，越难的题目越在后面，符合数学试卷的一般规律。

从考试成绩来看，难度系数为0.548，综合选择题、填空题、解答题三种类型的难度均值，整张试卷难度均值为0.579，和总分难度系数接近，因此，可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数，同时也是试题对考生实际水平的鉴别能力，将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分，水平低的学生答错或者得低分，则认为试题的区分能力强。一般而言，区分度在0.4以上为最佳效果，在0.3～0.39为合格，修改会更好，在0.2～0.29为勉强，仍需耍修改，区分度在0.19以下为差，必须淘汰[6]。

对于0，1记分的选择题，利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分，用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注：试卷区分度是将各题区分度进行加权平均计算的。

结果显示，对于选择题而言，总体看来，整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异，主要在于两种方法考虑的视角不一致，就第1题而言，极端分组法的区分度指标0.093，是利用高分组和低分组之间差异进行计算的，两者差异很小，说明该题无论是高分组还是低分组都能完成，就区分能力而言属于应该淘汰的题目，但正是由于该题目在高低分组中完成率都较高，和总分的相关性自然就大，因此，点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上，说明该试卷区分能力强，区分效果佳。

三、有关结论

事实上，该次试卷为全市统一考试题目，从一定程度上说属于“较大的标准化”考试题目。从上述分析可知，本次考试成绩的分布直方图并未凸显畸形特征，基本上呈正态分布，单峰，稍微右偏。就四度而言，填空题、解答题的信度很好，但选择题的信度适中。常见的提高测验信度主要有以下方式：一是适当增加试题量；二是提高质量，试题难度要适中，区分度大；三是调整试题编排顺序，尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的，根据测量的目标与内容的双向细分表，了解到试题覆盖了所要测内容的主要方面，考目标清晰明确，题型和分数结构合理恰当，总体符合考试大纲和教学要求。

试题的难度较合理，大部分选择题难度偏低，其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好，但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题，因此区分度也不高，最后一道压轴题属于难度最大，很多学生放弃作答，因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张，对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的，成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标，不仅可以直观、便捷分析考试结果，发现考试中的重要信息和规律，还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域，人们采用科学的测评方法测度试卷科学性的尝试并不多，尤其是一些规模较小的考试，这不利于教学质量和教师素质的提高，亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践，使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析，不仅可以了解试卷情况，更可以利用试卷科学性测评的方式了解教师的教学效果，同时也可以通过建立试题库、制定命题双向细目表等方式，提高试卷质量。

参考文献：

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报，教育部基础教育质量监测中心，2010，1.

[2]郭熙汉，何穗，赵东方.教学评价与测量[M].武汉：武汉大学出版社，2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学，2006（6）：15-17.

[4]Christine DeMars.Item Response Theory[M].London：Oxford University Press，2010.

[5]何穗，吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生，2012（08）：49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs，N.J.， Prentice-Hall，1965.

篇8

【关键词】中学化学试卷；质量分析；难度；区分度；信度；效度

中学化学试卷的质量分析是中学化学教学评价的重要内容，高质量的中学化学试卷分析对提高中学化学教学质量和提高化学试题的命题质量具有特别重要的意义。同时，也是教育主管部门、教育研究部门获取教育教学质量信息、提出改进教学建议的重要途径。

一、中学化学试卷的质量分析存在误区

据笔者调查了解，目前教师、学校，甚至市、县教育研究部门的学科测验质量分析，仅仅是对学生考试成绩的情况分析，也就是考试结果分析。这对于了解学生学习情况，鉴别学生学业成绩、为改进教学、提高教学质量提供反馈信息是非常重要的。但这种分析是建立在学科测验（试卷）本身是没有任何质量问题的测量工具基础之上的，严格讲这只能称为被试的质量分析，而不能称为试卷的质量分析。特别是使用没有经过标准化的教师自编学科测验时，在没有对试卷这一测量工具的质量进行有效的分析评价之前，对测试结果的分析是没有意义的。

学科测验质量分析的方法包括定性分析和定量分析。从认识论角度讲，人们对事物、现象的认识首先获得一定的质的认识，然后在此基础上进一步去考察量，以求对事物的质有更清晰、更准确的把握，这就是认识的深化与精细化。也就是说，定量分析的目的是为了精确地、深入地对事物、现象的质的认识，这就要求必须正确理解、评价、解释、运用在定量分析中所使用的各种统计指标。但据笔者调查了解，在目前的对非标准化学科测验的质量分析中，定性分析较多，定量分析较少。定性分析往往缺乏足够的依据，而在一些简单的定量分析之后，相关指标的评价标准界定不明确，相关指标的解释、理解不全面，指标的运用不充分。

二、对试卷的基本情况的分析

这项工作主要是分析试题范围及知识点，试题性质、题型及数量以及有关命题依据等方面的内容。

1试题范围及知识点

是否是在化学教材及课程标准要求的范围内，覆盖面如何。试题内容是否源于课本，并根据学生生活背景知识适当拓宽加深，有无难题、偏题、怪题及超过课标要求的拔高。试题跨度是否注意到适当增加学科内或者学科间知识的交叉渗透，体现综合性特征。试题是否科学合理、比例是否恰当。文字、图像、图表、数据等信息资源是否准确。试题陈述是否科学准确、表达是否清晰，备选答案是否明确。试题之间是否具备独立性，即相互间有无提示现象。试题是否注意到与社会实际和学生生活实际的联系，注重对学生能力的考查。

2试题性质、题型及数量

试题按性质分为客观性试题和主观性试题。那么试卷中客观性试题和主观性试题各为多少道，分别为多少分。在目前，试题按题型（除高三模拟题外）一般分为选择题（单选或多选）、填空题、简答题、实验探究与设计题、计算题等种类。试题数量指选择题的备选答案数、填空题空格数、实验探究与设计和计算题得分点数、回答要点数，以及教材、课程标准和考试要点要求的知识涉及程度、知识点覆盖面（%）。

3命题依据

是否依据教材及课程标准；是否对基础知识、主干知识和基本能力的测试；是否关注探究过程和方法、联系实际选取素材，这对“教”和“学”具有导向作用。

三、试卷的统计数据

中学化学试卷的统计数据，可以按题型与按每道小题，进行全样本分析或抽样分析（随机抽样分析，样本容量适中）除了要统计最高分、最低分、平均分、优良率、及格率、错误率、得分率外，更主要的是要做好学生典型错误或创新解答统计及原因分析。在此只谈一下选择题的试题作答率的统计分析。

试题作答率是以全体受试学生中，每一个选项的作答人数占总人数的百分比值。每一选项的作答率，可以作为筛选或进一步修改不恰当的试题、以及分析学生作答情形之用，藉以了解学生是否有一些错误或迷失概念。

选择题的结构是由两部分组成：包括题干与选项，题干就是问题本身；选项包括一个正确选项（最佳答案）和三个诱答选项。正确选项必须要能吸引较多具备该评量能力的受试者去选择；而诱答选项则应具似真实性或合理性，会吸引较多不具备该评量能力者或是概念不正确者去选择。选项的设计与选择题题目的难易程度有密切关系。如某一试题有4个选项，正确选项A作答率为0.89，选项B作答率为0.11，显示该选项具有诱答力，有约11%的学生有此错误概念；选项C及选项D作答率为0，显示该选项不具有诱答力，或受试者没有此错误概念，可考虑修改此选项。

四、测试题目的质量分析

任何测验都是由若干测验题目构成的。非标准化测验的质量分析，首先应该是对组成测验的各个测验题目进行质量分析，只有保证了构成测验的所有试题的质量达到规定的标准，才能保证一个测验的整体质量。测验题目质量分析的目的，首先是为了鉴定测验题目，并为进一步修改测验试题提供有效的依据，前述的选择题作答率统计就属于此；其次，有助于提高老师编制测验的技能和技巧，有助于建立测验题库；当然，最为重要的还是为了保证一个测验的信度和效度。测验题目的质量分析主要包括题目的难度分析和区分度分析。

（一）、难度分析

难度又称难易度、难度系数（P）是试题对学生知识和能力水平的适合程度的指标，是一个相对概念，难度的高低与被试者的水平直接相关。难度的取值范围为0≤P≤1，P值愈大，表示该试题愈容易，愈多数学生答对该试题；P值愈小，表示该试题愈困难，愈少数学生答对该试题。

1难度的计算

对于二分法记分的客观试题，通常以答对或通过该题目人数的百分比来表示难度：P＝R/N（P：题目难度；N：全体被试人数；R：答对或通过该题目的人数）。

当被试人数较多时，可采用极端分组法，即先将被试按测验总分从高到低排列，取总分最高的27%被试为高分组，总分最低的27%被试为低分组，分别计算高分组和低分组的通过率，然后再求题目的难度：P＝(PH＋PL)/N（PH、PL分别表示高分组和低分组的通过率）。

主观题的难度一般用参加测试考生在该题的平均得分与该题分值之比，即P＝X/K（X表示所有考生在该题的平均得分，K表示该得分值）。

试卷的平均难度：P＝∑Pi/N（Pi代表每道题的难度值，N代表试卷的题目总数）。也可用P＝∑PiWi/W表示（Pi代表每道题目的难度值，Wi代表每道题目的分值，W代表试卷的总分值）。还可以用P＝X/W表示（X为总平均分，W代表试卷的总分值，P代表试卷的平均难度）。

当被试人数较多时，也可采用极端分组法计算难度：P＝(XH＋XL－2NL)/2N(H－L)（XH、XL分别为高分组、低分组的总分；H、L分别为最高分、最低分；N为总人数的25%）。

2难度分析

难度分析的主要目的是为了鉴定、筛选和修改题目。题目的难度水平通常取决于测验的目的、题目的形式以及测验的性质。一般情况下，测验的平均难度要适中，应在0.50左右；如果测验是为了了解被试在某方面知识、技能的掌握情况，可以不必过多地考虑试题的难度。

难度对于测验的影响，首先表现在测验分数的分布形态上。若测验题目的难度普遍较大，则分数呈正偏态分布；若测验题目难度普遍较小，则分数呈负偏态分布；只有当测验题目的难度适中时，分数分布才呈近似正态分布。其次表现在测验分数的离散程度上。太难或太易的测验题目，都会导致测验分数相对地集中在低分端或高分端，离散程度较小；当难度适中时，分数分布范围大，离散程度较大。这是用标准差σ来表示的，因篇幅关系，在此不加赘述。

只有当分数的分布范围较大时，测验的信度才可能较高，反之信度较低。可见，测验题目的难度以集中在0.50左右为最佳，以集中在两极端为最差。在非标准化学科测验中，组成测验的各试题的难度系数应当以0.50为均值（各个试题难度均匀分布在0.2～0.8之间为好），这样有利于最大程度区分不同程度学生，使试题产生区分学生的最大效果，分数将呈正态分布，但允许有少量的高难度和低难度的测验题目。

（二）、区分度分析

试题区分度又称区分度指数（D），是衡量试题对不同知识和能力水平考生的鉴别程度的指标。具有良好区分度的测验，实际水平高的该得高分，实际水平低的该得低分，它是评价试题质量、筛选试题的主要指标和依据。

1区分度计算

鉴别指数法。对于二分法记分的客观性试题，从总分分布的两端各选择27%的被试组成高分组和低分组，分别计算高分组和低分组的通过率，二者之差就是鉴别指数：D＝PH－PL。

主观题的区分度，一般从总分分布的两端各选择27%的被试组成高分组和低分组，分别计算各组总分和测验最高分、最低分。再按下面公式计算：D＝(XH－XL)/N(H－L)（公式中各符号含义与难度计算时相同）。

其它复杂的计算，在此从略。

2区分度分析

如果一个题目的测试结果使水平高的考生答对（得高分），而水平低的考生答错（得低分），它的区分就很强。鉴别指数是鉴别题目测量有效性的指标，鉴别指数越高，题目越有效。一般认为，鉴别指数在0.40以上的为很好；鉴别指数在0.30～0.39的为良好，修改会更好；鉴别指数在0.20～0.29的为尚可，仍需修改；鉴别指数在0.19以下的为差，必须淘汰。

任何一种测验，其所有的测验题目，都应该具有良好以上的区分度。否则，将无法保证测验的有效性。

五、测验的质量分析

当由若干质量达到要求的测试题目构成一个测验时，还必须对整个测验的可靠性和有效性进行技术鉴定，这就是通常所说的试卷分析。试卷分析最根本的含义是指对试卷的质量进行系统的分析，目的是评价作为鉴别学业成绩的测量工具的质量。对于标准化测验来说，有一整套完整而成熟的质量技术分析指标。非标准化测验在测验结束后，也可以通过抽样的方法，借助这些指标来进行试卷的质量分析，也就是要明确一个测验的信度和效度。

（一）信度分析

信度是指测验结果的稳定性、一致性和可靠性的指标。信度是测量过程中随机误差大小的反映，如果信度低，则随机误差大，测验的结果就会与真分数发生较大的偏差。一个成功的测验必须具有较高的信度，也就是说，只要遵守操作规则，测验的结果就不应该随工具的使用者或使用时间、地点等因素的变化而发生较大变化。

测验信度的种类较多。如反映测验稳定性的重测信度、检验等值性的复本信度以及描述内部一致性的分半信度、同质性信度等。在非标准化学科测验的信度分析中，最适合使用的应该是分半信度。

分半信度是将一个测验分成对等的两半，然后分析同一组被试在两个半份的一致性程度。计算分半信度的关键在于如何将一个测验分成两半，常用的分半方法有完全随机分半、奇偶题目序号分半等。计算分半信度的方法，就是求被试在两个半份测验上得分的相关系数，当然，由于只是半个测验的信度，所以必须进行校正。校正公式为r＝2r0/(1＋r0)（r为信度，r0为两个半卷上分数的相关系数）。

测验信度通常用来解释个人测验分数的意义，也可用来进行两种测验分数的比较分析。测验信度高，说明测验结果比较一致，测量工具具有稳定性、一致性和等值性，被试的能力水平受被试状态和施测环境变化的影响较小；若信度低，则说明测验的随机误差较大，测验结果不可靠。鉴别信度系数的高低，需要对计算的各种相关系数进行显著性检验。

要提高测验的信度，可适当增加测验的长度，并使测验中所有试题的难度系数接近正态分布，并控制在中等水平；必须保证测验题目具有较高的区分度，并尽量使用同质的测验内容题目；另外，还必须强调测验评分的客观性，并提高测验程序的统一性。

（二）效度分析

效度指一个测验实际测量的结果与所要测量的能力水平之间的吻合程度，是测验的有效性或正确性的指标。效度是随机误差和系统误差的综合反映，效度的估计就是多方寻找证据来证明一个测验有效性程度的过程。由于效度是就测量结果达到测量目的的程度而言的，所以测验的效度估计在很大程度是取决于人们对测量目的的解释。常见的解释有三种：一是用测量的内容来说明目的；二是用心理学上某种理论结构来说明目的；三是用实际实效来说明目的。于是，就有内容效度、结构效度和实证效度之分。

在非标准化学科测验的效度分析中，最适合使用的是内容效度。

内容效度指一个测验实际测到的内容与所要测的内容之间的吻合程度，也即试卷内容对于所要考查的课程内容的代表性如何。估计内容效度的核心问题，一是要测的内容范围是否明确，二是在明确的内容范围内题目的取样是否具有代表性。

确定内容效度的方法主要是逻辑分析法。其工作思路是请有关专家对测试题目与原定内容范围的吻合程度作出判断分析，所以又称专家判断法。这需要依据在编制测验时制作的“化学学科双向细目表”。

要提高测验的效度，首先，要精心编制测验试题，避免出现系统误差；其次，要妥善组织测验，控制好随机误差；第三，要合理处理好信度与效度的关系，信度不高的测验不可能具有很高的测验效度。

另外，还要做好被试团体的质量分析和被试个体的质量分析，因篇幅关系，在此从略。

推荐范文