测量心理学

测量的定义

测量是依据一定的法则，使用量具，对事物的特征进行定量描述的过程。

1. “一定的法则”，是指任何测量都要建立在科学规则和科学原理基础之上，并通过科学的方法和程序完成测量过程。

2. “事物的特征”，是指所要测量的事物的特定属性。

3. “量具”，是指测量中所使用的工具。

4. “定量描述”，是指任何测量的结果总是对事物特征的量的确定。“数量”不仅指事物特征的符号，而且指一种有序的量。数量具有四个特征:区分性、序列性、等距性、可加性。

测量的基本要素

1. 测量的参照点 (1)参照点的定义:测量的参照点是指测量工作中的量的起点。 (2)参照点的分类

1 绝对参照点，即以绝对的零点作为测量的起点;

2 相对参照点，即以人为确定的零点为测量的起点。

标准化

(1)标准化是编制测验的一个重要步骤，为了使接受测量的不同个人之间具有可比性，测验的条件必须对所有的个人都是相同的。

(2)测验的标准化就是指测验的编制、实施、记分以及测量分数的解释的程序的一致性。测验的标准化需要具备下列条件:测验内容的标准化、施测条件的标准化、评分规则的标准化、测验常模的标准化

经典测量理论(CTT)模型

经典测验理论假定，观察分数(记为 X)与真分数(T)之间是一种线性关系，并只相差一个随机误差(记之为 E)，即:X=T+E，这就是 CTT 的数学模型。根据这一模型，可以引申出三个相关联的假设公理: (1)若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数，即 E(X)=T 或 E(E)=0; (2)真分数和误差分数之相关零，即ρ(T, E)=0; (3)各平行测验上的误差分数之间相关为零，即ρ(E1，E2)=0。

测量误差的含义：测量误差是指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。可以从两方面来进行理解:测量误差是由那些与测量目的无关的变因所致:测量误差表现为不准确或不一致两种方式。

测量误差的种类心理测量的误差有两种:即随机误差和系统误差。

(1)随机误差即是由与测量目的无关的、偶然因素引起的、且不易控制的误差。它使多次测量产生了不一致的结果，其方向和大小的变化完全是随机的，只符合某种统计规律。

(2)系统误差即是由与测量目的无关的变因引起的一种恒定而有规律的效应。这种误差稳定地存在于每一次测量之中，此时尽管多次测量的结果非常一致，但实测结果仍与真实数值有所差异，是不正确的。因此，系统误差只影响测量的准确性、不影响稳定性。而随机误差既影响稳定性又影响准确性。

信度：信度是指测量结果的稳定性和一致性程度。

重测信度：用同一个量表，对同一组被试，施测两次所得结果的一致性程度。

复本信度:两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。如果两个复本测验是同时连续施测的，则称这种复本信度为等值性系数;如果两个复本测验是相距一段时间分两次施测的，则称这种复本信度为稳定性与等值性系数，与其他信度相比，此种复本信度最小，也是对信度最严格的考验。

分半信度:将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度这种信度系数有时也称为内部一致性系数。

同质性信度:也称内部一致性系数，指的是测验内部所有题目间的一致性程度。这里题目间的一致性含有两层意思，其一是指所有题目测的都是同一种心理特质，其二是所有题目得分之间都具有较高的正相关。

评分一致性信度:指多个评分者给同一批人的答卷进行评分的一致性程度。

效度:效度是指一个测验或量表实际能测出其所要测的心理特质的程度。效度是一个相对的概念。这种相对性表现在两个方面:效度是相对于一定的测量目的而言的;心理特质是较隐蔽的特性。效度是测量的随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据。

内容效度:指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。

结构效度:指一个测验实际测到所要测量的理论结构和特质的程度，即测验分数能够说明心理学理论的某种结构或特质的程度。

实证效度:也称效标关联效度，是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效，应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准，简称为效标。

效标：效标就是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的人们所感兴趣的行为。人们所感兴趣的行为往往是一个观念上的东西(观念效标)，它必须用一个数字或等级来进行表达(效标测量)，其中，效标测量的特点有:多样性、复杂性、特殊性、时间性。效标测量要想较好地体现观念效标，效标测量本身就必须是有效的和可靠的，而且还必须客观、实用。

表面效度：不是真正的效度指标，但它容易和内容效度搞混。表面效度是外行对测验作表面上的检查确定的，而内容效度是专家对测验进行详尽的、系统的评价建立的。虽然两者都是对测验内容作出的主观判断，但判断的标准不同。前者只考虑测验项目与测验目的之间的明显的、直接的关系，后者则同时考虑到测验项目与测验目的和总体内容之间的逻辑的本质的联系。

难度的含义:难度指测验项目的难易程度。难度的计算方法有多种，对于二分法积分项目，难度可以用通过率、极端分组法来表示;对于非二分法计分的项目，难度可以用平均得分总分的方法表示。

区分度的含义:区分度是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。一般用 D 来表示，取值范围在-1.00 到 1.00 之间，D 为正值称为积极区分，D 为负值称为消极区分，D 为 0 称为无区分作用。区分度被用作评价项目质量，筛选项目的主要指标和依据。

测验等值的含义:通过对考核同一心理品质的多个测验形式做出测量分数系统转换，使得这些不同测验形式的测验分数之间有可比性。

常模的含义:常模是根据标准化样本的测验分数，经过统计处理而建立起来的具有参照点和单位的测验量表。在这个量表上，被试可根据自己的测验分数找到自己在团体中所处的地位。

常模团体的含义:常模团体是具有某种共同特征的人组成的一个群体，或是该群体的一个样本。

智力年龄:一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄，这种分数叫做智力年龄，简称智龄。

能力倾向测验：

能力倾向测验是设计用来评估个体在特定学术或职业领域的潜在能力和倾向的测试。这类测验通常测量逻辑推理、数学技能、空间感知、语言能力等方面，目的是预测个体在未来学习或工作中的表现。常见的例子包括美国的SAT或ACT考试，它们广泛用于大学入学评估。

成就测验：

成就测验是用来评估个体在某一特定学科或技能领域已获得知识和技能的程度的测验。这种测验通常用于学校教育环境，以确定学生是否掌握了特定课程的学习标准。成就测验的结果反映了学生的学习成果，而非其潜在能力。

智力测验：

智力测验是设计来评估个体的认知能力和智力水平的心理测试。智力测验包括一系列任务，旨在测量抽象思维、理解能力、计算能力、词汇量、记忆力以及问题解决能力等多方面能力。这类测验的结果通常以智商（IQ）分数表示，旨在预测学术和职业成功的潜力。常见的智力测验有韦氏智力量表和斯坦福-比奈智力量表。

自陈测验:自陈人格测量就是根据要测量的人格特质，编制许多有关的问题，要求受测者根据自己的实际情况逐一回答这些问题，然后根据受测者的答案，去衡量受测者在这种人格特质上表现的程度。为完成自陈人格测量而编制的测量工具叫自陈测验或自陈量表。

投射测验:投射测验是向被试提供一些未经组织的刺激情境，让他在不受限制的情境下，自由表现出他的反应，分析反应的结果，便可推断他的人格结构。

罗夏克墨迹测验：

罗夏克墨迹测验是一种心理评估工具，使用一系列的墨迹图形来探究个体的心理状态和人格特征。参与者需要描述他们在每张墨迹图中看到了什么，心理专家通过分析这些描述来推断其潜意识特征、情感反应和可能的心理问题。

主题统觉测验：

主题统觉测验是一种投射性测试，通过让参与者观察一系列有关人际互动的模糊图片，并让其讲述每幅图的故事来探测其内在动机、冲突和社会感知。故事的内容被用来分析参与者的需求、情绪反应及对社会情境的解释。

句子完成测验：

句子完成测验是一种心理评估工具，其中参与者需要完成一系列未完成的句子。这种测试被用来探索参与者的潜意识思想、态度、情感状态和人格特质。

沙盘游戏：

沙盘游戏是一种心理治疗技术，通常用于儿童，但也适用于成人。参与者在一个装满细沙的盘中排列各种小玩偶和物件来构建一个“世界”，这个过程可以帮助他们表达情感、解决冲突，并在治疗师的引导下探索内心世界。

情景测验：

情景测验是一种评估个体如何理解和应对特定社会情境的心理测试。它提供具体的情景描述，并要求参与者解释他们将如何反应或处理所描述的情境，以评估他们的社会技能和决策能力。

道德两难故事法：

道德两难故事法是通过讲述包含道德冲突的故事来评估个体的道德推理和判断。参与者需要对故事中的问题提出解决方案，通过他们的回答可以分析他们在道德推理的不同阶段的表现。

情景压力测验：

情景压力测验设计用来评估个体在压力或挑战性情境下的行为反应和应对策略。这种测验通过模拟高压环境来观察参与者的适应能力、抗压性和解决问题的技能。

无领导小组讨论：

无领导小组讨论是一种评估方法，常用于组织或团队环境中，以评估参与者的领导潜质、团队合作能力、沟通技巧和决策能力。在这种讨论中，参与者没有指定的领导者，需要协作讨论一个话题或解决一个问题，评估者通过观察他们的互动和贡献来评价他们的表现。