1 简单线性相关
散点图能够直观展示两个变量之间的线性关系,但由于其无法量化数据,正确判定变量间的关系可能会有困难,且难以与其他关系进行定量比较。因此,统计学中通常使用相关系数来权衡两个变量的线性相关程度。相关系数通常用字母r表示,范围从-1 到+1,负值表示负相关,正值表示正相关(通常省略正号)。相关系数的绝对值越接近1,表示线性相关性越强;越接近0,表示线性相关性越弱。
相关系数的强弱划分为:
|r| < 0.3:低度相关;
0.3 < |r| < 0.5:中低度相关;
0.5 < |r| < 0.8:中度相关;
|r| > 0.8:高度相关;
r = 0:无线性相关。
常用的相关系数包括皮尔逊相关系数、斯皮尔曼品级相关系数和肯德尔相关系数。
1.1 皮尔逊相关系数
皮尔逊积差相关系数的盘算通常必要满足以下条件:
①正态分布:两组数据应接近正态分布;
②成对数据:数据必须成对出现,即每个样本的两个变量数据应对应成对;
③样本数量:成对样本的数量一样平常应大于30,以确保统计效果的可靠性;
④续性数据:两列数据必须是连续性变量。
皮尔逊相关系数的盘算公式为:
r = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 r{\text{ = }}\frac{{\sum\limits_{{\text{i}} = 1}^n {({x_i} - \overline x )} ({y_i} - \overline y )}}{{\sqrt {\sum\limits_{{\text{i}} = 1}^n {{{({x_i} - \overline x )}^2}\sum\limits_{i = 1}^n {{{({y_i} - \overline y )}^2}} } } }} r = i=1∑n(xi−x)2i=1∑n(yi−y)2 i=1∑n(xi−x)(yi−y)
x i {x_i} xi和 y i {y_i} yi是指两列样本数据的各个观测值;
x ˉ \bar x xˉ和 y ˉ \bar y yˉ是指两列样本数据的算术平均数;
n n n是指样本容量,即两列数据共组成了多少对数据。
通常环境下,接纳t分布检验皮尔逊相关系数的明显性,检验统计量为:
t = r n − 2 1 − r 2 t = \frac{{r\sqrt {n - 2} }}{{\sqrt {1 - {r^2}} }} t=1−r2 rn−2
1.2 斯皮尔曼品级相关系数
斯皮尔曼品级相关系数(Spearman’s Rank Correlation Coefficient)是一种非参数统计方法,用于权衡两个变量之间的单调关系。它基于变量的秩次(排名)而非原始数值,因此实用于以下环境:
①非正态分布的数据:当数据不符合正态分布时,斯皮尔曼相关系数仍能有用测量相关性;
②存在非常值:由于接纳秩次排名,斯皮尔曼相关系数对非常值的影响较小;
③线性与非线性单调关系:即便两个变量之间存在非线性的单调关系,斯皮尔曼系数也能捕捉其相关性。
斯皮尔曼品级相关系数的盘算公式为: r R = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) {r_R} = 1 - \frac{{6\sum {d_i^2} }}{{n({n^2} - 1)}} rR=1−n(n2−1)6∑di2
r R {r_R} rR品级相关性系数;
n n n样本容量;
d = y i − x i d = {y_i} - {x_i} d=yi−xi变量 y y y的第 i i i个观测值 y i {y_i} yi和变量 x x x的第 i i i个观测值 x i {x_i} xi的秩的差值。
通常环境下,接纳t分布检验斯皮尔曼品级相关系数的明显性,检验统计量为: t = r R n − 2 1 − r R 2 t = \frac{{{r_R}\sqrt {n - 2} }}{{\sqrt {1 - {r_R}^2} }} t=1−rR2 rRn−2
1.3 肯基德的tau-b系数
肯德尔tau-b系数(Kendall’s tau-b)是一种非参数相关系数,专门用于权衡两个变量之间的秩次相关性。与斯皮尔曼品级相关系数雷同,肯德尔tau-b适合处理秩次数据,并且不依赖数据的正态分布。其主要特点包括:
①秩次数据:基于秩次的比较,而不是数值巨细,因此适合处理分类或有序数据;
②抗非常值:由于是基于秩次进行比较,肯德尔tau-b对非常值的影响较小;
③处理平手:相比斯皮尔曼相关系数,肯德尔tau-b能更好地处理两个变量存在较多平手(雷同排名)的环境。
肯德尔tau-b系数的盘算公式为: τ = 4 P n ( n − 1 ) − 1 \tau = \frac{{4P}}{{n(n - 1)}} - 1 τ=n(n−1)4P−1
n n n项目的个数;
P P P一个变量各个秩的贡献值之和。
小样本 τ \tau τ服从肯德尔分布,大样本接纳 Z Z Z检验,检验统计量为: Z = τ 9 n ( n − 1 ) 2 ( 2 n + 5 ) Z = \tau \sqrt {\frac{{9n(n - 1)}}{{2(2n + 5)}}} Z=τ2(2n+5)9n(n−1)
2 偏相关分析
偏相关分析用于在控制一个或多个第三方变量(控制变量)后,分析两个目标变量之间的相关程度。通过排除控制变量的影响,偏相关分析能够更正确地揭示两个目标变量之间的真正关联。具体而言,控制变量是那些可能对两个目标变量都产生影响的因素。在进行偏相关分析时,这些控制变量的影响被剔除,从而使分析效果只反映目标变量之间的净相关性。控制变量可以是单一变量,也可以是多个变量。
现以一个控制变量为列,其偏相关系数的盘算公式为:
r y x 1 , x 2 = r y 1 − r y 2 r 12 ( 1 − r y 2 2 ) ( 1 − r 12 2 ) {r_{y{x_1},{x_2}}} = \frac{{{r_{y1}} - {r_{y2}}{r_{12}}}}{{\sqrt {(1 - r_{y2}^2)(1 - r_{12}^2)} }} ryx1,x2=(1−ry22)(1−r122) ry1−ry2r12
r y x 1 , x 2 {r_{y{x_1},{x_2}}} ryx1,x2控制因素 x 2 {x_2} x2后 y y y和 x 1 {x_1} x1的偏相关系数;
r y 1 , r y 2 , r 12 {r_{y1}},{r_{y2}},{r_{12}} ry1,ry2,r12分别代表 y y y和 x 1 {x_1} x1的相关系数、 y y y和 x 2 {x_2} x2的相关系数、 x 1 {x_1} x1和 x 2 {x_2} x2的相关系数;
通常环境下,接纳t分布检验偏相关系数的明显性,检验统计量为:
t = r n − q − 2 1 − r 2 t = r\sqrt {\frac{{n - q - 2}}{{1 - {r^2}}}} t=r1−r2n−q−2
r r r偏相关系数;
n n n样本量;
q q q阶数(控制变量个数);
t t t服从自由度 d f = n − q − 2 df = n - q - 2 df=n−q−2的 t t t分布。
3 距离相关
距离分析可以分为个案间和变量间的分析,分别研究个案或变量的相似性与不相似性。根据数据类型的不同,距离分析的具体方法也有所不同,主要包括相似性分析和不相似性分析两种。
个案相似与不相似分析:用于评估不同个体(个案)之间的相似程度或差异程度。
变量相似与不相似分析:用于分析不同变量之间的关联性,判定变量间的相似性或差异性。
3.1 不相似分析
不相似性分析通过盘算距离来权衡个体或变量之间的差异,距离越大表示差异越大,或不相似性越强。根据数据类型的不同,盘算距离的方法也有所不同:
(1)定比和定距数据(即数值型数据):
①欧氏距离(Euclidean Distance):两点之间的直线距离,最常见的距离度量方式;
②平方欧氏距离:欧氏距离的平方,强调了较大差异的权重;
③契比雪夫距离(Chebyshev Distance):只考虑各维度中最大的差异,适合当一个维度差异主导团体差异时使用;
④绝对值距离(Manhattan Distance):各维度的绝对差值之和,适合不考虑方向的情境;
⑤明可夫斯基距离(Minkowski Distance):欧氏距离和绝对值距离的广义形式,通过参数p调整距离的盘算方式。
(2)定序数据(即具有顺序但无明确间距的数据):
①卡方不相似测量:权衡分类变量之间的差异,常用于频数数据;
②Phi不相似测量:基于二元数据或列联表,用于评估两个定序变量之间的关联程度。
(3)二分数据(仅有两个取值,如0和1):可以使用欧氏距离和平方欧氏距离等方法,视数据分布而定。
3.2 相似分析
分析变量和个案间的相似性,同样需根据不同数据类型选择合适的盘算方法:
(1)定距型变量(连续数据):
①皮尔逊相关系数:用于权衡两个变量之间的线性关系,相似性越高,相关系数越接近1;
②夹角余弦距离(Cosine Similarity):通过盘算两个向量之间夹角的余弦值来权衡相似性,余弦值接近1表示高度相似,接近0则表示完全不相似;
(2)二分变量(仅有0和1的取值):
①简单匹配系数(Simple Matching Coefficient, SMC):基于两个个体在全部属性上的匹配环境,0和1都被认为是匹配的,盘算两个样本雷同属性的比例;
②杰卡德相似性指数(Jaccard Similarity Index):专门用于处理稀疏数据(比方,1表示特性存在,0表示不存在),只盘算两个样本共有特性(即1)的比例,而忽略双方都为0的环境;
③哈曼相似性指数(Hamming Similarity Index):基于哈曼距离,盘算两个样本在不同位置上异同的程度,主要用于二进制字符串的比较。
4 信度
信度(Reliability)是指一种测量工具或方法的一致性和稳定性。它反映了测量效果的可靠性,即在雷同条件下重复使用该工具时,效果是否一致。高信度意味着测量工具能够提供一致的效果,制止随机误差的影响。
4.1 重测信度(Test-Retest Reliability)
指在不同时间点使用雷同的测量工具对同一组被试进行测量,观察两次测量效果之间的相关性。高重测信度表示测量工具在时间上具有稳定性。
4.2 复本信度
复本信度(Alternate-Forms Reliability),又称副本信度,是教唆用两个等值的测量工具(复本)对同一批被试进行测量,评估其效果一致性的程度。复本是指在信度、效度、难度、区分度、题型、题量等测量学指标上都等值的测验。
4.3 内部一致性信度(Internal Consistency Reliability)
用于权衡一个测量工具内部各个项目之间的一致性。常用于多题项问卷或量表,观察每个题目是否都在测量雷同的潜伏概念。
①半分信度(Split-Half Reliability)
②同质性信度(Homogeneity Reliability / Internal Consistency Reliability)
C r o n b a c h ′ s α Cronbach's\;\alpha Cronbach′sα是内部一致性信度的广泛应用指标,通常用于多题项问卷或量表。它的盘算公式为:
α = k − 1 k ( 1 − ∑ S i 2 S x 2 ) \alpha = \frac{{k - 1}}{k}(1 - \frac{{\sum {S_i^2} }}{{S_x^2}}) α=kk−1(1−Sx2∑Si2)
4.4 评分者信度(Inter-Rater Reliability)
指不同评分者或观察者对同一对象进行评分或评估时,效果的一致性。它用于评估主观评分的一致性,尤其是在有多个评判者的环境下。
5 效度
效度(Validity)所要测量的效果和现实测量效果的吻合程度。
5.1 内容效度(Content Validity)
内容效度是指测量工具是否覆盖了所要测量的内容范围,即是否全面反映了测量对象的全部方面。内容效度通常依赖专家判定,通过评估测试题目是否能全面、代表性地反映测量的范畴或内容。
5.2 结构效度(Construct Validity)
结构效度指的是测量工具是否能够有用地反映所要测量的抽象概念或潜伏结构。结构效度实用于心理学、社会学等范畴中的抽象概念(如智力、幸福感、自负等)的测量工具。
5.3 实证效度
实证效度(Empirical Validity)是指通过现实数据或实行来检验测量工具的有用性,即通过实证研究验证测量工具在真实情境下是否能够正确反映或推测所要测量的内容。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |