基础统计学概念
定性分析 & 定量分析
定性分析和定量分析是研究和数据分析中的两种基本方法,它们用不同的方式来收集和分析数据。
定性分析(Qualitative Analysis)
定性分析关注非数值化的数据,它涉及对属性、描述、观察和文本内容的分析。这种分析通常用于理解人们的行为、经历、态度、意见和动机。
- 特点:
- 数据类型: 文本、图像、观察记录、访谈记录、焦点小组等。
- 分析目的: 揭示模式、理解意义、发现关系、构建理论。
- 应用:
- 社会科学、人类学、历史学和市场研究等领域。
- 方法:
- 主题分析、叙事分析、框架分析、现象学、接地理论。
定量分析(Quantitative Analysis)
定量分析则关注数值化的数据,它使用数学和统计方法来测量问题、测试假设、估计结果和验证事实。
- 特点:
- 数据类型: 数字、测量值、统计数据。
- 分析目的: 测量变量的大小、频率、影响力和其他可量化的特征。
- 应用:
- 自然科学、经济学、心理学、流行病学和工程学等领域。
- 方法:
- 描述性统计、推论统计、相关性分析、实验设计和建模。
对比
定性分析更侧重于“为什么”和“怎样”的问题,试图深入理解现象的本质;而定量分析则关注“多少”和“有多频繁”,试图通过量化的方式来描述和解释现象。
在实际研究中,两种分析方法经常被结合使用,以便从不同角度综合理解研究问题。例如,一个研究项目可能先通过定性方法进行初步探索,了解现象的背景和环境,然后通过定量方法来测量和测试发现的模式或理论。
听故事理解
背景: 霍格沃茨的魔法学校有一个特别的研究项目,目的是了解学生对新引进的魔法药剂课程的反应,以及这个课程如何影响他们的魔法技能。
定性分析的故事部分
教授们首先决定进行一系列的访谈和焦点小组,这是定性分析的一部分。
访谈: 他们访谈了几位学生,询问他们对新课程的看法。学生们分享了他们的体验,有的说他们喜欢实践操作,觉得它更有趣;有的则说新药剂的配方很难记忆。
焦点小组: 在焦点小组中,学生们讨论了新课程如何帮助他们更好地理解魔法药剂的原理,有的学生还提出了一些建议,比如增加更多的实验时间。
通过这些定性数据,教授们深入了解了学生的个人经历和课程的教学质量。
定量分析的故事部分
接下来,教授们设计了一项定量研究来衡量新课程的影响。
考试成绩: 他们收集了学生在新药剂课程之前和之后的考试成绩,使用统计软件进行了分析。
统计测试: 定量分析显示,绝大多数学生在新课程后的考试中得分提高了。这些数据提供了课程有效性的量化证据。
结论: 结合定性和定量分析的结果,教授们得出结论,新引进的魔法药剂课程不仅受到学生的喜爱,而且实际上提高了他们的魔法技能。定性数据提供了深入的理解和背景,而定量数据提供了课程效果的具体证据。
常见的统计量
用于帮助我们理解数据的特点,可以得到数据集的一个很好的概述,了解数据的分布和中心趋势
- 最小值 (Min):
- 这是数据集中最小的数值。
- 例如,在一个包含 2, 4, 7, 9 的数据集中,最小值是 2。
- 下四分位数 (Quantile 1) 或 25th 百分位数:
- 也称为第一四分位数,它是将数据集分为四等分后的第一个切点。
- 例如,在一个包含 1, 2, 3, 4, 5, 6, 7, 8 的数据集中,Q1 的值是 2.75 (25% 的数据小于或等于这个数值)。
- 中位数 (Median) 或 Quantile 2:
- 中位数是将数据集从中间分开的值,一半的数据值位于中位数的左边,另一半位于右边。
- 如果数据集的数量是奇数,则中位数就是中间的数;如果是偶数,则中位数是中间两个数的平均值。
- 例如,在一个包含 3, 5, 7, 9 的数据集中,中位数是 6。
- 平均数 (Mean):
- 平均数是所有数据值的总和除以数据值的数量。
- 例如,在一个包含 2, 3, 4, 5 的数据集中,平均数是 (2+3+4+5) / 4 = 3.5。
- 上四分位数 (Quantile 3) 或 75th 百分位数:
- 也称为第三四分位数,它是将数据集分为四等分后的第三个切点。
- 例如,在一个包含 1, 2, 3, 4, 5, 6, 7, 8 的数据集中,Q3 的值是 5.25 (75% 的数据小于或等于这个数值)。
- 最大值 (Max):
- 这是数据集中最大的数值。
- 例如,在一个包含 2, 4, 7, 9 的数据集中,最大值是 9。
- 频数 (Frequency):
- 例如,在一个数据集{1, 2, 2, 3, 3, 3, 4}中,数字3的频数是3,因为它出现了三次。
- 频率 (Relative Frequency):
- 在同一个数据集{1, 2, 2, 3, 3, 3, 4}中,数字3的频率是3/7 ≈ 0.43,因为它出现了三次,总的数据点数量是7。
- 标准差 (Standard Deviation, SD):
- 在数据集{2, 4, 4, 4, 5, 5, 7, 9}中,标准差是2,这意味着数据点离平均值的平均距离是2。
- 方差 (Variance):
- 在同一个数据集{2, 4, 4, 4, 5, 5, 7, 9}中,方差是4,因为标准差的平方是2^2 = 4。
- 范围 (Range):
- 在数据集{2, 4, 7, 9}中,范围是7,因为最大值9减最小值2等于7。
- 众数 (Mode):
- 在数据集{1, 2, 2, 3, 3, 3, 4}中,众数是3,因为3出现的次数最多。
- 偏度 (Skewness):
- 如果我们有一个数据集{1, 2, 2, 3, 3, 3, 4},它的偏度是0,因为数据是对称分布的。
- 峰度 (Kurtosis):
- 在一个尖峰分布的数据集中,峰度会高于正态分布的峰度。例如,数据集{1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4}的峰度较高,因为数据集的尾部较重。
- 百分位数 (Percentile):
- 在数据集{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}中,第25个百分位数是3.25,因为25%的数据小于或等于这个值。
- 相关系数 (Correlation Coefficient):
- 如果我们有两组数据,比如{1, 2, 3, 4, 5}和{2, 4, 6, 8, 10},它们之间的相关系数是1,因为它们之间存在完全的正线性关系。
- 回归分析 (Regression Analysis):
- 例如,我们想预测房价基于房子的大小。通过回归分析,我们可以得到一个方程,用来预测基于房子大小的房价。
- 样本 (Sample):
- 如果我们有一个包含1000个人的大型社区,我们可能只从中抽取100个人来研究他们的收入水平,这100个人就是一个样本。
- 总体 (Population):
- 在上述例子中,这个社区的所有1000个人就是总体。
- 极值 (Outlier):
- 在数据集中明显偏离其他观测点的数值
数据类型和水平
- 独立变量(Independent Variable):
- 定义:在实验或统计模型中,独立变量是你操作或选择的变量,用来观察它对其他变量(通常是因变量)的影响。
- 例如,如果你在研究肥料对植物生长的影响,肥料的类型或数量就是独立变量。
- 因变量(Dependent Variable):
- 定义:因变量是你在实验中观察或测量的变量,它的值取决于独立变量。
- 在上面的例子中,植物的生长速度或高度就是因变量。
- 因子(Factor):
- 定义:因子通常指实验设计中的分类独立变量。它是影响实验结果的一个或多个条件。
- 例如,在测试不同品牌肥料对植物生长的影响时,肥料的品牌就是一个因子。
听故事学数据类型和水平
故事名称:“霍格沃茨植物学实验”
在霍格沃茨,草药学教授邀请学生参与一个实验,研究不同魔法肥料对植物生长的影响。
- 实验设置:
- 独立变量:三种不同的魔法肥料(A、B、C)。
- 因变量:植物的生长高度。
- 因子:肥料的类型。
- 实验过程:
- 学生们将植物分成三组,每组使用一种肥料。
- 他们定期测量植物的高度,记录数据。
- 结果分析:
- 通过比较三组植物的平均生长高度,学生们可以了解哪种肥料对植物生长最有效。
这个故事展示了如何在实验中使用独立变量、因变量和因子。通过改变独立变量(肥料类型),观察因变量(植物高度)的变化,学生们可以理解不同条件下的效果差异。
概率理论简介
定义与学术名称(中英文):
概率(Probability): 概率是衡量某个事件发生可能性的数值。它的值介于0和1之间,0表示事件不可能发生,1表示事件必然发生。
随机变量(Random Variable): 随机变量是一种数值,其值取决于某个随机过程的结果。例如,掷骰子的结果可以是1到6的任意整数。
概率分布(Probability Distribution): 概率分布描述了随机变量取每个可能值的概率。常见的概率分布包括二项分布、正态分布等。
期望值(Expected Value): 期望值是随机变量在多次试验中平均可能达到的值。
方差(Variance): 方差衡量随机变量取值的分散程度,即其分布的广泛性。
听故事理解概率理论
在霍格沃茨,有一位名叫艾米的学生收到了一个神奇的糖果袋,袋子里有五种颜色的糖果:红色、蓝色、绿色、黄色和紫色。艾米想知道每次随机抽取一颗糖果时得到每种颜色的概率。
她记录了每种颜色糖果的数量:红色10颗,蓝色15颗,绿色5颗,黄色20颗,紫色10颗。总共有60颗糖果。
- 计算概率:
- 抽到红色糖果的概率是10/60。
- 抽到蓝色糖果的概率是15/60。
- 以此类推。
- 期望值:
- 如果每种颜色的糖果代表不同的分数(红色1分,蓝色2分等),艾米可以计算她期望得到的平均分数。
- 多次抽取:
- 艾米每天都抽取一颗糖果,记录下来。随着时间的推移,她会发现实际结果越来越接近她最初计算的概率。
通过这个故事,我们可以看到概率是如何在实际生活中被应用的,以及如何通过观察和记录来验证概率理论。这个简单的例子展示了概率的基本概念,并帮助我们理解概率在预测未来事件中的作用。
统计学术语
简单来说,只要 p<0.05, 我们就可以说,这个结论不是随即发生的,是受到一定因素影响的
统计学显著 statitical significant
统计学显著性是一个衡量结果不太可能是偶然发生的标准。在统计假设检验中,我们通常设置一个阈值(显著性水平),如0.05或5%,来决定一个统计结果是否显著。如果得到的p值小于这个阈值,我们就说结果在统计上是显著的。
以下是一些与统计学显著性相关的关键点:
假设检验
Null Hypothesis (H0): 一个基准假设,通常是表明没有效果或差异的假设,如两个样本的均值之间没有差异。例如,在药物测试中,零假设可能是新药物与安慰剂没有差异。
Alternative Hypothesis (H1): 这是与零假设对立的假设,即存在某种效果或差异,通常是研究者希望证实的假设。继续药物测试的例子,备择假设可能是新药物比安慰剂更有效。
P值
- P值: 给出了在零假设为真的情况下,观察到的数据或更极端数据出现的概率。一个低的p值(通常小于0.05)表明在零假设下这样的数据是不太可能的,因此我们拒绝零假设。
显著性水平(α)
- 显著性水平: 是在实验之前选择的一个阈值,它定义了拒绝零假设的标准。如果p值小于显著性水平(例如,α=0.05),我们认为结果在统计上显著。
Z值(Z-Score):
Z值是一个统计量,表示样本均值与假设的总体均值之间的差异,以标准误的单位来衡量。
计算Z值是进行Z检验的核心步骤。Z值是一个统计量,它表示样本均值与假设的总体均值之间的差异,用标准误差的单位来衡量。以下是计算Z值的公式和步骤:
Z值计算公式
Z值的计算公式是:
\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]
其中: - \(\bar{X}\) 是样本均值。 - \(\mu\) 是总体均值(根据零假设给出)。 - \(\sigma\) 是总体标准差。 - \(n\) 是样本大小。
计算步骤
确定样本均值 (\(\bar{X}\)):计算你的样本数据的平均值。
确定总体均值 (\(\mu\)):这通常是基于零假设给出的一个值。
确定总体标准差 (\(\sigma\)):这个值需要你事先知道或从历史数据中获得。
确定样本大小 (\(n\)):统计你的样本中有多少个观测值。
代入公式计算Z值:将上述值代入公式中计算。
示例
假设你有一个样本(如一组学生的考试成绩),样本均值为80分,总体均值(零假设)为75分,总体标准差为10分,样本大小为30人。代入公式:
\[ Z = \frac{80 - 75}{10 / \sqrt{30}} \approx 3.16 \]
这个Z值表示样本均值与总体均值之间差异的标准误倍数。根据这个Z值和预先设定的显著性水平(如0.05),你可以判断是否拒绝零假设。
类型 I 和 类型 II 错误
类型 I 错误(错误的拒绝真正的零假设): 当零假设实际上是真的时我们却拒绝了它,犯了类型 I 错误。显著性水平就是犯这种错误的概率。当零假设实际上是错误的,但是没有被拒绝时发生的错误。这相当于假阳性,比如错误地认为无效药物是有效的。
类型 II 错误(错误地接受了一个假的零假设): 当零假设是假的但是我们没有拒绝它时,我们犯了类型 II 错误。这个错误的概率用β表示。当零假设实际上是错误的,但是没有被拒绝时发生的错误。这相当于假阴性,比如没有识别出有效药物的效果。
简单故事理解Z检验
我们先来学习Z检验(Z-Test),它是统计学中一种常用的假设检验方法。Z检验主要用于确定样本数据是否有足够的证据来拒绝关于总体参数的零假设。
故事名称:“霍格沃茨的魔药效果测试”
在霍格沃茨,药剂学教授想要测试一种新魔药的效果是否优于传统魔药。为此,他进行了一个Z检验。
- 实验设置:
- 零假设:新魔药的效果与传统魔药相同。
- 备择假设:新魔药的效果优于传统魔药。
- 收集数据:
- 教授从学生中随机抽取一个样本,给他们新魔药,并记录其效果。
- 进行Z检验:
- 教授计算出Z值,比较这个值与标准正态分布的临界值。
- 做出结论:
- 如果Z值表明新魔药的效果显著优于传统魔药,教授则拒绝零假设,接受备择假设。
通过这个故事,我们可以看到Z检验如何在实际研究中被应用,以及它是如何帮助我们做出基于数据的决策。
听故事学统计学显著
让我们通过一个简单的故事来理解统计学中的显著性,以及为什么通常使用 \(p < 0.05\) 作为显著性水平的标准。
故事发生在一个小村庄,村里有一个流言说,喝了村边小河的水可以提高记忆力。为了验证这个说法,村里的科学家小明决定进行一个实验。
小明选择了100名村民,随机分为两组,每组50人。一组喝河水,另一组喝普通水。一个月后,小明对两组人进行记忆力测试。测试结果显示,喝河水的那组人的平均记忆力得分略高于另一组。
但小明知道,仅凭观察到的差异不能就认为河水真的能提高记忆力。这里就涉及到了统计学的显著性测试。小明计算了一个p值,这个p值表示如果河水真的不影响记忆力,那么观察到的差异或更大差异发生的概率。
如果p值很小,比如小于0.05,这意味着如果河水真的不影响记忆力,那么观察到现有差异的概率只有5%。这是很小的概率,因此小明可以相对有信心地说,这个差异不是偶然发生的,河水可能真的有提高记忆力的效果。
相反,如果p值大于0.05,这意味着即使河水不影响记忆力,观察到现有差异的概率也不算小。在这种情况下,小明不能肯定河水确实有作用,因为观察到的差异可能仅仅是偶然发生的。
这个故事说明了统计显著性的概念,以及为什么p值小于0.05常被用作决定结果是否显著的标准。这个标准帮助研究者区分观察到的效果是真实的还是偶然发生的。
在一个古老的村庄里,有一个传说,村庄中心的古井水具有治愈疾病的神奇功效。村里的治疗师小李对此表示怀疑,并决定进行实验来验证这个说法。
小李的实验包括两组人群:一组喝古井水,另一组喝普通井水。他的零假设是古井水与普通井水在治疗效果上没有差异。相对的,他的备择假设是古井水比普通井水有更好的治疗效果。
几周后,小李观察到喝古井水的人群似乎恢复得更快,于是他拒绝了零假设,认为古井水确实有特殊的治愈效果。但这里有两种可能的错误:
类型一错误:如果实际上古井水并无特殊效果,小李的结论就是错误的。这就像他错误地认为古井水有效,实际上可能只是因为其他因素,如心理作用或自然恢复。
类型二错误:如果古井水确实有治愈效果,但小李没有观察到显著差异,继续相信零假设,那么他就忽略了古井水的真实效果。
在统计学中,我们通过显著性测试(如 p 值)来决定是否拒绝零假设,同时也意识到可能犯下类型一或类型二错误的风险。这就是为什么统计结论通常是说“我们发现了证据支持……”而不是“我们证明了……”,因为总存在一些不确定性。
统计力量
- 统计力量: 是正确拒绝错误零假设的能力,即发现实际存在的效果的能力。统计力量与样本大小、效应量和显著性水平有关。
总结一下,统计学显著性是我们用来确定观察到的数据模式是否不太可能仅仅是随机变异的一种方法。通过设定显著性水平,并计算得到的统计量的p值,我们能够决定是否拒绝零假设。如果拒绝了零假设,我们通常会声称发现了统计学上显著的效果。这是一种通过数据来支持或反对某个科学假设的方法。
置信区间
置信区间是一个来自于统计学的概念,它提供了对未知参数(比如平均数、比例、差异等)可能值的一个区间估计。在实际应用中,这个区间表示了,在一定的置信水平(常见的如95%)下,参数的真实值有很大概率落在这个区间内。这是基于抽样分布和概率的概念,意味着如果我们重复抽样和计算置信区间很多次,那么有95%的这些区间将包含真实的参数值。
当我们在Tukey的多重比较结果中看到一个置信区间时,它代表了:
lwr
:置信区间的下限(Lower bound)upr
:置信区间的上限(Upper bound)
如果置信区间的两个边界值lwr
和upr
都是正数,或者都是负数,那么我们可以说这个置信区间不包括0,这通常意味着差异是统计学上显著的。相反,如果置信区间从负数跨越到正数(即lwr
是负的,upr
是正的),这个区间就包含了0,通常表明差异不是统计学上显著的。
例如,假设一个置信区间是(-1.79, 1.08):
- 这个置信区间的下限是-1.79,上限是1.08。
- 因为这个区间包括了从负数到正数的值,所以它包含了0。
- 这表示我们不能拒绝两组之间没有差异的假设。
在实际应用中,置信区间的宽度也提供了一定的信息,更宽的置信区间意味着更大的不确定性。置信区间的宽度受样本大小、变异性以及置信水平的影响。更大的样本、更低的变异性或更低的置信水平(如90%)通常会导致更窄的置信区间,表示估计更精确。
概率分布是一个统计学的重要概念,用于描述随机变量或一系列随机变量在不同结果上的分布情况。每种概率分布都有其特定的特性和应用场景。我们可以通过中英文定义和一个小故事来理解几种常见的概率分布。
常见概率分布的定义
- 均匀分布(Uniform Distribution):
- 定义:在均匀分布中,所有事件发生的概率是相等的。例如,掷一个公平的骰子,得到1到6中任一数字的概率都是相同的。
# 均匀分布
x <- runif(10000, min=0, max=1) # 生成10000个在0到1之间的均匀分布随机数
hist(x, main="Uniform Distribution", col="lightblue", xlab="Value", ylab="Frequency")
- 二项分布(Binomial Distribution):
- 定义:二项分布描述了在固定次数的独立实验中,成功次数的概率分布,其中每次实验的结果只有两种可能:成功或失败。例如,抛硬币10次,出现正面的次数。
# 二项分布
x <- rbinom(10000, size=10, prob=0.5) # 进行10000次实验,每次实验10次抛硬币,硬币正面朝上的概率为0.5
hist(x, main="Binomial Distribution", col="lightgreen", xlab="Number of Successes", ylab="Frequency")
- 正态分布(Normal Distribution):
- 定义:正态分布是一种对称的钟形分布,其中大多数观测值围绕着一个中心点(均值)聚集。例如,人类的身高分布。
# 正态分布
x <- rnorm(10000, mean=0, sd=1) # 生成10000个均值为0,标准差为1的正态分布随机数
hist(x, main="Normal Distribution", col="pink", xlab="Value", ylab="Frequency")
- 泊松分布(Poisson Distribution):
- 定义:泊松分布用于描述在固定时间或空间内发生某事件的次数。例如,一个小时内到达的顾客数。
# 泊松分布
x <- rpois(10000, lambda=3) # 生成10000个λ(事件发生率)为3的泊松分布随机数
hist(x, main="Poisson Distribution", col="lightgrey", xlab="Number of Events", ylab="Frequency")
听故事学统计
故事名称:“霍格沃茨的魔法数据实验”
在霍格沃茨,一群学生决定用不同的概率分布来分析学校的日常活动。
- 均匀分布实验:
- 他们首先观察了掷骰子的结果,记录了每个数字出现的频率,发现每个数字出现的概率大致相等。
- 二项分布实验:
- 接着,他们对学生进行了一项实验,让每位学生抛硬币10次,记录正面出现的次数,结果符合二项分布的特征。
- 正态分布实验:
- 然后,他们测量了全校学生的身高,并发现数据大多围绕平均身高聚集,呈现出正态分布的形态。
- 泊松分布实验:
- 最后,他们记录了图书馆入口每小时进入的学生数,发现这个数据符合泊松分布。
通过这些实验,学生们不仅理解了不同概率分布的特性,还学会了如何将这些分布应用于实际数据。
检验统计假设的方法 [ANOVA(方差分析)和T Test (T检验)]
- t检验 (T Test):
- 用途:t检验主要用于比较两组数据的均值是否有显著差异。
- 类型:有独立样本t检验和配对样本t检验。独立样本t检验比较两个不同组别的均值,而配对样本t检验用于比较同一组受试对象在不同条件下的均值。
- 假设:通常涉及的假设包括零假设(两组均值无显著差异)和备择假设(两组均值有显著差异)。
- ANOVA(方差分析):
- 用途:ANOVA用于比较三个或更多组数据的均值是否存在显著差异。
- 类型:有单因素ANOVA和多因素ANOVA。单因素ANOVA用于一个自变量(因素)和一个因变量,而多因素ANOVA用于两个或更多自变量。
- 假设:ANOVA的零假设通常是所有组的均值相等,而备择假设是至少有一组的均值与其他组不同。
在使用这些测试时,有几个关键点需要注意:
- 数据的正态性和方差齐性:t检验和ANOVA通常要求数据近似正态分布,并且(对于多组比较)具有相似的方差(即方差齐性)。
- 样本独立性:这些测试假设不同组的样本是独立的。
- 解释结果:这些测试可以告诉我们是否有显著差异,但不能说明差异的大小或方向。
选择哪种测试取决于你的具体研究问题、数据的性质以及你想比较的组别数量。在实际应用中,正确选择和执行这些测试对于得出有效和可靠的结论至关重要。
T检验(T test)简介
T检验是由威廉·戈塞特(William Sealy Gosset)在1908年发表,他使用笔名“Student”,因此T检验有时也被称为“Student’s T-test”。
T检验的类型
- 单样本T检验(One-Sample T-Test):
- 用于比较单个样本的均值与已知的总体均值。
- 独立样本T检验(Independent Two-Sample T-Test):
- 用于比较两个独立样本的均值。
- 配对样本T检验(Paired Sample T-Test):
- 用于比较同一组受试对象在两种不同条件下的均值。
T检验的假设
- 零假设(\(H_0\)): 两个样本均值之间没有显著差异。
- 备择假设(\(H_1\) 或 \(H_a\)): 两个样本均值之间有显著差异。
T值的计算
T值的计算取决于T检验的类型。对于独立样本T检验,T值的计算公式为:
\[ T = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{s^2 (\frac{1}{n_1} + \frac{1}{n_2})}} \]
其中: - \(\bar{X}_1\) 和 \(\bar{X}_2\) 分别是两个样本的均值。 - \(s^2\) 是两个样本方差的加权平均。 - \(n_1\) 和 \(n_2\) 是两个样本的大小。
故事理解T检验
故事名称: “霍格沃茨的魔法药水实验”
霍格沃茨的药剂课上,教授想要比较两种不同的魔法药水对植物生长的影响。他将学生分成两组,每组使用不同的药水。
- 实验设计:
- 第一组学生使用药水A,第二组使用药水B。
- 记录两组植物的生长情况。
- 进行T检验:
- 教授计算两组植物生长高度的平均值,并使用T检验来确定两种药水的效果是否有显著差异。
- 得出结论:
- 如果T值表明两组之间有显著差异,则教授可以推断这两种药水的效果不同。
这个故事说明了T检验在实验数据分析中的应用,帮助我们确定两个样本间是否存在显著的统计差异。
第一步:收集数据
假设我们有两组数据,每组数据包含药水对植物生长高度的影响。这里,我们会随机生成一些示例数据来模拟这个实验。
# 随机生成示例数据
set.seed(123) # 为了结果可重现
growth_A <- rnorm(30, mean=5, sd=1.5) # 药水A的效果
growth_B <- rnorm(30, mean=6, sd=1.5) # 药水B的效果
第二步:整理数据
对数据进行基本的探索,比如计算描述性统计量,或者绘制盒形图来查看数据分布。
# 描述性统计
summary(growth_A)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.050 3.993 4.889 4.929 5.733 7.680
summary(growth_B)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.677 5.545 6.071 6.268 7.136 9.253
# 绘制盒形图
boxplot(growth_A, growth_B, names=c("药水A", "药水B"),
ylab="植物生长高度", col=c("lightblue", "lightgreen"))
第三步:进行T检验
使用Welch两样本T检验来比较两组数据。
- t值(-3.7926): 指示两个样本均值之间的标准化差异。负值表明growth_A的均值低于growth_B。
- 自由度(56.559): 由于采用Welch近似,这个自由度不一定是整数。
- p值(0.0003646): 这个非常小的p值表明两个样本均值之间存在显著差异。
- 95%置信区间(-2.0448139 到 -0.6315124): 我们可以95%的置信度认为,真实的均值差异位于这个区间内。
- 样本均值: growth_A和growth_B的均值分别为4.929344和6.267508。
# 独立样本T检验
t.test(growth_A, growth_B)
##
## Welch Two Sample t-test
##
## data: growth_A and growth_B
## t = -3.7926, df = 56.559, p-value = 0.0003646
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.0448139 -0.6315124
## sample estimates:
## mean of x mean of y
## 4.929344 6.267508
第四步:结果分析
- T值(t = -3.7926):
- T值是一个统计量,表示样本均值之间差异的大小。这里的值是-3.7926,表明两个样本均值之间有显著差异。负值表示第一个样本(growth_A)的均值小于第二个样本(growth_B)的均值。
- 自由度(df = 56.559):
- 自由度是进行T检验所依据的样本信息量。在韦尔奇检验中,自由度会根据样本大小和方差进行调整,以更准确地反映实验的不确定性。
- P值(p-value = 0.0003646):
- P值是观察到的数据(或更极端的数据)在零假设为真的情况下出现的概率。这里的P值非常小(远小于0.05),意味着在假设两组间无差异的情况下,观察到这样或更极端差异的概率非常低。因此,我们有足够的证据拒绝零假设,接受备择假设,认为两个样本均值之间存在显著差异。
- 95%置信区间(-2.0448139 到 -0.6315124):
- 这个区间表示我们有95%的信心认为真实的均值差异落在这个范围内。由于这个区间不包括0,这进一步支持了两个样本均值存在显著差异的结论。
- 样本均值:
- mean of x (4.929344) 和 mean of y (6.267508) 分别是两个样本的均值。这表明growth_B样本的均值高于growth_A样本。
综上所述,这个T检验的结果表明,两种魔法药水对植物生长的影响存在显著差异,且药水B的效果似乎优于药水A。
ANOVA(方差分析)
我们将假设我们正在研究三种不同种类的细胞在不同试剂处理下的生长效果。目标是判断试剂类型是否对细胞生长有显著影响。
第一步:收集数据
首先,你会收集数据。比如你有三种细胞(A、B、C),并且有两种试剂类型(X和Y)。你测量了使用不同试剂后细胞的生长速度。数据可能是这样收集的:
- Cell A with Reagents X
- Cell A with Reagents Y
- Cell B with Reagents X
- Cell B with Reagents Y
- Cell C with Reagents X
- Cell C with Reagents Y
每个组合收集30个数据点。
第二步:整理数据
将数据整理成一个data.frame
对象,例如:
# 假设的数据
set.seed(123) # 确保结果的可重复性
cell_growth <- data.frame(
cell_type = factor(rep(c("A", "B", "C"), each = 60)),
reagents_type = factor(rep(c("X", "Y"), each = 30)),
days = c(rnorm(30, mean = 35, sd = 3.5),
rnorm(30, mean = 40, sd = 3.5),
rnorm(30, mean = 30, sd = 3.5),
rnorm(30, mean = 45, sd = 3.5),
rnorm(30, mean = 25, sd = 3.5),
rnorm(30, mean = 50, sd = 3.5))
)
head(cell_growth)
## cell_type reagents_type days
## 1 A X 33.03834
## 2 A X 34.19438
## 3 A X 40.45548
## 4 A X 35.24678
## 5 A X 35.45251
## 6 A X 41.00273
第三步:进行ANOVA分析
我们使用ANOVA来看看试剂类型是否显著影响细胞生长速度。
# ANOVA
aov_result <- aov(days ~ cell_type * reagents_type, data = cell_growth)
summary(aov_result)
## Df Sum Sq Mean Sq F value Pr(>F)
## cell_type 2 4 2 0.187 0.83
## reagents_type 1 10837 10837 974.933 <2e-16 ***
## cell_type:reagents_type 2 3138 1569 141.159 <2e-16 ***
## Residuals 174 1934 11
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
如何分析这个模型结果:
想象你是一位生物学家,正在研究不同类型的细胞(cell_type
)和不同试剂(reagents_type
)对细胞生长天数的影响。你设计了一个实验来评估:
- 不同细胞类型是否影响细胞生长天数。
- 不同试剂是否影响细胞生长天数。
- 细胞类型和试剂是否相互作用影响细胞生长天数。
你的实验结果包括以下几个方面:
Df(自由度):这是指你在分析数据时自由选择数据点的能力。例如,如果你有三种细胞类型,自由度就是2(一旦你知道了两种细胞的生长情况,第三种就不再自由)。自由度。它是指在计算某个统计量时,能够自由变动的值的个数。这里,cell_type有2个自由度(通常是类别数减1),reagents_type有1个自由度,它们的交互作用 cell_type:reagents_type有2个自由度,最后Residuals(残差,也就是无法由模型解释的变异)有174个自由度。
Sum Sq(总平方和):这是所有数据点偏离整体平均值的平方和,它衡量的是因变量(这里是细胞生长天数)的总变异量。在你的实验中,总平方和越大,表示变异越大,相应因素的影响可能就越显著。它表示由该因子引起的变异量总和。在这里,cell_type引起的变异很小,只有4,而reagents_type引起的变异非常大,为10837。
Mean Sq(均方):这是总平方和除以相应的自由度得到的,它代表了每个因素引起的平均变异大小。它是和平方和除以对应的自由度,反映了每个因子每个自由度上的平均变异量。比如reagents_type的均方是10837,这意味着每一个reagents_type类别带来的平均变异量是10837。
F value:这是用来比较模型中的均方与残差均方的比率。如果这个比率足够大,说明模型中的对应因素有统计学意义。F值是均方之间的比率。它用于检验我们的组间是否有显著差异。在这里,reagents_type的F值是974.933,而cell_type:reagents_type的交互作用的F值是141.159,这两个都相对较高,表明它们各自和共同都对结果有显著影响。
Pr(>F)(P值):这是你观测到的F值或更极端情况出现的概率。一个低P值(通常小于0.05)表明结果具有统计学意义,即非随机差异的可能性很高。这个是P值,用来告诉我们观察到的数据在没有任何效应的情况下(即零假设),出现的概率。如果这个值很小,它表明这种情况出现的可能性很低,我们就可以拒绝零假设。在这个输出中,reagents_type和cell_type:reagents_type的P值都远远小于0.001(标记为***),这表示它们的影响是非常显著的。而cell_type的P值为0.83,表明它并没有显著影响
根据你的实验结果:
cell_type
的P值为0.83,表明不同的细胞类型对细胞生长天数的影响不显著,细胞类型的变化并不会导致生长天数的显著变化。reagents_type
的P值非常低(<0.001),这意味着不同的试剂显著影响了细胞的生长天数。换句话说,试剂的种类是一个影响细胞生长天数的重要因素。cell_type
和reagents_type
的交互作用也有非常低的P值(<0.001),表示细胞类型和试剂的组合对细胞生长天数有显著的联合影响。也就是说,某些试剂可能对某些细胞类型的生长影响特别大。
综上所述,你的实验表明,尽管不同类型的细胞本身对生长天数没有显著不同的影响,但不同的试剂和试剂与细胞类型的组合却对生长天数有显著的影响。
第四步:检查模型假设
我们需要检查残差是否近似正态分布,这是ANOVA的一个假设。
在实验室研究中,确保数据满足ANOVA的假设是非常重要的,因为这直接关系到你的结论是否可靠。如果残差分布显示出偏离正态分布的迹象,你可能需要转换数据或者使用非参数统计方法,这些方法不依赖于正态分布的假设。这样,你可以确保你的研究结论是建立在坚实的统计基础之上的。
如何检查残差的正态性?
Q-Q图(Quantile-Quantile图):这种图形化方法可以直观地比较残差分布和标准正态分布。如果残差是正态分布的,那么Q-Q图上的点将近似地落在一条直线上。
qqnorm(residuals(aov_result))
qqline(residuals(aov_result))
直方图:你可以绘制残差的直方图,查看它是否形似钟形曲线。
hist(residuals(aov_result))
Shapiro-Wilk测试:这是一个统计测试,用来判断一个样本是否来自于正态分布的总体。如果P值小于显著性水平(通常是0.05),则表示残差不遵循正态分布。Shapiro-Wilk测试适用于小样本数据(通常n<50),对于大样本数据,即使是微小的偏离正态性也可能导致显著的测试结果,因此对大样本数据(例如n>2000),使用这个测试的结果需要谨慎解读。对于较大的样本,你可能需要依赖于图形化方法(如Q-Q图)或其他正态性检验方法(如Kolmogorov-Smirnov测试)来评估数据的正态性。
shapiro_res_test <- shapiro.test(residuals(aov_result))
shapiro_res_test
##
## Shapiro-Wilk normality test
##
## data: residuals(aov_result)
## W = 0.98798, p-value = 0.1298
W: Shapiro-Wilk统计量的值是0.98798,这是一个接近1的值,意味着数据接近正态分布。 p-value: p-value是0.1298,这意味着没有足够的证据拒绝残差正态分布的原假设。换句话说,这个p-value高于0.05的常用显著性水平,我们不能断定残差不遵循正态分布。
这个Shapiro-Wilk测试的结果表明,ANOVA分析的残差满足正态分布的假设,因此,从正态性的角度看,使用ANOVA方法是合适的。
ANOVA 小课堂
在使用ANOVA等统计测试时,我们通常假设数据满足一定的条件,以确保测试结果的有效性。对于ANOVA,一个重要的假设是数据的残差(实际观测值与模型预测值之差)近似正态分布。现在,让我们深入了解这个概念:
正态分布是什么?
正态分布,也称为高斯分布,是一个在统计学中非常重要的概率分布。它的图形表现为著名的钟形曲线,这个曲线是对称的,并且两端会无限接近于横轴但永远不会触及。在正态分布中,大部分的数据点会集中在平均值(中心)附近,而远离平均值的极端值较少。
为什么残差要近似正态分布?
ANOVA的一些关键数学性质假设数据来自近似正态分布的总体。如果残差分布不是正态的,那么ANOVA的结果可能不准确或具有误导性,因为:
- 非正态分布的数据可能表明存在异常值或数据不均匀,这可能影响ANOVA的F值和P值的计算。
- ANOVA的统计显著性测试依赖于残差的正态性;如果残差不是正态分布,P值可能不可靠。
第五步:Post hoc 测试
如果ANOVA显示显著性,你可能需要进行post hoc测试来查看哪些组之间存在显著差异。
# TukeyHSD进行多重比较
TukeyHSD(aov_result)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = days ~ cell_type * reagents_type, data = cell_growth)
##
## $cell_type
## diff lwr upr p adj
## B-A -0.35123046 -1.790178 1.087717 0.8325703
## C-A -0.28192209 -1.720870 1.157026 0.8885806
## C-B 0.06930837 -1.369639 1.508256 0.9928783
##
## $reagents_type
## diff lwr upr p adj
## Y-X 15.5185 14.53756 16.49944 0
##
## $`cell_type:reagents_type`
## diff lwr upr p adj
## B:X-A:X -4.749665 -7.230388 -2.268943 1.8e-06
## C:X-A:X -10.477668 -12.958391 -7.996946 0.0e+00
## A:Y-A:X 5.789047 3.308325 8.269770 0.0e+00
## B:Y-A:X 9.836252 7.355529 12.316974 0.0e+00
## C:Y-A:X 15.702871 13.222149 18.183594 0.0e+00
## C:X-B:X -5.728003 -8.208725 -3.247280 0.0e+00
## A:Y-B:X 10.538713 8.057990 13.019435 0.0e+00
## B:Y-B:X 14.585917 12.105195 17.066640 0.0e+00
## C:Y-B:X 20.452537 17.971814 22.933259 0.0e+00
## A:Y-C:X 16.266716 13.785993 18.747438 0.0e+00
## B:Y-C:X 20.313920 17.833198 22.794643 0.0e+00
## C:Y-C:X 26.180540 23.699817 28.661262 0.0e+00
## B:Y-A:Y 4.047205 1.566482 6.527927 7.6e-05
## C:Y-A:Y 9.913824 7.433102 12.394547 0.0e+00
## C:Y-B:Y 5.866620 3.385897 8.347342 0.0e+00
Tukey的多重比较测试是用来在ANOVA分析之后进行的,它帮助我们了解哪些组之间的差异是显著的。这里是一个简化的解释:
diff
列表示了两组之间的平均差异。lwr
和upr
分别表示差异的95%置信区间的下限和上限。如果这个区间不包含0,那么我们可以说这两组之间有显著差异。p adj
是经过调整的p值,用来考虑进行多次比较时出现假阳性的风险。如果p adj
小于0.05,我们通常认为两组之间有显著差异。
cell_type
- 细胞类型B和A之间的差异不显著(p adj = 0.8325703),因为置信区间包括了0。
- 细胞类型C和A之间的差异也不显著(p adj = 0.8885806),因为置信区间包括了0。
- 细胞类型C和B之间的差异也不显著(p adj = 0.9928783),因为置信区间包括了0。
reagents_type
- 试剂类型Y和X之间的差异非常显著(p adj = 0),因为置信区间不包含0,而且差异很大。
cell_type:reagents_type
- 当我们考虑细胞类型和试剂类型的组合时,差异变得复杂。我们看到,例如,细胞类型B在试剂X条件下与细胞类型A在试剂X条件下相比,存在显著差异(p adj = 1.8e-06)。
- 同样,其他组合比较,如C:X 与 A:X,A:Y 与 A:X 等,差异都是显著的(p adj 接近于0),意味着这些条件下的平均值差异非常显著。
简而言之,Tukey的测试告诉我们,在细胞类型上没有找到显著差异,但在试剂类型上以及细胞类型和试剂类型的组合上发现了显著差异。这可能意味着,尽管单独看细胞类型时没有差异,但当我们将细胞类型与不同试剂类型结合时,这些条件如何影响细胞的效果则有明显不同。
第六步:可视化结果
# 使用ggplot2绘图
library(ggplot2)
ggplot(cell_growth, aes(x = reagents_type, y = days, fill = cell_type)) +
geom_boxplot() +
facet_wrap(~ cell_type) +
theme_minimal() +
labs(title = "Cell Growth with Different Regents", x = "Reagents Type", y = "Days")
最后,我们可视化数据来直观显示差异。
多因素ANOVA (Multi-factor ANOVA 或 MANOVA)
多因素方差分析(Multi-factor ANOVA 或 MANOVA)是一种统计方法,用于分析两个或更多因素(独立变量)对一个或多个因变量的影响。这种方法尤其适用于研究设计中涉及多个变量,并且想要了解这些变量之间相互作用的情况。
Multi-factor ANOVA的基本概念
- 因素(Factors):
- 在多因素ANOVA中,因素是影响因变量的独立变量。例如,如果你正在研究肥料类型和灌溉量对植物生长的影响,则肥料类型和灌溉量都是因素。
- 水平(Levels):
- 每个因素可以有两个或多个水平。例如,肥料类型可以有有机肥和化学肥两个水平。
- 因变量(Dependent Variables):
- 被研究的结果变量。在前面的例子中,植物的生长速度或生长高度可以是因变量。
- 交互作用(Interactions):
- 当两个或更多因素的组合效应与它们各自独立效应的简单相加不同,我们称之为交互作用。例如,某种特定肥料在特定灌溉水平下可能效果更佳。
分析步骤
进行多因素ANOVA分析通常包括以下步骤:
- 模型设定:
- 设定一个包含所有主要效应和可能的交互作用的统计模型。
- 假设检验:
- 对每个因素的影响以及它们之间的交互作用进行假设检验。
- 结果解释:
- 解释各因素对因变量的影响以及它们之间是否有显著的交互作用。
示例应用
假设你正在研究不同的教学方法(在线、面对面)和学习材料类型(视觉、听觉)对学生考试成绩的影响。在这里,教学方法和学习材料类型是两个因素,考试成绩是因变量。你可以使用多因素ANOVA来分析这两个因素以及它们的交互作用对考试成绩的影响。
多因素ANOVA能提供丰富的信息,帮助研究者理解多个变量及其交互作用如何影响结果变量。这种分析在多变量研究设计中非常有用,特别是在教育、心理学、生物学和市场营销等领域。
听故事学多因素ANOVA:
霍格沃茨的魔法植物研究
在霍格沃茨,草药学教授进行了一项实验,研究不同的光照条件和土壤类型对魔法植物生长的影响。实验的目的是确定这些因素是否单独或共同影响植物的生长速度。
实验设计
- 因素:
- 光照条件(低光、中光、高光)
- 土壤类型(普通土壤、富营养土壤)
- 因变量:
- 植物生长高度(厘米)
- 数据收集:
- 实验持续30天,每天测量植物的生长高度。
第一步:收集数据
# 安装和加载所需的包
if (!require("dplyr")) install.packages("dplyr")
## Loading required package: dplyr
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
if (!require("ggplot2")) install.packages("ggplot2")
if (!require("car")) install.packages("car")
## Loading required package: car
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
library(dplyr)
library(ggplot2)
library(car)
# 假设的数据集
set.seed(123)
data <- expand.grid(Light = c("Low", "Medium", "High"),
Soil = c("Regular", "Nutrient-rich"))
data$Growth <- rnorm(6, mean = c(5, 7, 9, 6, 8, 10), sd = 1.5)
第二步:查看数据结构
这部分输出显示了两组数据(假设为growth_A和growth_B)的描述性统计量,包括最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。
- growth_A 的统计数据表明,该样本的均值为4.929,中位数为4.889,数据范围从2.050到7.680。
- growth_B 的统计数据显示,该样本的均值为6.268,中位数为6.071,数据范围从3.677到9.253。
# 查看数据结构
str(data)
## 'data.frame': 6 obs. of 3 variables:
## $ Light : Factor w/ 3 levels "Low","Medium",..: 1 2 3 1 2 3
## $ Soil : Factor w/ 2 levels "Regular","Nutrient-rich": 1 1 1 2 2 2
## $ Growth: num 4.16 6.65 11.34 6.11 8.19 ...
## - attr(*, "out.attrs")=List of 2
## ..$ dim : Named int [1:2] 3 2
## .. ..- attr(*, "names")= chr [1:2] "Light" "Soil"
## ..$ dimnames:List of 2
## .. ..$ Light: chr [1:3] "Light=Low" "Light=Medium" "Light=High"
## .. ..$ Soil : chr [1:2] "Soil=Regular" "Soil=Nutrient-rich"
第三步:数据可视化
# 数据可视化
ggplot(data, aes(x = Light, y = Growth, fill = Soil)) +
geom_bar(stat = "identity", position = position_dodge()) +
theme_minimal() +
labs(title = "Plant Growth under Different Light Conditions and Soil Types",
x = "Light Condition",
y = "Growth Height (cm)")
第四步:进行多因素ANOVA
summary(anova_result)
将提供每个因素和交互作用的显著性测试结果。因素(Light和Soil)和交互作用(Light:Soil): 这显示了光照条件(Light)、土壤类型(Soil)和它们的交互作用对植物生长(Growth)的影响。
Df(自由度): 每个因素和交互作用的自由度。
Sum Sq(平方和): 反映了每个因素和交互作用对模型中总变异的贡献。
Mean Sq(均方): 平方和除以对应的自由度,用于F检验。
光照条件(Light):
- 自由度(Df)为2,说明有三个光照水平。
- 平方和(Sum Sq)为48.22,表示光照条件对植物生长高度变异的总贡献。
- 均方(Mean Sq)为24.111,是平方和除以自由度的结果,用于F检验计算F值。
土壤类型(Soil):
- 自由度(Df)为1,说明有两种土壤类型。
- 平方和(Sum Sq)为3.71,表示土壤类型对植物生长高度变异的总贡献。
- 均方(Mean Sq)为3.713,用于F检验计算F值。
光照和土壤的交互作用(Light:Soil):
- 自由度(Df)为2,表示交互项的组合数量减去1。
- 平方和(Sum Sq)为0.13,表示光照和土壤类型共同作用对生长高度变异的贡献。
- 均方(Mean Sq)为0.064,用于F检验计算F值。
在ANOVA分析中,我们会计算F值(均方除以误差项的均方)并查找对应自由度的F分布表,以确定每项效应的P值。虽然你没有提供F值和P值,但通常均方较大的来源意味着那些因素对因变量有较大影响。
# 进行多因素ANOVA
anova_result <- aov(Growth ~ Light * Soil, data = data)
summary(anova_result)
## Df Sum Sq Mean Sq
## Light 2 48.22 24.111
## Soil 1 3.71 3.713
## Light:Soil 2 0.13 0.064
第五步:检查交互作用
interaction.plot
用于可视化不同因素之间的交互作用。
# 检查交互作用
interaction.plot(data$Light, data$Soil, data$Growth,
type="b", col=c("red", "blue"),
pch=c(18, 24), xlab="Light Condition", ylab="Growth Height (cm)")
图形解释和结论
- 图表显示了不同光照条件下,两种土壤类型(富营养和普通)对植物生长高度的影响。
- 可以看到,随着光照条件的增强,不论是富营养土壤还是普通土壤,植物的生长高度都有所增加。
- 富营养土壤在所有光照水平下都比普通土壤支持更高的植物生长,这表明土壤类型对植物生长也有影响。
- 交互作用的平方和很小(0.13),均方也很小(0.064),这暗示光照条件和土壤类型的交互作用对植物生长高度可能没有显著影响。
综上所述,我们可以得出初步结论:
- 光照条件对植物生长高度有显著影响,且随着光照增强,植物生长高度增加。
- 土壤类型也对植物生长有影响,富营养土壤比普通土壤更有利于植物生长。
- 光照条件和土壤类型的交互作用对植物生长高度的影响不显著。
为了得出更确定的结论,我们需要查看ANOVA结果中的P值,以及进行事后分析(如TukeyHSD)来探讨不同组别间的具体差异。如果您提供了完整的ANOVA输出,包括F值和P值,我们可以进行更详细的解释。
线性回归
线性回归是用来预测一个变量(响应变量)与一个或多个其他变量(解释变量)之间关系的统计方法。
lm() 是 R 中进行线性回归的函数。函数 lm() 会输出一个模型,这个模型展示了变量间的线性关系。
研究细胞生长速率与培养基中添加的某种营养素的浓度之间的关系。你的目标是找出营养素浓度是否显著影响细胞生长,并确定它们之间的关系类型(是否是线性关系)。
实验步骤可能包括:
- 准备实验:
- 准备一系列含有不同浓度的营养素的培养基。
- 将相同数量的细胞接种到每个培养基中。
- 收集数据:
- 记录每个培养基中细胞的生长速率(可以通过测量一定时间内的细胞数量增加来估计)。
- 线性回归分析:
- 使用R进行线性回归分析,营养素浓度作为自变量(预测变量),细胞生长速率作为因变量(响应变量)
set.seed(2023) # 为了确保结果的可重复性
# 假设营养素浓度范围从0到10,我们有100个样本点
nutrient_concentration <- runif(100, min = 0, max = 10)
# 假设生长速率和营养素浓度有线性关系,但也加入一些随机噪声
# 例如:growth_rate = 2 * nutrient_concentration + error
growth_rate <- 2 * nutrient_concentration + rnorm(100, mean = 0, sd = 2)
# 创建数据框
experiment_data <- data.frame(
nutrient_concentration = nutrient_concentration,
growth_rate = growth_rate
)
head(experiment_data,n=2) # 显示数据框
## nutrient_concentration growth_rate
## 1 4.666139 10.661051
## 2 3.351910 4.522054
model <- lm(growth_rate ~ nutrient_concentration, data = experiment_data)
summary(model)
##
## Call:
## lm(formula = growth_rate ~ nutrient_concentration, data = experiment_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5713 -1.1114 -0.0621 1.1939 4.6746
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.91256 0.43283 2.108 0.0375 *
## nutrient_concentration 1.85464 0.07242 25.610 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.977 on 98 degrees of freedom
## Multiple R-squared: 0.87, Adjusted R-squared: 0.8687
## F-statistic: 655.9 on 1 and 98 DF, p-value: < 2.2e-16
这段输出是来自R中lm()
函数的线性模型摘要,它表示对实验数据进行的线性回归分析的结果。
调用(Call): 这部分只是告诉你进行线性回归分析时所用的公式。这里的公式是
growth_rate ~ nutrient_concentration
,意味着你想用营养素浓度来预测生长速率。残差(Residuals): 残差是实际观察到的生长速率与通过营养素浓度预测出来的生长速率之间的差异。
- 最小值(Min)和最大值(Max): 残差中的最低点和最高点。
- 第一四分位数(1Q)和第三四分位数(3Q): 残差的中间值,大约有一半的残差会比这个数小,一半会比这个数大。
- 中位数(Median): 所有残差的中点值。
系数(Coefficients): 这部分告诉我们预测模型中的数学关系。
- (Intercept): 当营养素浓度为0时的预测生长速率。这里是0.91256。
- nutrient_concentration: 这是营养素浓度的影响系数,可以理解为每增加一个单位的营养素浓度,生长速率平均增加1.85464个单位。
标准误差(Std. Error): 表示估计系数的准确性。数值越小,估计越精确。
t值(t value) 和 p值(Pr(>|t|)):
- 这两个值用来测试每个系数是否显著。如果p值很小(通常小于0.05),则我们认为该系数是统计显著的,对预测模型很重要。
- 在这里,营养素浓度的p值非常小(<2e-16),这意味着我们非常确信营养素浓度和生长速率之间有关联。
残差标准误差(Residual standard error): 这是残差的一个度量,可以理解为预测值的平均误差。在这个例子中是1.977。
多重R方(Multiple R-squared) 和 调整后的R方(Adjusted R-squared):
- 这些值告诉我们模型的拟合优度,即模型对观察数据的解释程度。0.87非常高,说明模型解释了大部分的变异性。
- 调整后的R方对自由度进行了调整,可以比较不同数量预测变量的模型。
F统计量(F-statistic) 和 它的 p值:
- 这个F统计量用来测试模型中至少有一个预测变量是统计显著的。
- 这个非常低的p值(< 2.2e-16)告诉我们,营养素浓度对生长速率有显著影响。
总的来说,这个线性模型表明营养素浓度是一个很好的生长速率预测因子,模型的拟合度很高。
绘制散点图和回归线
ggplot(experiment_data, aes(x = nutrient_concentration, y = growth_rate)) +
geom_point() + # 绘制散点
geom_smooth(method = "lm", se = FALSE) + # 绘制线性回归线,不包括置信区间
labs(x = "营养素浓度", y = "细胞生长速率", title = "营养素浓度与细胞生长速率的关系") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
如果p值小于你的显著性水平(通常为0.05),则可以认为营养素浓度与细胞生长速率之间存在显著的线性关系。而R平方值则告诉你模型拟合的好坏,即营养素浓度变化能解释细胞生长速率变化的比例。
卡方检验(Chi-Square Test)
卡方检验是一种统计检验,用于评估两个分类变量之间的关联性或独立性。它比较观察到的频率和在零假设下预期的频率之间的差异。卡方检验通常用于两种类型:
- 拟合优度检验(Goodness-of-Fit Test):
- 用来确定一个样本的分布是否符合预期的特定分布。
- 独立性检验(Test of Independence):
- 用来确定两个分类变量之间是否独立,没有关联。
故事:霍格沃茨的魔法糖果偏好
霍格沃茨的学生会组织了一次魔法糖果品尝活动,目的是看看不同年级的学生对糖果口味的偏好是否有显著差异。
数据收集: - 学生会准备了四种口味的糖果:柠檬、草莓、巧克力和蓝莓。 - 他们记录了每个年级选择每种口味糖果的学生数。
# 模拟数据
# 假设有四个年级和四种糖果口味
students <- c('Year 1', 'Year 2', 'Year 3', 'Year 4')
flavors <- c('Lemon', 'Strawberry', 'Chocolate', 'Blueberry')
# 创建一个矩阵,行代表年级,列代表糖果口味的选择次数
candy_choices <- matrix(c(50, 30, 20, 40, # Year 1
25, 45, 30, 20, # Year 2
30, 20, 40, 30, # Year 3
45, 15, 30, 30), # Year 4
nrow = 4, byrow = TRUE)
# 转换矩阵为数据框,并为行和列命名
candy_data <- data.frame(candy_choices)
rownames(candy_data) <- students
colnames(candy_data) <- flavors
# 显示数据框以验证数据
print(candy_data)
## Lemon Strawberry Chocolate Blueberry
## Year 1 50 30 20 40
## Year 2 25 45 30 20
## Year 3 30 20 40 30
## Year 4 45 15 30 30
卡方独立性检验: - 零假设(\(H_0\)): 学生的年级和糖果口味偏好之间是独立的,没有关联。 - 备择假设(\(H_a\)): 年级和糖果口味偏好之间有关联。
进行卡方检验: - 学生会使用收集的数据进行卡方检验,计算卡方统计量,比较观察频数和在零假设下期望频数的差异。
# 进行卡方检验
candy_chi_test <- chisq.test(candy_data)
# 打印检验结果
print(candy_chi_test)
##
## Pearson's Chi-squared test
##
## data: candy_data
## X-squared = 41.703, df = 9, p-value = 3.724e-06
结果: - 如果计算出的卡方统计量和相应的p值表明两个变量不独立,学生会可能会根据年级调整糖果的购买和分配。卡方检验告诉我们,基于提供的糖果选择次数数据,不同年级学生的糖果口味偏好是否存在统计学上的显著差异。检验的输出将包含卡方统计量、自由度和p值。如果p值小于显著性水平(通常是0.05),我们就可以拒绝零假设,着我们的故事里, p-value = 3.724e-06, 这表明不同年级的学生在糖果口味选择上存在显著差异。
结构方程模型 (SEM)
结构方程模型(SEM)是一种复杂的统计分析方法,用于研究变量之间的关系。它可以同时考虑多个因变量和自变量,还可以包括潜在变量(即无法直接观测的变量,比如智力、满意度等)。结构方程模型能够同时进行多重回归分析、路径分析以及因子分析。
举一个简单的例子来说明:
假设我们想研究工作满意度(这是一个潜在变量,因为它无法直接测量)如何影响员工的离职率。我们可以通过问卷调查来测量工作满意度的几个方面,如薪资满意度、工作环境、同事关系等。这些具体可测量的变量称为观测变量。
在结构方程模型中,我们首先使用因子分析将薪资满意度、工作环境、同事关系等观测变量组合成一个潜在变量“工作满意度”。然后,我们使用路径分析来研究这个潜在变量“工作满意度”与另一个观测变量“离职率”的关系。
在这个模型中,我们可以同时分析多个因素如何影响工作满意度,以及工作满意度又是如何影响离职率的。这样,结构方程模型帮助我们更全面地理解了工作满意度与离职率之间的复杂关系。
结构方程模型的优点在于它能够处理复杂的变量关系,包括多个因变量和潜在变量,这在传统的统计方法中往往难以做到。不过,它也需要较高的统计知识和对数据的理解。
RMSEA、TLI和CFI是在结构方程模型(SEM)中常用的术语。结构方程模型是一种统计技术,用于测试多个变量之间的关系。这些指标用于评估模型的拟合度,即假设的模型代表数据的程度。下面我用更通俗的语言解释这三个术语:
- RMSEA(均方根误差近似值 Root Mean Square Error of Approximation):
这是衡量模型拟合数据的好坏的一个指标。RMSEA的值在0到1之间,值越低表示拟合度越好。通常情况下,小于0.05的值被认为是很好的拟合,而0.08以下的值可以被接受。
- TLI(塔克-刘易斯指数 Tucker-Lewis Index):
这个指数是通过比较目标模型的卡方值与无关系模型(即变量之间没有关系的模型)的卡方值来评估模型拟合度的。TLI的值理论上在0到1之间,但有时也会超过1。接近1的值表示拟合度好。通常大于0.95的值表示模型拟合得很好。
- CFI(比较拟合指数 Comparative Fit Index):
CFI类似于TLI,也是通过比较目标模型与无关系模型的拟合度来评估的,但它考虑到了样本大小。CFI的值也是在0到1之间,越接近1表示拟合度越好。0.95或更高的CFI值通常被认为是好的拟合度。
- SRMR(Standardized Root Mean Square Residual :
是一种衡量结构方程模型(SEM)拟合度的指标。它主要用于评估模型残差的大小,可以理解为模型预测值与观测值之间差异的标准化平均值。以下是关于SRMR的一些关键点:
- 含义:
- SRMR是模型残差(即误差)的标准化均方根。它量化了模型中各观测变量间的协方差(或相关性)与数据中相应协方差(或相关性)之间的差异。
- 一个低的SRMR值表明模型与数据的残差较小,即模型对数据的拟合度较好。
- 理想值:
- 通常,SRMR值越小越好。一般认为,SRMR值小于0.08表示模型拟合良好。
- 有时也会使用更严格的标准,如小于0.05。
- 与其他拟合指标的关系:
- SRMR是一种绝对拟合指标,与相对拟合指标(如CFI - Comparative Fit Index,TLI - Tucker-Lewis Index)和基于惩罚的拟合指标(如AIC - Akaike Information Criterion,BIC - Bayesian Information Criterion)不同。
- SRMR与这些其他拟合指标一起使用,可以提供模型拟合度的全面视图。
- 使用注意事项:
- 虽然SRMR是一个有用的指标,但它不应该单独用来评估模型的拟合度。最好结合其他指标一起使用,如CFI、TLI和RMSEA。
- 在解释SRMR时,需要考虑模型的复杂性、样本大小以及数据的特性。
总的来说,SRMR提供了一个量化模型预测值与观测值之间差异大小的指标,是评价模型拟合度的重要工具之一。
这些指标用于全面评估提出的模型与数据的拟合程度。由于每个指标都有其局限性,且可以从不同角度反映模型拟合情况,因此使用多个指标是重要的。此外,这些指标的解释应结合研究的上下文,并与其他标准(如理论和以往研究)一起使用,而不应作为判断模型可接受性的唯一标准。