欢迎您访问无忧自考网!

p值的理解(P值的意义)

更新时间:2023-01-09 13:09:00作者:51data

作者拉胡尔阿加瓦尔

编译:荣怀阳

统计学没有复杂的公式,用数据科学直白的语言给你描述。

p值的理解(P值的意义)

最近有人问我如何简单的给外行人解释P值。我发现做这件事很难。

即使是知道P值的人,解释P值也总是很头疼,更何况是不懂统计学的人。

我去维基百科找了点东西,这是它的定义:

在统计假设检验中,对于给定的统计模型,P值或概率值是当原假设为真时,统计值(如两组样本均值之差)等于或大于实际观察结果的概率。

我的第一个想法是,也许他们是这样写的,所以没人能看懂。这里的问题在于统计学家喜欢使用的大量术语。

这篇文章是用通俗易懂的方式解释P值,而不是用统计学家的方式。

一个现实生活中的问题在我们的生活中,我们更相信一件事。

地球是圆的。或者地球绕着太阳转。太阳从东方升起。

对于那些不太明显,有不同程度不确定性的人,——运动能减肥吗?还是特朗普在下次选举中会赢/输?还是某一种药物有效?还是睡8小时对身体好?

前者是事实,后者因人而异。

所以,如果我找到你说运动不会影响体重怎么办?

所有去健身房的人可能都会说我坏话。但是有没有一个数学逻辑结构可以证明我是错的?

这就引出了假设检验的概念。

假设运动不能减肥?

所以我在上面例子中提到的锻炼不会影响体重。这是我的假设。我们暂且称之为零假设。目前来看,我们认为这种情况是正确的。

那些发誓要运动的人的另类假设是,——运动真的能减肥。

但是我们如何检验这些假设呢?我们收集的数据。我们收集了10个经常锻炼超过3个月的人的减肥数据。

平均样品重量损失=2千克

样品标准偏差=1千克

这能证明运动真的能减肥吗?乍一看,似乎运动真的很有益,因为运动的人平均瘦了2公斤。

但是你会发现,当你检验假设时,这个明确的发现并不总是如此。运动的人只瘦了0.2kg怎么办?你还那么确定运动能减肥吗?

那么,我们如何对此进行量化,并在背后进行一些数学计算呢?

让我们做一个实验。

让我们回到实验中的假设:

h:运动不影响体重。或者说=0

h:运动减肥。或者说0。

我们查看了10个人的数据样本,试图找出答案

观察平均值(运动的人体重减轻的值)=2kg。

观察样本的标准偏差=1千克

我们可以问自己一个问题:假设零假设成立,观察到样本平均值为2kg或更极端的概率是多少?假设零假设成立,观察到样本平均值为2kg或更极端的概率是多少?

假设我们可以这样计算—如果这个概率值很低(小于阈值),我们将拒绝零假设。否则,我们不拒绝零假设。* *为什么不拒绝?* *这个问题我以后再回答。

这个概率值实际上是一个p值。简单来说,就是我们假设零假设成立时,观察结果或极端结果的概率。

统计学家称这个阈值为显著性水平(),多数情况下取=0.05。

* *那么我们如何回答这个问题:* *假设零假设成立,体重减轻2kg或以上的概率是多少?

现在,我们来谈谈我们最喜欢的正态分布。

正态分布假设零假设成立,我们创建一个体重下降样本平均值的抽样分布。

中心极限定理:中心极限定理简单的说就是如果你有一个分布,均值和标准差,从这个分布中随机抽样,得到的样本分布也是近似正态分布。均值与原始分布相同,标准差为/n,其中为样本的标准差,n观察样本数。

根据零假设,我们已经知道了总体均值,所以,我们得到正态分布的均值为0,标准差为1/10。

抽样是样本平均值的分布。

样本的样本分布平均值来自总体分布。我们观察到一个特定的平均值,即Xobserved=2kg。

现在我们可以用一些统计软件来找出这条曲线下的面积:

从scipy.stats导入normimport numpy作为npp=1-norm.cdf(2,loc=0,Scale=1/NP。sqrt (10))打印(p) -

我们可以拒绝零假设。我们可以说我们的结果具有统计学意义,因为它们不是偶然发生的。

Z统计当你读到假设检验时,你可能听说过Z统计。就像我说的,术语。

这是上述基本思想的延伸。我们使用均值为0、方差为1的标准正态分布作为采样分布,并按以下方式转换观察值X:

用统计表更容易。在我们运行的示例中,我们的Z统计量为:

Z=(2-0)/(1/NP。SQRT (10)) PRINT (Z) -我们仍然可以找到p值,使用:

Scipy。将导入定额导入数量统计为NPP=1-定额。CDF (z,loc=0,scale=1) print (p) -。

一个重要的区别是,我们的陪审员永远无法确定,所以他们不会接受,他们只是拒绝。

我们之前说过,我们拒绝零假设,因为我们有足够的证据证明零假设是错误的。

但是如果P值高于显著性水平呢?那么我们说我们没有拒绝零假设。为什么不接受零假设?

最直观的例子就是利用一审法院。在一审法院,最初的假设是被告是无辜的。然后我们看到一些证据来反驳零假设。

如果我们不能反驳无效假设,法官不会说被告没有犯罪。法官只是说,根据所提供的证据,我们不能给被告定罪。

另一个例子:假设我们正在探索外星生命。假设零就是那个星球上没有生命。我们漫游了数英里寻找那个星球上的人/外星人。如果我们看到任何外星人,我们可以拒绝零假设,支持另一种选择。

然而,如果我们没有看到任何外星人,我们是否可以肯定地说这个星球上没有外星生命,或者接受我们的零假设?也许我们需要更多的探索,也许我们需要更多时间,也许我们已经找到了外星人。在这种情况下,我们不能接受零假设,只能拒绝。或者,我们可以说* *“我们没学到什么有趣的东西”* *。

在STAT101课程中,他们会教你如何在这种情况下写出令人费解的段落。“我们没有拒绝零假设,也没有得出没有足够的统计证据支持这个星球上存在外星生命的结论。”)我总是允许我的本科学生写:我们没有学到任何有趣的东西。

Riddikulus:用p值来检验假设,会让原来的假设看起来很可笑。

从本质上来说,假设检验就是检查我们的观察结果是否让原来的假设看起来很可笑。如果是,我们拒绝零假设,说我们的结果是有统计学意义的。除此之外,我们也没有学到什么有趣的东西,继续维持现状。

英文原文:3359 towards data science . com/p-value-explained-simple-for-data-scientists-4c 0cd 7044 f14

为您推荐

中国国家治理演变的十大命题与四种模式, 不少人都忽略了

✪ 史普原|浙江大学社会思想所✪ 李晨行|杭州师范大学公共管理学院【导读】如何认识中国的国家治理机制,是理解当代中国的关键。作为对中国社会塑造最为深刻的两种治理机制,单位制与项目制各有其关切,也各有其优劣。为此,有必要深入分析从单位制到项目

2023-01-09 13:06

2020军考大纲高中(高中数学考试大纲2020)

考核内容与目标考核考生对中学数学基本知识的了解、对基本定理的理解、对基本方法的应用,要求考生善于从本质上抓住数学知识之间深刻的内在联系,突出考查考生的空间想象能力、抽象概括能力、推理论证能力、运算求解能力以及应用意识和创新意识。一、考试范围

2023-01-09 13:03

2019高考理综数学考试目标与要求

本部分包括必考内容和选考内容两部分.必考内容为《课程标准》的必修内容和选修系列2的内容;选考内容为《课程标准》的选修系列4的“坐标系与参数方程”、“不等式选讲”等2个专题.必考内容(一)集合1.集合的含义与表示(1)了解集合的含义、元素与集

2023-01-09 13:00

真龙海韵(协方差除以标准差)

三者都是统计学中,对于样本的集合描述。一、定义公式1.标准差:2.方差:3.协方差:4.协方差相关系数:二、数学的实际含义1.方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度。2.标准差:方差开根号。3.协方差

2023-01-09 12:57

高斯分布表达式及各参数的意义(高斯分布的概率密度函数)

正态分布是与中的定量现象的一个方便模型。各种各样的心理学测试分数和现象比如计数都被发现近似地服从正态分布。开始前,先看几个重要概念:概率函数:把事件概率表示成关于事件变量的函数概率分布函数:一个随机变量ξ取值小于某一数值x的概率,这概率是x

2023-01-09 12:54

“群众”如何“组织”?从抗战时期的一场争论谈起 | 文化纵横

✪ 黄道炫 | 北京大学历史学系【导读】如何阅读中国共产党的历史文献,是理解20世纪中国革命的一把钥匙。一直以来,人们习惯于用读“经”或读“文件”的态度对待这些文字,这两种态度忽略了历史文献在当时的现实处境与实际对话的对象。有评论认为,应以

2023-01-09 12:51

加载中...