2022时政热点事件,2022最新时事新闻热点汇总
2022-11-13
更新时间:2023-01-09 13:09:00作者:51data
作者拉胡尔阿加瓦尔
编译:荣怀阳
统计学没有复杂的公式,用数据科学直白的语言给你描述。
最近有人问我如何简单的给外行人解释P值。我发现做这件事很难。
即使是知道P值的人,解释P值也总是很头疼,更何况是不懂统计学的人。
我去维基百科找了点东西,这是它的定义:
在统计假设检验中,对于给定的统计模型,P值或概率值是当原假设为真时,统计值(如两组样本均值之差)等于或大于实际观察结果的概率。
我的第一个想法是,也许他们是这样写的,所以没人能看懂。这里的问题在于统计学家喜欢使用的大量术语。
这篇文章是用通俗易懂的方式解释P值,而不是用统计学家的方式。
一个现实生活中的问题在我们的生活中,我们更相信一件事。
地球是圆的。或者地球绕着太阳转。太阳从东方升起。
对于那些不太明显,有不同程度不确定性的人,——运动能减肥吗?还是特朗普在下次选举中会赢/输?还是某一种药物有效?还是睡8小时对身体好?
前者是事实,后者因人而异。
所以,如果我找到你说运动不会影响体重怎么办?
所有去健身房的人可能都会说我坏话。但是有没有一个数学逻辑结构可以证明我是错的?
这就引出了假设检验的概念。
假设运动不能减肥?
所以我在上面例子中提到的锻炼不会影响体重。这是我的假设。我们暂且称之为零假设。目前来看,我们认为这种情况是正确的。
那些发誓要运动的人的另类假设是,——运动真的能减肥。
但是我们如何检验这些假设呢?我们收集的数据。我们收集了10个经常锻炼超过3个月的人的减肥数据。
平均样品重量损失=2千克
样品标准偏差=1千克
这能证明运动真的能减肥吗?乍一看,似乎运动真的很有益,因为运动的人平均瘦了2公斤。
但是你会发现,当你检验假设时,这个明确的发现并不总是如此。运动的人只瘦了0.2kg怎么办?你还那么确定运动能减肥吗?
那么,我们如何对此进行量化,并在背后进行一些数学计算呢?
让我们做一个实验。
让我们回到实验中的假设:
h:运动不影响体重。或者说=0
h:运动减肥。或者说0。
我们查看了10个人的数据样本,试图找出答案
观察平均值(运动的人体重减轻的值)=2kg。
观察样本的标准偏差=1千克
我们可以问自己一个问题:假设零假设成立,观察到样本平均值为2kg或更极端的概率是多少?假设零假设成立,观察到样本平均值为2kg或更极端的概率是多少?
假设我们可以这样计算—如果这个概率值很低(小于阈值),我们将拒绝零假设。否则,我们不拒绝零假设。* *为什么不拒绝?* *这个问题我以后再回答。
这个概率值实际上是一个p值。简单来说,就是我们假设零假设成立时,观察结果或极端结果的概率。
统计学家称这个阈值为显著性水平(),多数情况下取=0.05。
* *那么我们如何回答这个问题:* *假设零假设成立,体重减轻2kg或以上的概率是多少?
现在,我们来谈谈我们最喜欢的正态分布。
正态分布假设零假设成立,我们创建一个体重下降样本平均值的抽样分布。
中心极限定理:中心极限定理简单的说就是如果你有一个分布,均值和标准差,从这个分布中随机抽样,得到的样本分布也是近似正态分布。均值与原始分布相同,标准差为/n,其中为样本的标准差,n观察样本数。
根据零假设,我们已经知道了总体均值,所以,我们得到正态分布的均值为0,标准差为1/10。
抽样是样本平均值的分布。
样本的样本分布平均值来自总体分布。我们观察到一个特定的平均值,即Xobserved=2kg。
现在我们可以用一些统计软件来找出这条曲线下的面积:
从scipy.stats导入normimport numpy作为npp=1-norm.cdf(2,loc=0,Scale=1/NP。sqrt (10))打印(p) -
我们可以拒绝零假设。我们可以说我们的结果具有统计学意义,因为它们不是偶然发生的。
Z统计当你读到假设检验时,你可能听说过Z统计。就像我说的,术语。
这是上述基本思想的延伸。我们使用均值为0、方差为1的标准正态分布作为采样分布,并按以下方式转换观察值X:
用统计表更容易。在我们运行的示例中,我们的Z统计量为:
Z=(2-0)/(1/NP。SQRT (10)) PRINT (Z) -我们仍然可以找到p值,使用:
Scipy。将导入定额导入数量统计为NPP=1-定额。CDF (z,loc=0,scale=1) print (p) -。
一个重要的区别是,我们的陪审员永远无法确定,所以他们不会接受,他们只是拒绝。
我们之前说过,我们拒绝零假设,因为我们有足够的证据证明零假设是错误的。
但是如果P值高于显著性水平呢?那么我们说我们没有拒绝零假设。为什么不接受零假设?
最直观的例子就是利用一审法院。在一审法院,最初的假设是被告是无辜的。然后我们看到一些证据来反驳零假设。
如果我们不能反驳无效假设,法官不会说被告没有犯罪。法官只是说,根据所提供的证据,我们不能给被告定罪。
另一个例子:假设我们正在探索外星生命。假设零就是那个星球上没有生命。我们漫游了数英里寻找那个星球上的人/外星人。如果我们看到任何外星人,我们可以拒绝零假设,支持另一种选择。
然而,如果我们没有看到任何外星人,我们是否可以肯定地说这个星球上没有外星生命,或者接受我们的零假设?也许我们需要更多的探索,也许我们需要更多时间,也许我们已经找到了外星人。在这种情况下,我们不能接受零假设,只能拒绝。或者,我们可以说* *“我们没学到什么有趣的东西”* *。
在STAT101课程中,他们会教你如何在这种情况下写出令人费解的段落。“我们没有拒绝零假设,也没有得出没有足够的统计证据支持这个星球上存在外星生命的结论。”)我总是允许我的本科学生写:我们没有学到任何有趣的东西。
Riddikulus:用p值来检验假设,会让原来的假设看起来很可笑。
从本质上来说,假设检验就是检查我们的观察结果是否让原来的假设看起来很可笑。如果是,我们拒绝零假设,说我们的结果是有统计学意义的。除此之外,我们也没有学到什么有趣的东西,继续维持现状。
英文原文:3359 towards data science . com/p-value-explained-simple-for-data-scientists-4c 0cd 7044 f14