选择性偏差：不可忽视的统计现象

更新时间：2023-01-26 07:30:22作者：51data

在成和于的统计史上有这样一个著名的案例。1946年，伯克森在一家医院观察了糖尿病患者和胆囊炎患者的情况，发现糖尿病患者同时患胆囊炎的人数较少，而非糖尿病患者患胆囊炎的人数较多。这一结果似乎表明，糖尿病可以保护患者免受胆囊炎的影响，但没有医学证据表明糖尿病对胆囊炎有任何保护作用。糖尿病和胆囊炎呈负相关，因为伯克森只统计了医院的病人。如果统计整个人群，会发现糖尿病和胆囊炎没有相关性。这种现象通常被称为伯克森悖论。

为什么会有伯克森悖论？原因在于研究样本的选择性偏差。忽视健康不去医院的人，只把住院病人作为统计对象，而这些病人住院的原因，一定是患有这样或那样的疾病。没有糖尿病的患者通常患有胆囊炎等其他疾病，导致糖尿病与胆囊炎负相关的错觉。现实中，人们往往过分强调容易掌握的信息，而忽略潜在可能性的其他证据，只根据部分有偏的信息做出判断，导致选择性偏差，导致伯克森悖论。|什么是选择性偏差？

所谓选择偏差，也称选择效应，是指这样一种认知倾向：人们喜欢把事物分成一些典型的类别，在估计事件发生的概率时，往往过分强调这一类别的重要性，而不考虑其他潜在的可能性。选择性的本质在于研究样本的选择。当选取的案例或样本不能代表总体时，选取的样本就不能准确反映总体特征，从而导致相关测量的失真(臧和，2015)。自伯克森悖论提出以来，选择性偏倚对研究结果的影响一直是人口学、公共卫生等领域关注的焦点，也受到经济学和社会学的广泛关注。

选择性偏差：不可忽视的统计现象

艾伦伯格在《如何不犯错》中提到一个有趣的例子：选择性偏差会加剧“帅哥都是渣男”的刻板印象。假设Alex只愿意和善良或者帅气超过一定门槛的男人约会，这就意味着：如果一个男生很渣但是真的很帅，Alex会和他约会；同样，如果一个男生真的很善良，Alex也会和他约会，哪怕他外表有所欠缺。结果Alex约会过的很多帅哥都没那么善良，他约会过的很多善良的男人都没那么好看。帅哥真的都是渣男吗？其实这种外观是选择性偏差造成的。毕竟和前两种男人相比，善良帅气的男人少之又少。Alex的筛选条件导致约会的非随机性，加剧了“帅哥都是渣男”的刻板印象。

另一个典型案例来自珀尔的书《因果关系：模型、推理和推论》。大学招生 Office一般是根据GPA(平均学业成绩)和SAT(学术评估测试)成绩来的录取符合条件的学生，希望录取既有高GPA又有高SAT成绩，但是这样的学生一般会被送到更高一级的学校录取，所以只能退。这样，如果一个学生的SAT成绩高，学校就有大概率录取，即使他的GPA成绩很差；同样，如果一个学生GPA很高，但是SAT成绩很差，学校一般会录取他。正是由于选择性偏差，录取学生的GPA成绩和SAT成绩存在负相关，选择性偏差导致假相关。

一位著名的收藏家有1000枚邮票，其中300枚非常漂亮，100枚稀有，30枚既漂亮又稀有。很明显，他所有邮票的10%(100/1000)是稀有的，10%(30/300)漂亮的邮票是稀有的。可见，邮票是否漂亮，稀有邮票的比例是10%，漂亮和稀有没有相关性。如果收藏者只展出漂亮或稀有的邮票(共370枚)，那么稀有邮票占27%以上(100/370)，但稀有邮票只占漂亮邮票的10%(30/300)，给人一种直觉，稀有邮票在漂亮邮票中所占比例相对较小，漂亮与稀有呈负相关。事实上，在收藏家收集的所有邮票中，无论是一般邮票还是精美邮票，稀有邮票都占10%。一枚邮票是否稀有，与它的美丽无关。这里的选择性偏差是，展出的370枚邮票不是随机选取的，不能代表1000枚邮票的整体特征。因此，当存在选择效应时，过早下结论可能会导致错误的判断。

选择性偏差不仅容易误导人产生虚假关联，还可能错得更离谱！第二次世界大战期间，统计学家沃尔德被雇来帮助军方评估飞机遭遇敌人火力时应该在哪里加装钢板。现有资料显示，机身某些部位有很多弹孔，军方人员认为应该保护这些弹孔多的地方；然而，沃尔德给出了相反的结论：应该在弹孔最少的地方加钢板，以加强防护。沃尔德的建议体现了对选择性偏差的洞察，因为军方只有归航飞机的毁伤信息，只拿归航飞机做样本，显然很容易发现哪里有很多应该加强的弹孔。如果把被击落的飞机纳入研究样本，可以推断很多飞机因为被关键部位击中而再也没有返航，所以返航飞机被击中的地方相对不那么关键。所以要加强对返航飞机最少弹孔的防护，这是一种常见的幸存者偏差，也是一种选择性偏差。

正如卡尼曼总结的那样：“我们的思维往往偏向于因果关系的解释，我们不善于处理统计数据，我们容易被小的、孤立的、有影响的数据所吸引。”两次强调选择性偏差的影响。|为什么会产生选择性偏差？

为什么人的直觉判断容易出现选择性偏差？这种现象背后的原因和机制是什么？不同领域的学者提出了不同的解释。为了准确识别选择性偏差，将代表性原因归纳为以下几类。

一是样本选择偏差。当研究总体的某些子样本不可观测时，可用样本是非随机的，不能代表总体，从而导致推断结论的偏差。对样本选择偏倚的研究始于诺贝尔奖获得者赫克曼，最典型的例子是探讨女性受教育程度对工资的影响。为了调查两者之间的关系，我们需要随机收集女性的工资、受教育程度以及年龄、毕业院校等其他特征的数据。但愿意登记工资信息的女性都有工作，没有工作的往往拿不到工资，即使是高学历。这使得大量的失业女性没有被纳入研究样本，样本失去了随机性，无法反映整体真实情况。根据它的判断很容易得到有偏差的结论。

二是自我选择偏差。考察事物之间的关系，由于个体的主动选择，不同组的样本并不具有随机性，即实验组和对照组的初始条件并不完全相同，很容易对被测结果产生偏差理解。许多绝经后的妇女被鼓励尝试激素替代疗法(HRT)，因为据报道这种疗法可以降低患心脏病的概率。早期关于这种联系的研究只是比较了一组选择HRT的妇女和一组不选择HRT的妇女。然而，研究样本的随机分布实验表明，HRT根本不能降低患心脏病的概率。以上结果只是因为自主选择HRT的女性比不选择HRT的女性更注重身体健康，锻炼更积极，肥胖更少，吸烟更少。由于自我选择效应，我们不能简单地说HRT是减少心脏病的原因。两个变量之间存在相关性，并不保证一个变量的变化会导致另一个变量的变化，也不意味着两者之间存在直接的因果路径，很可能是因为两个变量都与尚未观测到的第三个变量相关。保证自选偏倚不会带来麻烦的有效方法是在操纵所有变量的情况下进行大规模随机对照实验。

第三，幸存者偏差。幸存者偏差也是一种典型的选择性偏差，通常是指只看到了某种筛选产生的结果，而没有意识到筛选的过程，从而忽略了已经筛选出来的关键信息。很多知名的绩效管理理论都充满了幸存者的偏差。《从核心扩张》这本书指出，78%的高绩效企业专注于单一核心业务，而低绩效企业只有22%这样做。这项研究涵盖了1，854家公司，并根据股价回报、营业额、利润率等衡量其业绩。但是，只考察了那些在研究期间活在市场中的公司，没有考虑那些采用了聚焦战略但破产的公司。如果那些失败的公司被包括在内，研究的结论将会有很大的改变。根据两位作者的研究，所有公司中有13%创造了高绩效，而78%(188家公司)的高绩效公司专注于核心业务；假设另外200家公司采用了分众战略，但当时都破产了。这个数字纳入样本后，“专注”与“绩效”的真实关系正好与Ruke和Allen的推断相反。避免幸存者出现偏差，意识到“无声证据”的存在，从而获得全面的认知。

第四是可用性的偏差。当人们做决策时，他们经常依赖容易获得的信息并过度使用这些信息，但这些信息对于决策来说可能并不重要或不全面。很多投资者沉迷于k线图等技术分析。一方面是因为k线图是建立在价格、成交量等历史数据基础上的。而且是软件自动生成的，很容易推导出各种非常复杂的趋势线和指标。技术分析“专家”通常会根据这些容易获得的信息，忽略对市场和股价有影响的其他重要因素，形成看似复杂的理论；另一方面，投资者往往是最先接触行情软件的。k线图和技术指标是最容易获得的信息，与股价直接相关，与盈亏最接近。但对企业的估值需要综合考虑行业、竞争优势、财务指标等因素，认清企业的发展阶段，这是一个非常复杂且不固定的综合过程。简单的财务数据容易获得，但仅基于财务指标进行估值，投资决策难免受到选择性偏差的影响。正如芒格著名的经典格言所说：“对于一个只有锤子的人来说，每个问题都像钉子。”

5.证实偏差。证实性偏见是指个体选择性地回忆和收集有利的细节，而忽略不利的或矛盾的信息来支持已有的观点。这种偏见在感情问题和传统观念上尤其明显。人们往往更喜欢支持自己原来的观点，他们也倾向于解释模糊的事实来支持自己的观点。在投资领域，这种问题非常严重。投资者在购买一家公司的股票时，尤其是在投入大量精力进行研究分析后做出决策时，往往会对该公司的股票产生确认错误。后来在收集信息时，他们倾向于选择和相信“好信息”，拒绝“坏信息”，影响了投资决策的科学性。以托维斯基和卡尼曼为代表的经济学家将其总结为：由于认知能力的限制，投资者无法处理某一点的所有信息，总是选择少数事物作为认知对象，从而使被认知的对象从环境中脱颖而出。这是选择性偏差的典型特征之一。如何避免选择性偏差

当人们进行决策和判断时，一些信息吸引了过多的注意力，使人们误以为它代表了整个目标，从而陷入选择性偏差的“陷阱”。选择性势必使人倾向于“洞察”某一模式，容易导致虚假关联，高估或低估因果关系，甚至得出与真实关系完全相反的结论。诱人的相关证据和固有的偏见可以欺骗最聪明的头脑，那么我们如何保护最聪明的头脑免受选择性偏见呢？

第一，注意样本对整体的代表性。上述案例提供了很多“反面教材”，都在提醒人们，无论出于什么原因，只要研究样本不能代表整体，就会导致对问题理解的选择性偏差。提高样本对总体的代表性是一个显而易见的统计学要求，但也是最容易被忽视的。一旦样本存在选择性偏差，由此得出的结论必然导致错误决策。

第二，用辩证思维来约束直觉。卡尼曼指出：“任何时候，我们都抱着对周围世界的单一解读，并将其视为真实的体验。通常，我们很少努力寻找其他可能的解释。”显然，全面认识事物需要辩证思维，深入洞察所研究问题的本质，避免过于拘泥于已有信息。在实践中，定性分析与定量研究相结合，整体特征与局部特征相结合，在同质的基础上研究差异，在差异中总结同质。透过偶然性发现必然性，在必然性的基础上认识偶然性，用辩证思维分析问题，是防止选择性偏差的重要环节。

第三，善于利用工具纠正选择性偏差。在许多情况下，即使做出努力，也很难确保收集的信息是公正的。例如，在研究妇女受教育程度对工资的影响的情况下，很难将失业妇女纳入研究样本，因为无法调查那些失业妇女的工资。因此，统计学家和经济学家发明了许多有针对性的解决方案，如鲁宾因果模型、断点回归、倾向得分匹配和赫克曼两阶段模型等。以帮助纠正选择性偏差，并进行实际的因果效应评估。本质上，这种因果推断非常类似于从冰山一角有效地推断出整个冰山。学者们逐渐用这些方法来纠正自己研究中可能出现的选择性偏差，并倡导在更广泛的领域中应用。单位：浙江工商大学统计与数学学院

参考

[1]杰克尔登雷尔，王译。选择性偏差与标杆管理的危险[J].管理智慧，2005(10):6。

[2]珀尔J .评论：理解

辛普森悖论[J]。美国统计学家，2014，68(1): 8-13。

[3]基思亚锡诺(Keith E .

斯坦诺维奇)。屠东伟，刘晓岑译。这就是心理学[M]。中国人民大学出版社，2015。

[4]李金昌。统计学之道[J]。中国统计，2019(2):25-27。

[5]容。信息异质性与选择性偏差[J].投资与理财，2014年，

(5):68-68.

[6]臧，选择性偏差及其识别[J].世界经济与政治，2015，(4):137-153。

转载自《中国统计》

上一篇：抱歉没有了

下一篇：转行交互设计，你准备好了吗？

加载中...

选择性偏差：不可忽视的统计现象

相关文章

为您推荐

转行交互设计，你准备好了吗？

对稀有事件数据分析的讨论

论文写作的研究方法有哪些(论文写作方法有哪几种研究方法)

最接地气的学科，失去了“感受性”

研究方法谱系图：量化方法有哪些？质性方法有哪些？

大论文的methodology怎么写？十步速成法，攻克任何选题

精品文章

热门推荐