欢迎您访问无忧自考网!

对稀有事件数据分析的讨论

更新时间:2023-01-26 07:27:02作者:51data

在社会科学的数据分析中,有一类变量是常见的,即0-1二元变量。当它是自变量时,称为虚拟变量回归模型。当是因变量时,此时常用的模型是logistic或probit回归(这两种模型的区别在于对方差的假设不同,两种模型的估计结果差别不大,但在更复杂的模型中可能作用不同)。二元可以解释为存在或不存在、发生或不发生等。在流行病学或社会科学中,有些事件会发生,但发生的频率相对较低,比如战争、罕见病、政权更迭等。在许多情况下,定性研究在如此重要和罕见的事情上大放异彩。通过深入的数据文件分析和小案例对比,探究这些事件发生的原因,并总结出一些具有普遍性的理论。在定量研究中,罕见事件的logistic分析往往比较困难,这可以用数学上的方法解释,即当用频率法求解待估计的系数矩阵(公式如下)时,如果事件发生的概率太低,矩阵中的许多元素将等于0左右,这样很容易在求矩阵的逆矩阵时出现问题,导致估计结果的可靠性较低。现在的问题是:什么样的数据是稀有事件数据?

加里金(Gary king)和他的合著者在2000年前后发表了两篇文章,讨论罕见事件回归模型的估计修正。当然,他们并没有指出作为罕见事件的比例有多小(但他们文章中使用的数据集比例是0.34%,真的很小)。他们的核心思想是通过先验修正或加权来调整估计系数,使样本估计更接近总体。核心参数是样本的罕见事件比率和总罕见事件比率。他们认为稀有事件数据在数据收集过程中会面临样本量和变量个数的权衡,因此在估计中可能会低估稀有事件的发生频率。因此,这种调整方案的目的和作用只是使估计更接近真实参数,而不是优化估计。所以核心问题是,有百分之多少的罕见事件需要修正?为此,边肖用模拟的方法构建不同比例的稀有事件数据集,用普通逻辑斯蒂法和Gary King的稀有事件logit法进行求解。r用于数据分析,基础包的glm()函数提供了logistic回归程序,Zelig包的relogit()函数提供了稀有事件logit的程序(这个包的其他函数有问题,最近刚下架,错误报告没有提到relogit()问题,可以用之前的版本计算)。边肖从0.001到0.01设置了一个刻度值0.001,从0.01到0.20设置了一个刻度值0.01,最后一共得到了29个刻度值。看这两种估计方法在不同稀疏尺度下的性能。由于logistic固定了常用的阈值,设计矩阵x与比例p之间存在一定的函数关系,这种函数关系没有解析解,只能通过模拟得到的数值解进行比较。在这里,边肖还设置了随机数种子666(希望好运)以使结果可重复,并假设了100,000个样本的数据集。变量服从均匀分布,最小值为0,最大值为10(正态分布最终会导致估计的比值收敛到0.5,没有办法达到期望的比值)。下图是模拟的结果。

对稀有事件数据分析的讨论

该图展示了给定数据集的与比例P的真实关系(红线),logit回归的估计(绿线)和稀有事件logit回归的估计(蓝线)。为了看得更清楚,左上图的一些结果被切掉放在右图上。可以看出,虽然估计存在差异,但由于关键回归系数的标准差巨大,真实值仍在估计的不确定性范围内。为了进一步观察,边肖计算了估计值与真实值之差与真实值之比,结果如下。

从这张图中我们大概可以看出,当p很小时,估计值和真实值相差很大。而且更关键的是,稀有事件logit的性能并不比正常回归方法好。所以至少目前的模拟结果表明,如果以10%的偏差为标准,这个比例至少应该达到1%。如果稀有事件数据的比率低于1%,两种方法无法比较谁更好谁更差。所以目前可以得出的初步结论(未经系统检验)是,如果稀有数据比例达到1%,那么logit模型一般不会有非常大的估计偏差(形象地想象一下,如果有3000个观测样本,某个二元变量只有不到30个1,是不是很多人都有扔掉的冲动)。如果比这个低,目前没有可信的估算方法。当然,边肖也尝试了贝叶斯方法,贝叶斯给出的结果也有相对偏差的估计和较大的置信区间。因为第一个贝叶斯估计时间太长,边肖没有运行所有29个比例。此外,贝叶斯的结果还取决于先验的设置。如果先验设置得好,拟合会很大,但现实的结果是我们不知道待估计参数的真实值,即使把普通回归的结果作为弱先验给贝叶斯,也没有明显的改善。但是这种模拟比较简单,可能会有一些问题和错误是人们由于个人水平有限而没有意识到的。如果有愿意探讨的老师朋友,请不吝赐教!刘天祥写的

为您推荐

论文研究方法比较研究法(论文研究方法 调查法)

硕博论文第五十四讲:论文常用研究方法——调查法调查法,也是论文写作常用方法之一。选择合适的调研方法直接关系到调研工作开展。结合调研工作实践,就如何做调查研究的一些方法及及其整理出来,供大家调研时参考。一、何谓调查法调查方法是科学研究中最常用

2023-01-26 07:06

从定性到定量,遥感技术“进阶式”

作者:张颢(中国科学院空天信息创新研究院遥感科学国家重点实验室副研究员)日前,陆地探测一号01组B星成功发射。AB双星编队,将在地质灾害、土地调查、基础测绘、防灾减灾等方面大显身手。它们应用的技术,就是遥感。如今,大家已经对“遥感”耳熟能详

2023-01-26 07:05

https://hao.360.com/?y1018(https://hao.360.com/?h_lnk')

定性研究包括收集和分析非数字数据(如文本、视频或音频)来理解概念、观点或经验。它可以用来收集对一个问题的深入见解或产生新的研究想法。定性研究是定量研究的对立面,定量研究包括收集和分析数字数据以进行统计分析。本文将详细介绍两种研究的不同方法。

2023-01-26 07:03

精准发力 创新(创新举措 精准发力)

来源:人民网-人民日报海外版施一公在工作中。 (图片来源网络)据新华社电 首次发现次要剪接体的高分辨率三维结构——2021年他带领团队再获剪接体结构的重大突破;在《自然》杂志最新发布的2021年度年轻大学自然指数中,他带领的西湖大学是上升最

2023-01-26 07:03

刘日平:解决国家技术需求是我创新的意义所在

长城网·冀云客户端记者 李代姣 赵博轩“天的外面是什么?”自古至今,人们对宇宙的好奇从未停止。从东方红一号发射升空,到如今的神州、嫦娥、北斗、天问、天和……越走越远的航天器,正在浩瀚宇宙中刻下鲜明的中国印记。在航空航天领域,无数科技工作者夜

2023-01-26 07:00

中国创新能力前三(中国创新创造能力一直领先世界)

2010年科技部启动创新型城市工作。2016年以来,科技部不断加大布局建设力度,支持78个城市建设国家创新型城市。中国科技信息研究所发布《国家创新型城市创新能力评价报告2021》(简称《报告》),对全国78个创新型城市的创新能力进行了综合评

2023-01-26 07:00

加载中...