2022时政热点事件,2022最新时事新闻热点汇总
2022-11-13
更新时间:2023-01-26 07:27:02作者:51data
在社会科学的数据分析中,有一类变量是常见的,即0-1二元变量。当它是自变量时,称为虚拟变量回归模型。当是因变量时,此时常用的模型是logistic或probit回归(这两种模型的区别在于对方差的假设不同,两种模型的估计结果差别不大,但在更复杂的模型中可能作用不同)。二元可以解释为存在或不存在、发生或不发生等。在流行病学或社会科学中,有些事件会发生,但发生的频率相对较低,比如战争、罕见病、政权更迭等。在许多情况下,定性研究在如此重要和罕见的事情上大放异彩。通过深入的数据文件分析和小案例对比,探究这些事件发生的原因,并总结出一些具有普遍性的理论。在定量研究中,罕见事件的logistic分析往往比较困难,这可以用数学上的方法解释,即当用频率法求解待估计的系数矩阵(公式如下)时,如果事件发生的概率太低,矩阵中的许多元素将等于0左右,这样很容易在求矩阵的逆矩阵时出现问题,导致估计结果的可靠性较低。现在的问题是:什么样的数据是稀有事件数据?
加里金(Gary king)和他的合著者在2000年前后发表了两篇文章,讨论罕见事件回归模型的估计修正。当然,他们并没有指出作为罕见事件的比例有多小(但他们文章中使用的数据集比例是0.34%,真的很小)。他们的核心思想是通过先验修正或加权来调整估计系数,使样本估计更接近总体。核心参数是样本的罕见事件比率和总罕见事件比率。他们认为稀有事件数据在数据收集过程中会面临样本量和变量个数的权衡,因此在估计中可能会低估稀有事件的发生频率。因此,这种调整方案的目的和作用只是使估计更接近真实参数,而不是优化估计。所以核心问题是,有百分之多少的罕见事件需要修正?为此,边肖用模拟的方法构建不同比例的稀有事件数据集,用普通逻辑斯蒂法和Gary King的稀有事件logit法进行求解。r用于数据分析,基础包的glm()函数提供了logistic回归程序,Zelig包的relogit()函数提供了稀有事件logit的程序(这个包的其他函数有问题,最近刚下架,错误报告没有提到relogit()问题,可以用之前的版本计算)。边肖从0.001到0.01设置了一个刻度值0.001,从0.01到0.20设置了一个刻度值0.01,最后一共得到了29个刻度值。看这两种估计方法在不同稀疏尺度下的性能。由于logistic固定了常用的阈值,设计矩阵x与比例p之间存在一定的函数关系,这种函数关系没有解析解,只能通过模拟得到的数值解进行比较。在这里,边肖还设置了随机数种子666(希望好运)以使结果可重复,并假设了100,000个样本的数据集。变量服从均匀分布,最小值为0,最大值为10(正态分布最终会导致估计的比值收敛到0.5,没有办法达到期望的比值)。下图是模拟的结果。
该图展示了给定数据集的与比例P的真实关系(红线),logit回归的估计(绿线)和稀有事件logit回归的估计(蓝线)。为了看得更清楚,左上图的一些结果被切掉放在右图上。可以看出,虽然估计存在差异,但由于关键回归系数的标准差巨大,真实值仍在估计的不确定性范围内。为了进一步观察,边肖计算了估计值与真实值之差与真实值之比,结果如下。
从这张图中我们大概可以看出,当p很小时,估计值和真实值相差很大。而且更关键的是,稀有事件logit的性能并不比正常回归方法好。所以至少目前的模拟结果表明,如果以10%的偏差为标准,这个比例至少应该达到1%。如果稀有事件数据的比率低于1%,两种方法无法比较谁更好谁更差。所以目前可以得出的初步结论(未经系统检验)是,如果稀有数据比例达到1%,那么logit模型一般不会有非常大的估计偏差(形象地想象一下,如果有3000个观测样本,某个二元变量只有不到30个1,是不是很多人都有扔掉的冲动)。如果比这个低,目前没有可信的估算方法。当然,边肖也尝试了贝叶斯方法,贝叶斯给出的结果也有相对偏差的估计和较大的置信区间。因为第一个贝叶斯估计时间太长,边肖没有运行所有29个比例。此外,贝叶斯的结果还取决于先验的设置。如果先验设置得好,拟合会很大,但现实的结果是我们不知道待估计参数的真实值,即使把普通回归的结果作为弱先验给贝叶斯,也没有明显的改善。但是这种模拟比较简单,可能会有一些问题和错误是人们由于个人水平有限而没有意识到的。如果有愿意探讨的老师朋友,请不吝赐教!刘天祥写的