欢迎您访问无忧自考网!

样本抽样方法有哪些(随机抽样中能使样本单位比较集中的抽样方法是)

更新时间:2023-01-14 19:08:58作者:51data

下面这种情况你一定很熟悉:你下载了一个比较大的数据集,开始分析建立你的机器学习模型。当加载数据集时,你的计算机将得到一个“内存不足”的错误。

样本抽样方法有哪些(随机抽样中能使样本单位比较集中的抽样方法是)

即使是最好的人也会这样。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处理大量数据(不是每个人都有Google的资源实力!)。

那么如何才能克服这个问题呢?有没有办法选择一个数据子集进行分析,子集能很好的代表整个数据集?

这种方法叫做抽样。我相信你在学校,甚至在你的职业生涯中,会多次遇到这个术语。对数据子集进行采样、合成和分析是一种很好的方法。但是,如果我们只取一个随机子集呢?

我们将在本文中讨论它。我们将讨论八种不同类型的采样技术以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计学知识。

抽样的目录是什么?为什么我们需要采样步骤?不同类型的取样技术?概率抽样的类型?非概率抽样的类型?什么是抽样?让我们从正式定义什么是采样开始。

抽样是一种方法,它使我们能够在不调查所有样本的情况下,根据一个子集(样本)的统计信息获得整体信息。

上图完美的说明了什么是采样。我们通过一个例子来更直观的理解一下。

我们想找出德里市所有成年男性的平均身高。德里人口约3000万,男性约1500万(这些都是假设的数字,不要当成实际情况)。可想而知,要找到德里所有男性的身高来计算平均身高几乎是不可能的。

我们无法接触到所有的男性,所以我们无法真正分析整个人口。那么,我们能做什么呢?我们可以抽取多个样本,计算出所选样本中个体的平均身高。

然而,然后我们问了另一个问题,我们如何采样?应该随机抽样还是要请专家?

假设我们去篮球场,取所有职业篮球运动员的平均身高作为样本。这不会是一个很好的样本,因为一般来说,篮球运动员的身高要高于普通男性,这会让我们对普通男性的身高没有正确的估计。

这里有一个解决方案。我们会随机找一些人,这样我们的样本就不会因为身高不同而出现偏差。

为什么我们需要取样?我相信在这一点上你已经有了直观的答案。

抽样就是从样本中得出关于群体的结论。它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

选择一个样本比选择群体中的所有个体更有必要时间少样本选择是一种经济有效的方法。对样本的分析比整组分析更方便实用。取样步骤是在记忆中形象化概念的好方法。所以,这是一个以流程图的形式一步步采样的流程图!

让我们以一个有趣的案例研究为例,应用这些步骤来执行采样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

这些结果是基于全国9亿选民的意见还是这些选民中的一小部分人的意见?我们来看看是怎么做的。

第一步

抽样过程的第一步是明确界定目标群体。

因此,为了进行民意调查,投票机构只考虑人口中18岁以上有资格投票的人。

第二步

抽样框架这是构成样本总体的个体列表。

因此,本例的抽样框架将是其姓名出现在某个选区中的所有选民的列表。

第三步

一般来说,使用概率抽样法是因为每一票的价值相等。无论种姓、社区或宗教,任何人都可以被纳入样本。不同的样本取自全国不同的地区。

第四步

样本大小)-指样本中包含的个体数量,这些个体的数量需要足以推断出期望的准确度和精度。

样本量越大,我们对总体的推断就越准确。

在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数。

第五步

一旦确定了目标群体、抽样框架、抽样技术和样本数量,下一步就是从样本中收集数据。

在民意调查中,机构通常会问人们一些问题,比如他们想投票给哪个政党或者前一个政党做了什么等等。

根据答案,机构试图解释选民投票给谁,一个政党会赢得多少席位。

不同类型的采样技术这里是另一个例子!这一个是关于我们可以使用的不同类型的采样技术:

概率抽样:在概率抽样中,群体中的每个个体都有平等的机会被选中。概率抽样给了我们最好的机会来创建一个真正代表总体的样本。非概率抽样:在非概率抽样中,所有元素被选中的机会是不相等的。因此,有一个很大的风险是,我们最终将得到一个不具代表性的样本,这将不会产生概括的结果。例如,假设我们的人口由20人组成。每个个体从1到20进行编号,并用特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

对于非概率抽样,这些概率是不相等的。一个人可能比其他人有更大的机会被选中。既然对这两种采样类型有了一定的了解,那我们就来深入了解一下每种采样类型,了解一下每种采样的不同类型。

抽样类型:简单随机抽样

这是一个你必须遇到的采样技术。在这里,每个人都是随机选择的,人口中的每个成员都有机会被选中。

简单的随机抽样可以减少选择偏差。

这种技术的一大优点是它是最直接的概率抽样方法。但是它有一个缺点,它可能不会选择很多我们真正感兴趣的个体元素。方法通过重复随机抽样,用蒙特卡罗方法估计未知参数。

系统抽样

在这种类型的采样中,第一个个体是随机选择的,其他个体是使用固定的“采样间隔”选择的。我们举一个简单的例子来理解这一点。

假设我们的总体规模是X,我们必须选择一个样本规模为n的样本。然后,我们要选择的下一个个体将是第一个个体的x/n个间隔。剩下的我们也可以用同样的方法选择。

假设,我们从第三个人开始,样本量为5。因此,我们要选择的下一个个体将是(20/5)=4,从第3个人开始,即7(3 ^ 4),以此类推。

3, 3 4=7, 7 4=11, 11 4=15, 15 4=19.3、7、11、15、19系统抽样比简单的随机抽样更方便。但是,如果我们在人群中选择项目存在潜在的模式,也可能导致偏差(虽然这种情况发生的概率很低)。

分层抽样

在这种类型的抽样中,我们根据不同的特征,如性别、类别等,将人口分成不同的亚组(称为层)。然后,我们从这些亚组中选择样本:

这里我们先把我们的人群按照红、黄、绿、蓝等不同的颜色分成不同的亚组。然后,从每种颜色中,我们根据它们在人口中的比例选择一个个体。

当我们想从总体的所有子群体中得到代表时,我们使用这种类型的抽样。然而,分层抽样需要对人口统计特征有适当的了解。

巢式抽样法

在整群抽样中,我们使用人口的子群作为抽样单位,而不是个体。所有的样本被分成子组,称为集群,随机选择一个完整的集群作为抽样样本。

在上面的例子中,我们将人群分为5组。每个集群由四个个体组成,我们选择了样本中的第四个集群。根据样本大小,我们可以包括更多的组。

当我们关注特定领域或区域时,会使用这种类型的采样。

非概率抽样的类型便于抽样。

这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将他们包括在样本中。

方便抽样容易产生重大偏差,因为抽样可能无法代表特定的特征,如人口的宗教或性别。

定额抽样

在这种抽样中,我们根据预先确定的一般特征来选择样本。考虑到我们必须为样本选择一个倍数为4的个体:

因此,编号为4、8、12、16和20的个体被保留用于我们的样品。

在定额抽样中,所选择的样本不一定能最好地代表未被考虑的人口统计特征。

判断样本

这也被称为选择性抽样。在选择所需的参与者时,要看专家的判断。

假设,我们的专家认为应该把编号为1、7、10、15、19的人作为我们的样本,因为他们可以帮助我们更好地推断总体。可以想象,配额抽样也容易受到专家的偏见,不一定具有代表性。

滚雪球抽样

我很喜欢这种采样方式。现有的人被要求推荐更多他们认识的人,这样样本量就会滚雪球。当采样帧难以识别时,这种采样方法是有效的。

这里我们随机选取一个人作为样本,然后他推荐六个人,六个人推荐十一个人,以此类推。

1- 6- 11- 14- 19雪球抽样有很大的选择偏差风险,因为被引用的个体会和推荐他们的个体具有相同的特征。

在本文的最后,我们了解了抽样的概念、抽样的步骤以及不同类型的抽样方法。它在统计世界和现实世界中被广泛使用。

为您推荐

传奇世界:历史上第一个行会,连刚进落霞岛的新人都不放过

聊到传世中的行会,很多人想到的就是布拉格,战神殿,狼族等等,布拉格曾经是传世的第一行会,可以说是行会的开山祖师。但是曾经有一个行会要比布拉格还早建立,是传世历史上的第一个行会。这个行会就是“兄弟会”,曾经巅峰的时候也有600+人在线。兄弟会

2023-01-14 19:06

传奇世界:解析“顶级”行会《罪恶苍穹》被瓦解的真实原因

中州玩家光阴数年,强者玩家几十万,但是说起传奇世界里家族的故事,我们彻夜长谈也是讲不完,每个区都有实力超强的玩家撑起一个家族,但是在传奇众多服务器中,很少有玩家能笑着走到最后,经过洗刷能留下来的家族都是强者!新版传世说起家族我们就不得不说说

2023-01-14 19:03

热血传奇 行会(热血传奇名人堂行会)

在2001年的时候热血传奇刚进入中国,在盛大高明的宣传手段下,加上不错的游戏质量,与之而来的就有大量的玩家进入,那时候的玩家们都是好奇的,传奇中的世界对于当时的玩家而言就像是一个巨大的百宝箱,所有的一切都要靠玩家们自己去一点点摸索。随着游戏

2023-01-14 19:03

传奇世界帖吧(传奇百区刷装备事件)

在当年传奇世界这款游戏火爆的时候,一区,作为第一个大区,足有十八个公会。然而这18个行会里,最绚丽闪耀的就是霸世凯少率领的罪恶苍穹公会,它一个行会大战十七个行会围追堵截的史诗故事迄今回荡耳旁。但在公会三大改革以后,罪恶苍穹去哪儿了变成了中州

2023-01-14 19:00

大学和公司的雏形,探寻中世纪西欧行会制度的兴起之路

中世纪西欧长期奉行庄园制经济。所谓的庄园制度是构成了欧洲封建制度的组织基础。在当时,每一个庄园实际上都是自给自足的,生产大部分自己需要的物品。随着西欧的人们从黑暗时代慢慢走出,贸易再次成为主要经济力量,城镇被特许作为人们交换货物的场所。由于

2023-01-14 18:56

集古录是宋代谁编的(川建行规2021 3号文件)

宋代景象在两千多年的封建历史当中,宋代的工商业可谓是所有朝代当中发展的最先进的。当发展规模不断扩大之后,行业内部就会出现很多问题,因此就要借助政府和行业组织的力量进行管理。而宋代的政府对于工商业的管理较为宽松,基本上是通过中介组织来进行控制

2023-01-14 18:54

加载中...