世界

前副总理蒂姆·菲舍尔今天在“时代”中争辩说,公务员在越南选秀中“扮演上帝”根据菲舍尔的说法,他们捏造了抽签

他提供了一些例子来说明这一说法,包括被征兵人的地理位置是没有统一分布在整个澳大利亚,并且有些出生日期比其他人更有吸引力大卫艾瑞莉在“时代”中引用:1946年1月1日出生的男性只有4个弹珠,而6月份出生的男性只有13个弹珠

30,1946年这几乎超出了标准偏差[你会期望]正如埃勒里所说,当年6月30日出生的人被征募的可能性是1月1日出生的人的三倍以上

但这证明是平局被操纵了

起草的男性总人数为63,740例如,如果我们抽取63,740个日期,发现一年中的某些日子有很多抽奖而其他日子没有,那么它实际上是不寻常的吗

一年中的日期可以从1到365(或闰年366)编号

由于我们的目标是查找每个日期的计数(或抽奖)分布,因此日期根据多项分布分布

这是一个通过翻转硬币,每个人都熟悉的二项分布的推广二项式分布告诉我们在翻转头部的概率中,从翻转总数中翻转多个头部(或多个尾部)的概率翻转头部的概率可以被认为是硬币中的偏差在大多数硬币投掷中,我们认为硬币是公平的,并且翻转头部的概率与翻转尾部的概率相同(即, 1对2)对于一年中的日期,多项分布具有类似的概念,即绘制365个日期中的任何一个的概率为了绘制完全公平,绘制任何一个日期的概率应为1 365(非闰年)F然后,伊舍尔的主张可以被认为是如此:在63,740次抽签中,抽出任何一个日期的概率比另一个日期多三倍的概率是多少

下面是按绘制频率排序的日期数据首先要注意的是,大多数样本的绘制时间接近相同的时间(大约174次,63,740次绘制)在此示例中,最常绘制的日期(9月1日,绘制211次)比最小绘制日期(12月15日,绘制143次)的可能性仅高148倍

然而,这两个计数相差超过5个标准差

原因是多项分布的标准偏差是nxpx的平方根(1 - p)在这种情况下,n很大(63,740)而p很小(1/365),所以多项分布的标准偏差是132.最高和最低计数是5是奇数标准偏差分开

事实并非如此,即使对于更熟悉的正态分布值,最小和最大采样值也往往相差4到6个标准偏差所以这些结果可以预期得到公平抽取事实上,你期望得到最多和最少的绘制日期比一个标准偏差更远

大样本和最少采样日期之间的差异越大,样本越小年龄报告草案的目的是“迅速将军队的力量从22,500增加到37,500人通过在1965年下半年召集4,200名青少年和随后每年6,900名[后来提升至8,400]“如果我们重复上述练习,第一年的草案金额为4,200,则抽样日期最多(第365天)为采样20次,但最少采样日期(第103天)仅采样两次最少采样日期采样的次数比采样日期少10次,但每次采样的概率再次为365次中的1次为什么差异很大

同样,它与多项分布的标准偏差有关由于绘制总数较少,标准偏差现在等于339因此,20和2绘制再次仅相隔53个标准差,这是完全可以预期的根据统一的抽样方案,Tim Fischer可能获得的信息比The Age中报告的更多,因此我们不能排除他的主张是正确的可能性

但是,1946年6月20日的13次抽奖和1946年1月1日的4次抽奖之间的差异并不像看起来那么可疑 然而,这确实是我们人类在看到它时如何不善于识别随机性的一个很好的例子事实上,我们无法识别随机性是使用统计数据来检测选举舞弊的可能性的原因,例如2009年伊朗大选为了提供另一个例子,说明我们对随机性的期望可能是错误的,我们可以问最常被抽出的日期有多大可能出现16次(或更多次),最不常见的日期出现4次(或更少次数下图显示了4,200个日期的1,000个模拟绘制的结果,每个日期具有相同的绘制概率我们绘制了最左边出现的绘制日期的频率(频率)以及最少的频率在右边的绘制日期如果有的话,我们应该期望大多数和最少绘制的日期应该比它们实际上更加不同再次,我们对随机抽样的期望并不反映随机抽样的潜在真实结果



作者:东郭宇