数据分析陷阱:辛普森悖论 and 安斯库姆四重奏

机器学习 4180 Views

数盟倡导“数据创造价值”,致力于打造最卓越的数据科学交流平台,为企业、个人提供最卓越的服务】

变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论

性别歧视。现作如下统计:

性别

录取 拒收 总数 录取比例

男生

8

45

53

15.1%

女生

51

101

152

33.6%

合计

59

146

205

性别 录取 拒收 总数 录取比例

男生

201

50

251

80.1%

女生

92

9

101

91.1%

合计

293

59

352

高。现在将两学院的数据汇总:

性别 录取 拒收 总数 录取比例

男生

209

95

304

68.8%

女生

143

110

253

56.5%

合计

352

205

557

低。

女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

向量图可以更好的了解情况(右图)

高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。

  • 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。

  • 安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。

    性质 数值

    x平均数

    9

    x方差

    11

    y的平均数

    7.50(精确到小数点后两位)

    y的方差

    4.122或4.127(精确到小数点后三位)

    xy之间的相关系数

    0.816(精确到小数点后三位)

    线性回归线

    (分别精确到小数点后两位和三位)

    爱德华·塔夫特(Edward Tufte)在他所著的《图表设计的现代主义革命》(The Visual Display of Quantitative Information)一书的第一页中,就使用安斯库姆四重奏来说明绘制数据图表的重要性。

    x值都相同。

    "Graphs in Statistical Analysis,"American Statistician, 27 (February 1973), 17-21.

  • Tufte, Edward R. (2001).The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press.ISBN 0961392142

  • Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254.doi:10.1198/000313007X220057

  • Department of Physics, University of Toronto

  • Curve fitting, Central Queensland University, Australia

  • Practice Problems, Linear Regression, The Physics Hypertextbook(See practice problem 4.)

  • —————————————————

    数盟网站:www.dataunion.org

    数盟微博:@数盟社区

    数盟微信:DataScientistUnion

    数盟【大数据群】272089418

    数盟【数据可视化群】 179287077

    数盟【数据分析群】 174306879 ,110875722 ,321311420

    —————————————————

    更多精彩,点击可得~

    如未说明则本站原创,转载请注明出处:NULL » 数据分析陷阱:辛普森悖论 and 安斯库姆四重奏