雌激素补充疗法对人体有益还是有害
在医疗分析课程上,一些教授可能会在第一节课半开玩笑地提醒学生,不要让你的研究从救人变为杀人。这样的说法其实是有来源的。上世纪90年代,许多医疗机构相继支持一个观点:到达一定年龄的女性,可以通过人为摄入雌激素来预防心脏病、骨质疏松和其他更年期疾病。这样的行业共识,导致10年间约有1500万名女性在医生的指导下,人为摄入雌激素。这样的共识从何而来呢?当时有一项大型健康研究项目(由哈佛大学医学院和公共卫生学院共同主持),结果表明,定期摄入雌激素的女性,心脏病发病率只有其他女性的1/3,这两者呈现强负相关性。同时,医生们也认为随着年龄增长,女性分泌雌激素的能力在下降,若雌激素有益,那么一定量的补充将有利于女性长期健康,并命名为雌激素补充疗法。这样的认知,无疑为研究项目提供了医疗科学理论上的支持。以至于部分研究者甚至建议一些男性也应当服用雌激素。
针对雌激素对人体是否有好处的临床实验也因此而展开。临床试验强的地方在于,通过控制实验,它的结果比起统计结果有着更强的因果性指导。然而,实验结果表明,服用雌激素补充剂的实验组成员,患心脏病、中风、血栓、乳腺癌等疾病的风险,要高于服用安慰剂的对照组。研究者总结,雌激素补充可能对人体有好处,但和坏处比起来,这些好处不值一提。从此,医生们开始反过来避免为年长女性开具混有雌激素的药物。那么,有多少人可能因此而过早患上中风或乳腺癌离世呢?《纽约时报杂志》得到的答案是,“合理估计至少有上万人。”可以说,这是一场有不合理回归分析参与的悲剧。
下面我会简单介绍一些使用回归分析时常见的问题。本文主要思想来源于畅销书《Naked Statistics》,是掺杂笔者个人理解的笔记,感兴趣的读者可以购买原著来学习。
使用回归分析常见的问题
错误1:变量遗漏偏差
如果你发现某MMO游戏中甲级帮会成员的留存率更高,你是否会建议增加游戏中甲级帮会的数量?这其实也是讲不通的,因为甲级帮会成员的充值实际上要明显高于其他级别帮会成员,而充值越多一般来说整体留存率会更好。其实这也是因果理论中的混杂问题(相关文章:小谈因果关系——有关因果关系的认定和因果网络的应用),在回归中这也是需要注意的地方。你要讲一个逻辑圆满的故事,那么你就需要覆盖到重要的解释变量。
类似的,如果你听到常打高尔夫球的人易患心脏病之类的话你会怎么想?胡言乱语,对吧?如果他说有可靠的数据调研显示这两者经回归后有明确的相关性哦,你会怎么想?拜托,这个回归是不是少了一些重要变量啊。因为通常来说,常打高尔夫球的人,一般是年龄比较大的人(或者说,年龄均值上会比其他人大一些)。如果不控制重要的年龄变量,那么回归告诉我们的其实是两个因素的结合,即常打高尔夫球和患心脏病的关系,以及年龄大和患心脏病的关系。
错误2:变量过多与多元共线性
错误3:用线性回归处理非线性问题
图片来源:《赤裸裸的统计学》
错误4:相关不等于因果与因果倒置
这是一个老生常谈的问题了,几乎所有因果推断书籍都会在第一章提到这个事情,统计学老师也在耳边念叨了很多遍。下图是一个有趣的例子:尼古拉斯·凯奇每年主演的电影数与掉进水池淹死的人数居然呈现出66.6%的相关性,可他有这么大的能耐吗?这之间完全没有因果关系。因果强调的是一种干预、介入会带来的影响,比如今年凯奇不演电影,就不会有人掉进水池淹死了吗?显然是不成立的。这就是错误解释回归分析结果可能带来的伪因果关系。所可能带来的因果倒置问题也是一样的,即使X和Y之间真的有因果关系,那么回归分析也很难解释是谁造成了谁。比如说,我们发现GDP的上升会造成失业率下降,那么换个角度回归分析出来的结论也可能是失业率下降会造成GDP上升,但这从逻辑上讲就是不对的。所以从源头上就要分清,相关是相关,因果是因果。
图片来源:《假相关》
错误5:脱离数据推断
回归带给我们的好处之一是更好地认识这个世界,所以在使用回归的结果来解释一些问题的时候,记住要采用适合当下环境。比如一个回归是可以通过MMO游戏玩家的一些特征来预测他的15日留存率,那么就不能将这套规则用到卡牌游戏上,甚至不可以直接用于其他的MMO游戏。因为使用场景不同,即便是相似的特征附带的意义可能都完全不同。(个人理解,有时一致性检验可以用于验证一些工具的使用场景迁移是否妥当)
结 语
参考资料
赤裸裸的统计学(美)查尔斯·韦兰著;曹槟译.北京:中信出版社,2013.9
本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。