让政治决策更科学的20个主张

2013-11-27 06:00 · angus

政治决策与科学应该有更紧密的联系——这早已成为老生常谈。然而,从能源到健康再到环境等诸多领域中,将科学应用于政治决断依然存在许多问题。为此,有人提出了应该成为公务员、政治家、政治咨询顾问和记者科学教育的20个主张。


政治决策与科学应该有更紧密的联系——这早已成为老生常谈。然而,从能源到健康再到环境等诸多领域中,将科学应用于政治决断依然存在许多问题。

改善这种局面的一个很好的建议就是鼓励更多的科学家参与政治。着虽然是值得称赞的,但是想指望在短时间内让大量科学家参与到政治中是不太现实的。还有一个提议是增强首席科学顾问所扮演的角色,增加首席科学顾问的数量和他们参与政治的可能性。但是通过会议投票,人们依然没有找到处理这一核心问题的好方法。

或许我们可以让政治家学习科学?这是一个好主意,但是忙碌的政治家有足够的时间吗?在现实生活中,那些政治决策者几乎从不阅读科学论文或书籍。如果遇到与演讲相关的科学术语——例如线粒体更换、牛结核病等——会由顾问或外部支持者为他们解释。在解决具体政策问题的时候,也鲜有设计完善的随机、可复制、有对照的实验样本、技术路线和明确结论作为支持。

在这种背景下,当务之急是提高决策者理解科学的能力。使他们具有主动咨询专家和顾问和了解质量、限制和偏差的基本技能。这些技能比理解基础科学本身更容易,并能够形成大多数政客的广泛技能的一部分。

为此,英国剑桥大学动物系保护生物学教授William J. Sutherland、数学科学中心的David Spiegelhalter,以及澳大利亚墨尔本大学的Mark Burgman如今提出了应该成为公务员、政治家、政治咨询顾问和记者教育一部分的20条概念。

他们指出,他们并不认为这种状况会自动改善。但是,科学判断本身就是价值的载体,这里所提供的是一个简单的方法,能够帮助决策者解析证据而有助于他们的决策,并避免那些既得利益者的不正当影响。“我们认为,一旦能够充分理解这20个概念,社会将向前迈出一大步。”他们在《自然》杂志上撰文指出。

差异和偶然事件引起的变化。现实世界的变化是无法预知的。在很大程度上,科学是要找出是什么引发了人们所看到的这些变化,例如为什么这十年比过去更热,为何一个地区的鸟类比其它地区更多及此类趋势。因此研究的主要挑战是找出影响这些有趣过程的主要原因,例如气候变化对鸟类种群的影响。而这些主要原因中往往还隐含了许多因素,例如农业集约化、入侵物种,以及影响出生和死亡的偶发事件等。

测量一定存在误差。事实上,所有的测量值都存在误差。例如在重复测量过程中,会得到不同的结果。在某些情况下,测量误差可能比实际偏差要大。比如有人告诉你上月的经济增长了0.13%,但实际经济也有可能在收缩。因此科学结果中应该提供相应的误差范围,来避免不合理的误差。

偏差非常普遍。实验设计或测量工具可能产生某种非典型结果。例如,在街上、家里或通过网络进行问卷调,因为涉及的样本可能是不同的人群类型,因此得到的结果也会有不同的偏向性。因为研究论文数据统计部分如果出现显著性差异,则更有可能被发表,因此科学文献往往会提供一些夸张的图表和数据。另外,研究还可能因预期而出现偏差:例如参与某种疗法实验的人可能假设自己会有不同的经历,因此出现结果偏差。理想的实验应该是双盲测试:排除参与测试的被试者和数据收集者的预期。这对于简单的药物试验是可行的,但是对于许多社会研究是不可能的。当科学家发现支持自己理论的证据时,很有可能就会停止寻找相反的证据或忽视对现实结果的分析。

样本容量大通常更好。从大量观察中提取的平均结果与从少量观察中获得的结果相比通常具有更大的信息量。当我们在不断积累证据的同时,我们的知识水平也在不断提高。当研究被大量自然变异和测量错误环绕时,样本容量的大小尤为重要。例如,一个药物试验的参与者多达数万人时,其结论的有效性要比仅有数百人参加的类似实验更高。

相关性并不意味着因果联系。一个事件能引发另一个事件,这种推断十分吸引人。但是,这种关联可能纯属巧合,或者可能是由第三个事件引起的两个事件的共同结果——一个“混合”或“潜伏”变量。例如,生态学家曾认为有毒藻类会杀死河里的鱼,但实际藻类并不能引起鱼的死亡。

向均数回归误导。在某种程度上,数据的极端结果很可能是由偶然或错误引起的。而接下来的数据可能没有那么极端。例如,测速相机被放置在交通事故频发地段,但是事故率的减少并不是因为这架相机,很可能是巧合。

不基于数据的推断存在风险。在某个给定范围内发现的规律未必适用于其它范围。因此,当变化速率比现有物种的进化史更快,或极端气候可能完全是新型的时候,预测生态系统对气候变化的应答将非常困难。

注意基础概率谬误。用一个设计不够完善的测试来测试某种状态,这取决于该状态发生的可能性(基准利率)。例如,在进行血液测试时,某个人有99%的可能性患有某种疾病,但是他依然有可能没有患这种病。如果10001个人进行测试,恰巧其中只有1人有病,也可以说有100个人(1%)会患病。

对照很重要。除了特殊需要外,对照组的处理方法应当与实验组完全一致。如果没有对照,就很难确定一个给定疗法是否有效。对照组帮助研究人员排除混杂变量的影响。有时试验报告中积极的结果,有可能是其他因素引起的,因此比较处理组和对照组十分重要,例如患者看到的某种颜色是否具有安慰剂效应。

随机化可以避免偏差。只要有可能,实验就应该随机分配样本个体或整个样本。对照儿童的教育成就时,采用健康教育方法的父母与未采取的父母可能会出现偏移,例如,受教育越好的家庭越倾向于参与该项目。而一个完整的试验设计应当随机选择调研人群。

可重复而非假重复。能够被不同独立研究小组重复的研究结果更加可靠。这样的实验结果可以被合并,从而提供某主题的总体观点,这比任何独立的研究更具统计功效。研究人员可能错误地将某个特殊群体中得到的“假重复”推广到更大的群体当中。

科学家也是人。科学家在推动自己的工作方面有既得利益,例如身份提升和下一步研究,尽管有时也出于直接的经济收益。这可能导致有选择地报告结果和夸大其词。此外,同行评议并不绝对可靠:报纸编辑更喜欢正面结果和新闻价值。多样化且独立的信源和可复制的结果更能令人信服。

显著性非常重要。用P表示一个偶然事件发生的概率。P=0.01意味着一个事件发生的概率是1%,但有可能这个事件根本没有发生。因此,为了降低偶然事件带来的影响,科学家在统计P值时,应当将取值控制在0.05以下。

非显著性结果的区分。统计上的显著结果的缺失( P-value > 0.05),并不意味着没有潜在影响:只是说还没有发现影响。一项小型研究可能没有能力发现某个现象中所蕴藏的真正区别。例如,测试转基因棉花和马铃薯作物产生的杀死害虫的毒素是否对益虫有副作用的研究中,倘若没有足够大的样本,也许就无法找到其中的显著差异。

效应量的影响。一个重复多次的研究可能会得到具有统计显著性的结果,但只是有一个较小的效应量。不过,效应量的影响因素属于生物学、物理学或社会学问题,而不是统计学问题。上世纪90年代,《流行病学》期刊要求作者在递交的手稿中不使用显著性统计,因为作者通常会曲解显著性实验的意义,从而为公共健康提供无效或有误导的建议。

研究相关性会限制总体结果。研究的相关性取决于研究的条件。例如,从动物到实验室试验再到人类的结果的转化过程存在限制。

感知影响风险预测。概括地讲,风险可以被认为是某段时间里一个事件发生的可能性,乘以该事件可能出现的结果。人们的风险感知受到许多东西的影响,其中包括事件的稀有度、可控度以及风险自发与否等。例如,美国人将家里拥有手枪的风险低估了100倍,却把住宅附近有核反应堆的风险扩大了10倍。


依赖关系改变风险。计算极端潮汐、暴雨等单个事件的风险是可以做到的。但是如果是相互关联的事件(例如风暴引起潮汐或大雨阻止工人进入工地),那么它们同时发生的概率比预想中的高。但是,信用评价机构断言,次级抵押贷款集团的违约风险非常低,这也是2008年信贷市场崩溃的主要原因。

挖掘或遴选数据。人们可以对事件进行安排以便支持某个观点。要解释孕妇食用酸奶和后代出现哮喘两者之间的关系,在挖掘和选择数据时,需要了解作者是单独测试了该假设,还是通过巨大数据集得出结论。

极端测量数据不准确。对于某个学校的教学水平调查,应当包括教师能力差异产生的可变性,加上学生样本的学习水平统计数据(不同学校的产出结果可能采用不同的测量方法)。但是,由此产生的变化通常只解释天生能力的差异,但忽略了其他因素。这种不确定的描述可能是一个极端结果(及格率翻倍),或者用平均值比照极端量级(学校X的及格率是国家平均值的3倍)或范围(最高或最低的学校之间的差异为x倍)。这种排行榜,可靠性不高。

关键词: 政治 科学