PCLADY首页 > 悦读 > 情感阅读 > 情感阅读_解读心理 > 解读心理_精彩连载 > 正文

第二章 伪科学的盛行(5)

2013-06-08 09:34 作者:村上宣宽

  取样偏误 在实际的调查过程中,取样人数通常只有数百人。而诸如“O型血的人都……”这样的假说,针对的对象却是全人类,全人类都是取样的母集。即使将样本范围扩大到数千人,依然只占到“全人类”这个母集中非常小的比例。因此,抽样的人数其实并不重要,重要的是样本质量。调查者必须从能代表母集性质的各区间内进行均衡取样。最理想的方式是随机取样,但在某些操作有困难的情况下,调查者往往不得不采取其他取样方式。如果取样不合适,就无法进行准确的统计学分析。血液性格学的提出者能见正比古采用的是读者调查问卷的方式,但只有那些对血液性格学感兴趣、了解相关知识并拥有共同语言的人才会回答问卷并提交,不感兴趣的人根本不会参加调查。所以读者调查问卷这一取样方式从一开始就存在着巨大的偏差。

  发表偏倚 学术研究通常是围绕着某项假说进行的。研究者如果获得了支持这项假说的实验结果,就会将其写成论文并向学会杂志投稿;但如果获得的是否定的结果,他们就根本不会动笔写论文。所以如果只看杂志上发表的论文,你就会觉得几乎所有的论文都是支持这项假说的,但事实上,还有许多研究并没有发表报告,因此必须打个折扣。在医学临床实验领域,研究者在获得某项研究结果之前必须先进行登记,这项制度可以避免发表偏倚的产生。但在心理学领域却没有类似的事先登记制度,所以在进行元分析(Meta-Analysis)时,研究者必须将发表偏倚考虑在内。(关于元分析,笔者将在之后的专栏中详细叙述。)

  逻辑推理并不等同于实证科学 即使根据客观事实作出逻辑分析,我们得出的结论也不一定正确。科学理论不仅要满足逻辑合理性,更需要通过实验来验证。比如,古代气质理论的逻辑推理过程如下:宇宙要素⇒人类的成分⇒人类的气质,但推理的结果却是完全错误的。同样,血型性格学的基础则仅仅是:不同的基因导致了四种血型的产生,而基因不同性格也应该不同。

  如何对研究结果作出评价?

  一般而言,实证科学要针对一项假说进行数百次实验,其中既会获得肯定的结论,也会获得否定的结论。研究质量是由多方面因素所决定的,所以我们不能简单地因为某项结果超过半数就得出结论。

  首先,我们必须对研究方案、受试者数量和取样方法进行分析,挑选出高质量的研究方式,然后再进行综合评价。不过,主观判断得出的结论很可能是错误的,所以我们还必须使用元分析这种统计学手段,计算出效果量(Effect Size)。换言之,实证科学就是使用元分析,将多次高质量的研究结果进行整合,从而确立支持该假说的证据(科学根据)。

  在医学上,证据效力最强的研究方式是进行随机比较实验,该研究方法的核心在于将受试者随机分成实验组和对照组,并进行比较。

  如果不是随机分配,则对受试者自身因素的控制不足,证据的级别将被降低。

  如果只有实验组而缺少对照组,则实验组的数值将只随时间改变,根本不能算是实证研究。单一的病例研究也不能算是证据,必须形成系列。

  专家意见很容易受主观因素和经验的影响,所以在证据中的等级最低。

  专栏:什么是元分析?

  所谓元分析,是指将同一问题的多项研究的结果,以统计学手段进行整合的方法。元分析大致可分为:假设检验的整合和针对平均值之差、比例和相关系数等统计学数据的整合。

  假设检验(hypothesis testing)的整合

  一般而言,运用实证科学对假说进行验证时,会先设立一个否定该假说的零假设(Null hypothesis),然后根据零假设进行数学推理,计算能支持该结果的理论概率。假如理论概论是像0.01这样极其低的数值,那么就可以得出零假设不成立的结论,从而成为支持原假说的证据。

  换言之,在数学上,想要证明A不等于B是很难的,但相反,如果假设A=B,则很容易证明,在这个零假设成立的前提下得到现有实验数据的概率非常小。通常认为,当这个概率小于0.05(5%)或0.01(1%)时,就可以被采纳。这个概率叫作p值,也可以叫作出错率或第一类错误概率。如果p值非常小,则一般认为零假设不成立,从而证明了原假说的成立。

  如果对同一主题已经进行了多项研究,人们往往以为用过半数原则就能进行判断,但如果单纯依赖这种直觉判断,很可能导致假说被否定。不同的研究会得出不同的p值,但这些p值还受到受试者数量等因素的影响,所以不能直接求它们的平均值。不过,我们可以利用p值的分布,将其变换成卡方检验值,然后利用卡方检验值计算出经过整合的p值,最后再根据该值对原假设进行综合判断。

  平均值之差的整合

  如果有多项研究是围绕同一问题中两组平均值之差所展开,则各项研究的测量单位很可能并不统一,从而导致差值的单位也不统一。这时,我们就必须将差值换算成标准分。比如,在分别调查男女差值时,需使用(男性均值—女性均值)÷(男女标准偏差的均值)来计算。当存在多项研究时,我们要根据样本量或分数方差计算出权重,然后对这些差值逐一求出平均值,称做效果量(Effect Size)。

  一般而言,效果量大小的评价方法如下:小于0.10时近似于零;在0.11~0.35之间时为小;在0.36~0.65之间时为中等;在0.66~1.00之间时为大,大于1.00时为非常大。根据效果量,我们可计算出第一组的值超过第二组的值的概率。其计算结果大致为:效果量是0.1则概率为0.53、0.3则概率为0.58、0.5则概率为0.64、0.7则概率为0.69、1.0则概率为0.76。

  比如,关于某项能力,计算出男女差值的效果量为0.10,则男性数值超过女性数值(或女性数值超过男性数值)的概率为0.53,效果量近似于零。

  相关系数的整合

  如果多项研究都是围绕同一问题中两个变量之间的相关系数(correlation coefficient)展开,则必须对该相关系数进行整合。相关系数会受到样本量等因素的影响,所以不能直接进行相加和平均。在这种情况下,我们必须先将相关系数换算成能够进行相加的Z值,计算出考虑了样本量及分数方差的权重,然后再进行相加和平均,最后通过Z值的逆换算,将其换算回整合后的相关系数。该相关系数同样被称做效果量。

  该效果量的评价方法与普通的相关系数相同。一般而言,相关系数小于0.2,则可认为相关度非常小;如在0.3左右,则视作轻度相关;0.5左右,视作具备一定程度的相关性;在0.8左右,则为高度相关。

  相关系数的平方表示的是共同的变动幅度,称做决定系数(coefficient of determination)。由于决定系数反映的是两个变量的共同的变动幅度,所以在这里也被称做影响力。

  若相关系数为0.2,则决定系数为0.04,共同的变动幅度仅为4%,这个值非常小,几乎可当做误差忽略。同理,若相关系数为0.5,则决定系数为0.25,共同的变动幅度达到25%,这时可以认为两者之间具备相当大的相关度。

4

《你知道和不知道的“性格”》  想了解真正科学的性格研究方法和成果?想做一个真正权威的性格评测?敬请翻开本书一试!

村上宣宽  富山大学人类发展科学部教授,日本著名大众心理学类图书作家,从事认知心理学的研究、统计分析、性格测定方面的项目开发。 >>点击阅读

关键词:你知道和不知道的“性格”   村上宣宽   长篇   解读心理

分享到:
热门文章
特别策划
  • 樱花草莓思慕雪,点亮半熟少女心
  • 鲜衣怒马是最好的致青春2
  • 美丽DNA:淡妆浓抹“粉”相宜
免费试用
今日查询

今日运势: 1月17日运势

本周运势 本月运势 本年运势 查询黄历 找好日子

精品推荐
爆笑萌宠