云手机网页版 【统计学中的常见误导及生活中的应用案例4200字】.docx
摘要:统计学,它是一门应用极为广泛的课程,在我们的生活里,在人们的工作中,都有可能会涉及到它。然而,统计学也是那种容易出现陷阱的kiayun手机版登录,其会误导人们的判断,所以需要对常见的统计学陷阱予以分辨,并且能够避免。基于这样的情况,本文围绕常见的统计学陷阱以及如何避免来展开,还针对生活中统计学的应用做了案例分析,期望凭借此能给统计学的应用提供些许思路。
关键词:统计学;陷阱;应用
1引言
在咱们平常的科研期间,或者是于论文进行写作之时,统计学方面的错误是广泛存在着的,在最近这些年,它也越发地引发了学者们以及大众媒体的普遍关注,怎样去提升统计学应用以及实践等相关方面是存在争议的kiayun手机版登录.v1008.点进白给你1888.中国,当前,研究的重点是统计推断方法的选择问题,尤其是在P值以及显著性检验这一块,下面针对常见的统计学陷阱进行一番剖析,并且还提出了相应的解决办法。
2常见的统计学陷阱及其解决
2.1研究设计阶段
(1)研究目的是为了证明等效性或非劣效性,但研究未进行相应设计
30名运动员被随机划分成两组,一组为生酮饮食组,另一组为习惯性饮食组,这两组的饮食时长均为四周。此项研究的目的在于论证生酮饮食对于正常饮食所产生的影响,即不会致使炎症反应有所增加。研究人员对两组患者四周时间的脂联素,也就是炎症标志物的水平展开了直接比较,结果显示两组之间的比较差异不存在统计学意义,具体情况是P等于0.50,所以最终得出的结论是:为期四周的生酮饮食并不会使炎症反应加重。
对于解决办法而言,研究设计应设定成非劣效性的实验,其目的在于证实某一干预举措不见得比其他策略差。由此,研究人员得预先把非劣效性界值确定下来,像脂联素让浓度升高0.5mg/L这样的情况。与此同时,样本量的计算涵盖该非劣效性界值的计算。
(2)未进行样本量计算,导致结果估计不精确、可信区间过宽
有一项研究,其目的在于评价一项全新的卒中患者平衡测试里评分者之间的可靠性,两位评分者针对10名卒中患者展开测评,研究者算出了组内相关系数以及95%可信区间,其结果是0.76,范围是0.23至0.93。存在问题就是ICC估算太过不准确,以致于无法对结果可靠性作出评判。
解决办法是,研究者要提前去计算样本量,针对评估当中是一致性还是可靠性的问题展开了研究,样本量需建立在达成很高的ICC精度的基础之上,或者是建立在ICC和非零值(像是0.50)对比的基础之上。
(3)研究使用了既往未经验证的测量量表
一项研究旨在考察网球比赛对于处在主观精神疲劳层面所发挥的作用,针对12名运动员展开了全赛季的随访工作,并且在每一场比赛之前、之中以及之后收集精神疲劳评分来进行相关研究。研究人员要求运动员在自制的量表之上,也就是0到100分的范围之内,去报告自身的心理疲劳状况。最终结果显示比赛前后精神状况呈现出显著降低的态势。然而问题在于,这个自制量表究竟是否有效可靠,这一点根本就没有得到证实。所以云手机网页版,观测上出现的不同情况,很有可能是由测量误差所导致形成的。
解决办法为研究人员采用这样一种测量主观精神疲劳的办法,该办法以前就已被证实。且此办法是要有已知信度与效度的,以相似的那类研究人群作为选择是更佳的。
2.2数据整理与清洗阶段
(1)数据处理中的错误操作导致了二分类变量编码的1/0反转
研究人员对700名跑步者展开调查,目的在于掌握其防晒习惯。初步分析显示,妇女、年纪较大、皮肤癌病史较多的跑步者,不太有可能频繁使用防晒霜,这些发现与人们的期望恰好相反。经过进一步排查,发觉存在1个编码错误,防晒指数依据1(经常使用)到5(从不使用)的维度予以编码,然而,当Excel里的数据被转化成二分类变量后,4、5数值错误编码为常用防晒霜,并且将1至3之间的数值重新编码,用以表明防晒措施欠缺。
解决方案是这样子的,建议在统计分析软件之中,像SAS、STATA、R这些软件里去开展数据清洗工作,从而能够让数据更改记录全部都可以保存到代码那儿。在操作统计模型之前,需要去考察每一个变量是不是准确的,是不是一致的。
(2)数据输入错误导致了虚假关联
研究人员以一种具有前瞻性的方式,收集了一百五十名来自美国高校的长跑运动员的数据,这些数据涵盖了睡觉的习惯以及一英里跑步所花费的时间。初步进行分析之后显示,夜间平均睡眠时间较长的情况,与一英里跑较快的时间存在着中度的相关性,其相关系数为负零点五五,P值小于零点零一。
可是,在绘制数据散点图的进程当中,却察觉到存在数据输入有误的状况呢:有一位运动员进行汇报称,他跑步所花费的时间是(七分三十秒哦),并且睡眠的时长也是都特别短暂的(每一晚仅仅五个小时呢)。把这个数据点给去除之后,睡眠时长跟跑步时间的相关性就转变为阴性啦(r等于负零点一五,P等于零点四六哦),而其最根本的原因是在于数据库里面运动员数据录入出现了错误。
解决办法是,在正式分析之前,研究者需要去验证资料,要尽量去画出散点图,其目的在于确定异常值以及数据输入是不是存在误差。对于录入错误的资料,是应当及时去纠正的,异常值是要留在数据集中的,不过对它的影响要用敏感性分析的方法来进行探讨。
2.3数据分析阶段
(1)未检查统计模型的相关性假设,导致错误的推断
部分同学针对健康对照组以及轻度脑外伤患者,在4种各异情形下,针对其头部旋转角度资料展开分析,运用重复测量方式来实施方差分析,结果显示,主效应处于研究条件方面的差异具备统计学意义(P = 0.032),然而,当你去查看原始数据之际,你会发觉在其中两个研究条件里,旋转角度的方差相较于其他条件而言大三倍,并非正态分布。
所以,这一资料和方差分析里的两条假定相违背,这两条假定是方差齐性,在这个例子中比较具体的是球形检验,还有残差正态性。和球形检验相悖的假设,有导致一类错误率上升的可能。在针对该实例的数据进行非参数检验时,所得到的P值远远高于P等于0.24。
解决方案是,在研究人员操作任何形式的统计模型,并开展测试之前,对于数据集中各个变量的状况,得要有全面的认识;要获取所有有关变量的描述性统计、生成散点图、直方图等信息。并且,研究人员还需要去考察数据是吻合统计模型,还是契合所考察的假设。
(2)数据分析忽略了重要的相关性来源,导致P值被严重低估
对以防止运动性损伤为目标的整组随机对照试验,研究人员展开了,随机挑选五所中学介入,把这五所中学随机划分成对照组,干预组教练参加一个时长教育研讨会,研究能降低损伤的具体热身方案,对照组教练则接收教育性邮件。
接下来的一年时间里,研究者们纷纷加入到队伍当中,并且针对热身活动数量展开了记录工作。在研究过程中发现,干预组的教练员在54除以200也就是27%的那些比赛里实施了这一过程,然而,对照组的教练员仅仅是在30除以2的情况中。