经验分享:如何有效地分析一份数据

文章来源:“小白学统计”公众号。
如何有效地分析一份数据。这个题目很大,然而也正是很多非统计学专业(可能也包括一些统计学专业人员)不知如何下手的问题。当拿到一份数据,到底从哪儿入手开始分析。什么是第一步?有没有固定步骤?或者说,数据分析到底有没有什么宝典?我们就来谈谈这个问题。


首先,数据分析绝对没有一个固定的步骤,一定要先干什么,再干什么,等等。没有这回事。具体在软件操作上,我们可能并无差别,我会用SAS做t检验,你会用SPSS做t检验,本质上并无差异。真正差别的,不是软件操作,而是软件操作之前的思路。


我下面要说的内容,只是个人的十多年分析经验总结,但你千万不要把它看做是一个放之四海而皆准的分析套路。所谓思路,那就是没有什么固定套路,只是参考和借鉴。而且,我介绍的这些,肯定也不全,几乎不可能一篇文章面面俱到,把所有的分析思路都介绍清楚。只希望能对各位朋友在不同角度上有所帮助。


第一步要考虑的,我个人认为,一定是研究目的


所有的统计分析都是围绕目的而执行,偏离了研究目的,分析的方法再高级,那也是南辕北辙。不同的目的,需要考虑不同的方法。


例如,你要做两组比较(例如,两种药物的血糖变化值有无差异),还是要做两个变量有无关联(比如血糖值和血压值的关联),或者想做综合评价(如根据多个指标评价哪家医院更好)。这都需要选择不一样的方法,组间比较可能最简单的方差分析就可以,综合评价可能需要用到主成分分析等更为复杂的方法。


第二步,要考虑指标的类型。


这里的指标包括分析指标因变量,也包括影响因素自变量。当然,并非所有分析都这么划分为因变量和自变量。有的可能只有分析指标,而无影响因素。


如果你有明确的结局,然后有一个或多个可能跟结局有关的指标,那就可以按因变量和自变量的方法来分析。大多数的这种情形都可以考虑广义线性模型。它包含了几乎绝大多数的有结局和影响因素的分析场景。例如,结局是连续资料,可以考虑线性回归等;结局是分类资料,可以考虑logistics回归等。


可能有人会说,那t检验、卡方检验这些在哪儿呢?其实这些都可以看做是单因素分析而已。t检验,只是一个自变量是二分类、因变量是连续变量的回归模型而已。比如比较男女之间身高有无差异,身高就是因变量(结局),性别就是自变量(因素),所谓比较男女之间有无差异,实际上就是说,性别对身高有无影响。其实一回事。卡方检验亦是如此。


所以,几乎所有的统计分析方法,都跟变量类型有关,都需要根据变量的类型来选择不同的方法。比如,如果结局指标是连续变量,那可以考虑的方法包括(但不限于):t检验、方差分析、协方差分析、线性回归、秩和检验、中位数回归等等,根据自变量的类型、因变量是否服从正态分布等多个因素来考虑选择。


但是还有一些分析数据,是不区分所谓的因变量和自变量的,都是分析指标,比较常见的如主成分分析、聚类分析、相关分析、因子分析等等。这些分析方法不是为了研究某些因素对结局的影响,而只是针对分析指标根据不同目的进行一定的分析。
例如,主成分分析通常是为了把多个分析指标综合成较少的几个指标;聚类分析通常是为了根据几个指标把人群归为几类;因子分析通常是为了寻找支配表面指标的背后因素。这些方法一般称为多元方法,“元”一般是指因变量,这些都是多因变量的方法。
而前面说的线性回归、logistics回归等,通常都是单个因变量,多个自变量,因此算不上多元方法,更确切地说是多因素的分析方法。


第三步,具体问题具体分析。


可能你会说,这算什么步骤。然而,实际的情况是,真正到了数据分析过程中,往往就是具体问题具体分析。


根据前面提到的目的和数据类型,你基本上可以确定一定范围的几种方法。有时可能就确定了某一种方法了。然而再利用这种方法进行分析的时候,仍需要一些思路的指导。


根据我个人的分析领域和分析经验,在医学统计学中,大多数的分析方法(并非全部)可以归为两大类:一是有结局也有影响因素的;二是只有结局没有影响因素的。这里面又以有结局有影响因素的更为常见。


对于有结局有影响因素的这类数据,大多数的目的都是为了寻找结局主要受哪些因素影响。因此这里主要是基于这种目的再来说一下分析思路。


想要说明某一自变量是否对结局有影响,至少需要回答三个问题:


(1)是不是有影响?


(2)有什么样的影响?(线性影响,还是非线性的)


(3)影响有多大?


某一自变量是不是对结局有影响(例如,收缩压的高低是不是对血糖值有影响),这是个定性问题,要回答这个问题,基本上P值可以说明一些问题。P值可以告诉我们,这种影响是不是偶然造成的,还是一种真实存在的现象。


然而,仅回答“是不是有影响”,这是远远不够的。比如,你可以说,吸烟有害健康,这是定性问题。然而,吸烟对健康的危害到底有多大,这是个定量问题。这才是大家更关心的。因此还需要考虑这种影响到底有多大。


影响有多大,可以通过统计软件中的“参数估计值”来说明。比如,我们常说的回归系数、两组比较的均值差值,这都是参数估计值,他们可以说明这种影响有多大。例如,体重对收缩压的参数估计值是0.1,说明体重每增加一公斤,收缩压增加0.1;男女的身高差值是0.2,说明性别从女到男之间的差异是0.2。这可以定量说明影响有多大。


现在看来,似乎定性和定量都回答完了。事实上,很多人也就做到这一步就完了。然而,其实还有更重要的一个要回答的问题是:“有什么样的影响”。


回答影响因素的模型,大多数是回归模型,而回归模型中,大多数又都是基于这样一个假设:自变量和因变量(或者因变量的变形)是线性关系。不得不说,很多人根本无视这个假设,从而导致很多分析结果其实都是错误的。毕竟,现实中有多少关系是线性的呢?其实很多可能都是非线性的。这就是要回答的重要问题“有什么样的影响”,到底是线性的影响,还是非线性的影响。


遗憾的是,关于这个至关重要的问题,却只有少数人能回答。根据我个人的经历,大多数人(包括很多统计学家)是不考虑这个问题的。也许,不是不考虑,而是没有考虑到,或者,不知道该怎么考虑。


关于“有什么样的影响”,有些可以通过简单的散点图就可以发现,有的则更为复杂,一眼看不出来,可能需要像广义可加模型、样条回归、核平滑等多种技术协助探索。这可能需要专业的统计学家才能完成。然而,这也是体现专业和非专业的非常关键的一点:能不能真正帮你找到数据规律。


总的来说,要真正形成自己的分析体系,一定要先掌握各种方法,然后把这些方法之间的关系搞清楚,抽丝剥茧,提炼升华。这是一个由粗到细,再到粗的一个过程。只有细致深入,真正理解,才能把握重点,提炼出粗略的枝干。
只有了解足够多的方法,在考虑方法选择的时候才能做到“胸有成竹”,从多种方法中选择最合适的,否则你只会一种方法,就只能局限于这种方法,无法进行选择。虽然可能最后的结果都一样,都用了同一种方法,但是过程却不同。你可能是不会别的方法,只能用这种;而我是考虑了多种方法后,认为这种最为合适,主动选择了这种方法。
苏州华测